Gewichtungsverfahren in der empirischen Sozialforschung ... · PDF fileDie Simulation soll...
-
Upload
truongminh -
Category
Documents
-
view
217 -
download
1
Transcript of Gewichtungsverfahren in der empirischen Sozialforschung ... · PDF fileDie Simulation soll...
Gewichtungsverfahren in der
empirischen Sozialforschung.
Resultate Monte-Carlo-simulierter
Redressment-Prozeduren
MARK LUTTER
Diplomarbeit, Universität Duisburg-Essen, 2005
Gewichtungsverfahren
in der empirischen Sozialforschung. Resultate
Monte-Carlo-simulierter
Redressment-Prozeduren.
Diplomarbeit
im Fach Empirische Sozialforschung
des integrierten Diplom II - Studiengangs
Sozialwissenschaften
an der
Universität Duisburg-Essen,
Campus Duisburg.
Erstgutachter: Prof. Dr. Frank Faulbaum
Zweitgutachterin: Prof. Dr. Petra Stein
vorgelegt von Mark Lutter
Duisburg, im Februar 2005
2
Inhaltsverzeichnis
1. Einleitung ....................................................................................... 05
2. Designbasierte Gewichtungsverfahren ........................................08
2.1 Theoretische Grundlage: Der Horvitz-Thompson-Schätzer ............08
2.2 Designbasierte Gewichtungsverfahren in der Praxis .......................15
2.2.1 Die Transformationsgewichtung am Beispiel:
Gewichtung nach der ‚reduzierten Haushaltsgröße’
bei ADM-Stichproben ......................................................... 16
2.2.2 Die Proportionalisierungsmethode am Beispiel:
Die Ost-West-Gewichtung der Sozialforschungs-
umfrage ALLBUS ............................................................... 18
3. Modellbasierte Gewichtungsverfahren ....................................... 20
3.1 Theoretische Grundlage: Die Regressionsschätzung ...................... 21
3.2 Modellbasierte Gewichtungsverfahren in der Praxis ...................... 29
3.2.1 Die Gewichtung nach dem Redressment-Prinzip ................29
3.2.2 Gewichtungsverfahren in der Wahlforschung .....................33
3.2.3 Gewichtung von Web-Surveys nach der
Propensity-Score Technik ....................................................36
3.2.4 Gewichtung zur Korrektur von Nonresponse ......................43
4. Die empirische Überprüfung der Auswirkungen einer Redressment-Gewichtung mittels Monte-Carlo-Simulation .....49
4.1 Zielsetzung und Vorgehensweise ................................................... 49
4.2 Zur Durchführung ........................................................................... 51
4.2.1 Konstruktion der Population ............................................... 53
4.2.2 Konstruktion des Gewichtungsmerkmals „Geschlecht“ ..... 54
4.3 Simulation 1: Auswirkungen der Redressment-Gewichtung auf
die Schätzung von Mittelwerten ......................................................56
4.3.1 Ziehung der Stichproben und Implementierung des
Gewichtungsverfahrens .......................................................56
4.3.2 Ergebnisauswertung ............................................................ 57
4.3.2.1 Vergleich der Erwartungswerte .............................. 57
3
4.3.2.2 Vergleich der Varianzen ......................................... 61
4.3.2.3 Vergleich der Differenzen zum wahren Wert ........ 65
4.3.2.4 Vergleich der Konfidenzintervalle ......................... 66
4.3.3 Zwischenfazit 1 ................................................................... 68
4.4 Simulation 2: Implementierung einer weiteren Gewichtungs-
Variablen ......................................................................................... 69
4.4.1 Ergebnisauswertung ............................................................ 70
4.4.1.1 Vergleich der Erwartungswerte .............................. 70
4.4.1.2 Vergleich der Varianzen ......................................... 72
4.4.2 Zwischenfazit 2 ................................................................... 74
4.5 Simulation 3: Auswirkungen der Redressment-Gewichtung
auf die Schätzung von Korrelationskoeffizienten ........................... 74
4.5.1 Ergebnisauswertung . .......................................................... 76
4.5.1.1 Vergleich der Erwartungswerte .............................. 76
4.5.1.2 Vergleich der Varianzen ......................................... 79
4.5.1.3 Vergleich der Differenzen zum wahren Wert ........ 80
4.5.2 Zwischenfazit 3 ................................................................... 80
4.6 Simulation 4: Auswirkungen der Redressment-Gewichtung
auf die Schätzung von Mittelwerten unter Berücksichtigung
systematischer Nonresponse-Effekte .............................................. 81
4.6.1 Ergebnisauswertung ............................................................ 85
4.6.1.1 Vergleich der Erwartungswerte .............................. 85
4.6.1.2 Vergleich der Varianzen ......................................... 88
4.6.1.3 Vergleich der Differenzen zum wahren Wert ........ 89
4.6.1.4 Vergleich der Konfidenzintervalle ......................... 90
4.6.2 Zwischenfazit 4 ................................................................... 92
5. Schlussfolgerungen ....................................................................... 93
Anhang 1 .............................................................................................. 97
Anhang 2............................................................................................... 98
4
Anhang 3............................................................................................... 99
Anhang 4............................................................................................... 102
Literaturverzeichnis ............................................................................104
Erklärung .............................................................................................110
5
1. Einleitung
Die Gewichtung von Stichproben, insbesondere von Umfragen, soll
Gegenstand dieser Arbeit sein. Von zentralem Interesse sind dabei sowohl die
theoretischen Grundlagen und Voraussetzungen einer effizienten Gewichtung
als auch konkrete Praxisanwendungen verschiedener Gewichtungsstrategien.
Darüber hinaus soll die Leistungsfähigkeit einer Redressment-Gewichtung
mittels Monte-Carlo-Simulation analysiert werden. Das Redressment-Prinzip
ist die praxisübliche Anpassung von Stichprobenverteilungen an Eckdaten der
amtlichen Statistik. Bei vielen Umfragen in der Markt- und Sozialforschung
gehört dieses Verfahren zum methodologischen Standardrepertoire seitens der
durchführenden Institute. Viele Nutzer von Survey-Daten stehen dem
Verfahren jedoch mit einiger Skepsis gegenüber. Oft wird der Vorwurf laut,
dass diese Prozeduren Nonsampling-Fehler nur kaschieren, nicht aber
beheben. Ziel der Simulationsstudie soll es sein, die Bedingungen zu
demonstrieren, unter denen die Redressment-Gewichtung zum wirksamen
Instrument in der empirischen Sozialforschung wird.
Im Allgemeinen versteht man unter „Gewichtung“ in der empirischen
Sozialforschung den Versuch, die „Repräsentativität“ einer Stichproben-
erhebung zu erhöhen. Unter „Repräsentativität“ wird ein möglichst hoher Grad
an Konkordanz der Erhebungsvariablen mit ihren Pendants in der
Zielpopulation begriffen.
Im technischen Sinne bedeutet die Stichprobengewichtung, dass der
komplette Antwortvektor einer Untersuchungseinheit mit einem
multiplikativen Faktor versehen wird. Es entsteht damit im Datensatz eine
neue (Gewichtungs-)Variable, die jedem Element fall- bzw. zeilenweise ihr
entsprechendes Gewicht zuordnet. Dadurch gehen Messwerte von
Befragungspersonen mit veränderter relativer Bedeutsamkeit in die
Berechnung von Stichprobenkennwerten (Merkmalsummen, Mittelwerte,
Varianzen, Kovarianzen etc.) ein.
Insgesamt existieren zahlreiche Prozeduren der Gewichtung, die sich in
zwei Kategorien zusammenfassen lassen: die designbasierten und die
modellbasierten Gewichtungsverfahren.
Jede designbasierte Gewichtung resultiert aus der konkreten
Stichprobenanlage und dient dem Ausgleich designbedingter Verzerrungen. Im
Unterschied zur modellbasierten Gewichtung ist ihre Verwendung gemäß der
6
Stichprobentheorie unerlässlich, da nur durch sie erwartungstreue, d.h.
unverzerrte Schätzer möglich sind.
Zu den modellbasierten Gewichtungsverfahren zählen alle Methoden,
die nicht durch das Stichprobendesign legitimiert werden. Diese Prozeduren
verfolgen zwei Ziele: Zum einen können sie durch Varianzreduktion die
Präzision („precision“) einer Schätzung erhöhen und zum anderen können sie
Verzerrungen ausgleichen, die nicht direkt auf den Prozess der
Stichprobenziehung zurückzuführen sind wie z.B. systematischen Non-
response, Non-Coverage oder Effekte der Befragungsart („nonsampling
errors“). Durch diese Bias-Reduktion können sie die Exaktheit („accuracy“)
einer Schätzung verbessern.
Modellbasierte Prozeduren zeichnen sich in erster Linie dadurch aus,
dass ihrer Anwendung diverse Modellannahmen vorausgesetzt sind. Dazu
gehört die regressionsanalytische Modellierung der Schätzfunktion durch
zusätzliche, für die Ebene der Population gültige Informationen. Theoretische
Grundlage dafür bilden die aus der Stichproben- und Schätztheorie bekannten
Regressionsschätzer. Daneben existieren modellbasierte Methoden, die ihre
Legitimation von verschiedenen, hypothesengeleiteten „Ad-Hoc-Modellen“
erhalten. Der Erfolg einer solchen Prozedur hängt dabei von der empirischen
Gültigkeit der aufgestellten Hypothesen ab.
Die designbasierte Gewichtung steht in Kapitel 2 im Fokus des
Interesses. Es sollen dort sowohl ihre stichprobentheoretischen Grundlagen
(Kapitel 2.1) als auch ihre Anwendung in der Umfragepraxis anhand zweier
Beispiele dargelegt werden (Kapitel 2.2).
In Kapitel 3 werden die modellbasierten Gewichtungsverfahren
thematisiert. Zunächst erörtern wir in Kapitel 3.1 die theoretischen Grundlagen
und Voraussetzungen der Regressionsschätzung, anschließend diskutieren wir
in Kapitel 3.2 verschiedene Anwendungen der modellbasierten Gewichtung in
der Umfragepraxis. Direkte pragmatische Adaption der Regressionsschätzung
stellt dabei die Gewichtungsmethode nach dem sog. Redressment-Prinzip dar
(Kapitel 3.2.1). Bei der sog. Rückerinnerungsgewichtung in der
Wahlforschung (Kapitel 3.2.2), der Gewichtung von Web-Surveys nach der
Propensity-Score-Methode (Kapitel 3.2.3) und den Strategien zur
Korrekturgewichtung von Unit-Nonresponse-Effekten (Kapitel 3.2.4) handelt
es sich um Anwendungsbeispiele, bei denen gleichzeitig diverse
hypothesengeleitete Modellannahmen eine Rolle spielen.
7
Nach diesem ersten Abschnitt der Arbeit soll in einem experimentellen
Teil überprüft werden, wie sich eine Gewichtung nach dem Redressment-
Prinzip konkret auf die Qualität von Stichprobendaten auswirkt (Kapitel 4).
Dies geschieht mittels Monte-Carlo-Simulation, bei der aus einer artifiziell
erzeugten Population immer wieder (einfache) Zufallsstichproben gezogen
werden. Jedes Mal wird der ungewichtete und der (nach dem Redressment-
Prinzip) gewichtete Schätzer berechnet und in einer Kennwerte-Datei
abgespeichert. Anschließend soll der Vergleich der Häufigkeitsverteilung
dieser Kennwerte Aufschluss geben über Präzision und Akkuratesse der
gewichteten Schätzung.
Die Simulation soll dabei unter verschiedenen, für die Umfragepraxis
relevanten Szenarien erfolgen. Dazu gehört, dass neben gewichteten
Mittelwerten (vgl. Kapitel 4.3 und 4.4) auch gewichtete Korrelations-
koeffizienten (vgl. Kapitel 4.5) untersucht werden. Dazu gehört weiter, dass
die Gewichtung unter verschiedenen Modellgüte-Szenarien im Sinne einer
unterschiedlich hohen Korrelation zwischen Gewichtungs- und Unter-
suchungsmerkmal analysiert wird.
Für eine realitätsnahe Simulation sollte vor allem auch die Möglichkeit
systematischer Ausfallerscheinungen in Betracht gezogen werden. Dies soll in
Kaptitel 4.6 geschehen. Dort geht es um die Erforschung der wichtigen Frage,
unter welchen Bedingungen das Redressment-Prinzip in der Lage ist,
Nonresponse-Verzerrungen auszugleichen.
In einem zusammenfassenden, letzten Kapitel sollen dann die
wichtigsten Implikationen dieser Simulationsstudie zusammengetragen werden
(Kapitel 5).
8
2. Designbasierte Gewichtungsverfahren
Generell gilt die Prämisse, dass jede Stichprobe auf wahrscheinlichkeits-
theoretischer Grundlage gewichtet werden muss.
Stichproben auf „wahrscheinlichkeitstheoretischer Grundlage“ sind
solche, die nach den Regeln der Zufalls- oder Wahrscheinlichkeitsauswahl
realisiert wurden. Sie liegt dann vor, wenn – um mit den Worten von Neurath
(1962: 266) einen intuitiven Zugang zu finden – „das Auswahlverfahren im
Wesentlichen eine Parallele darstellt zur blinden Auswahl einer Anzahl von
Kugeln aus einer gutdurchgemischten Urne“ (Hervorhebungen im Original).
Die maßgebliche Eigenschaft der Wahrscheinlichkeitsauswahl besteht darin,
dass jedem Element der Grundgesamtheit eine von Null verschiedene,
bekannte Wahrscheinlichkeit zugeordnet ist, in die Stichprobe zu gelangen.
Die designbasierte Gewichtung erfolgt dabei stets dergestalt, dass bei
der Berechnung eines Stichprobenkennwertes jedes Element mit dem
Kehrwert seiner Auswahlwahrscheinlichkeit multipliziert wird. Da sich die
Auswahlwahrscheinlichkeit direkt aus dem gewählten Stichprobendesign
ergibt, wird diese Form der Gewichtung üblicherweise als ‚Designgewichtung’
bezeichnet.
Die theoretische Rechtfertigung für dieses Vorgehen ergibt sich aus der
klassischen Stichproben- und Schätztheorie. Die relevanten theoretischen
Aspekte der designbasierten Gewichtung sollen, bevor auf einige
Anwendungen in der Praxis eingegangen wird, im folgenden Kapitel skizziert
werden.
2.1 Theoretische Grundlage: Der Horvitz-Thompson-Schätzer1
Kern- und Kristallisationspunkt einer jeden designbasierten Gewichtung bildet
die Logik des sog. „Horvitz-Thompson-Quotienten-Schätzers“ (im Folgenden
abgekürzt mit: „HTQ-Schätzer“). Diese besagt schlichtweg folgendes: Für eine
unverzerrte Schätzung eines Populationsparameters wird jeder Messwert mit 1 Die nachfolgend dargestellten Konzepte basieren im Wesentlichen auf den Ausführungen der Lehrbücher Hansen/Hurvitz/Madow (1953), Cochran (1972), Särndal/Swensson/Wretman (1997) und Lohr (1999). Das Prinzip des Horvitz-Thompson-Schätzers findet sich im Original beschrieben bei Horvitz/Thompson (1952).
9
dem Inversen seiner Auswahlwahrscheinlichkeit multipliziert. Die nachfolgend
dargestellten Konzepte sollen dies konkretisieren.
Gegeben sei eine finite Population U={1,..,N}, sowie die
Merkmalswerte {y1,y2,...,yN} des interessierenden Merkmals Y. Zwei
Populationsparameter, die üblicherweise durch Stichprobenuntersuchungen
geschätzt werden sollen, sind der Gesamtwert aller Merkmalswerte
∑= U kyt (1)
sowie das arithmetische Mittel aller Merkmalswerte
NtyU = (2)
Bei einer Stichprobenauswahl auf wahrscheinlichkeitstheoretischer Grundlage
wird ein Sample S vom Umfang n aus U gezogen. Die
Auswahlwahrscheinlichkeit kπ ist für jedes Element k von Null verschieden
und durch das gewählte Design a priori bekannt. Die Gewichtung eines jeden
Merkmalwertes der Stichprobe mit dem Kehrwert seiner
Auswahlwahrscheinlichkeit ergibt die HTQ-Schätzer
für das Populationstotal
∑= S kk
ytππ1ˆ (3)
bzw. für den Populationsmittelwert
NtyUπˆ = (4)
Die Stärke der Gewichtung hängt nun, wie es sich aus (3) direkt ergibt, von
der reziproken Auswahlchance ab: je größer die Auswahlwahrscheinlichkeit π
für ein Element, desto geringer fällt sein Variablenwert bei der Berechnung
eines Kennwertes ins Gewicht. Umgekehrt gilt: Je geringer dessen Chance,
10
desto größer ist seine relative Wichtigkeit. Ergo: Sind Elemente in der
Stichprobe aufgrund des verwendeten Designs durch höhere
Auswahlwahrscheinlichkeiten über-, bzw. durch niedrigere unterrepräsentiert,
sorgt die Gewichtung für einen entsprechenden Ausgleich dieser
(designabhängigen) Verzerrung. Ein Praxisbeispiel für die Gewichtung nach
(3) wäre die Gewichtung bei ADM-Stichproben nach der sog. ‚reduzierten
Haushaltsgröße’. Diese steht in Kapitel (2.2.1) zur Diskussion.
Wie sich zeigen lässt, liefert der HTQ-Schätzer eine erwartungstreue,
„unverzerrte“ Schätzfunktion des Populationsparameters (vgl. z.B.
Särndal/Swensson/Wretman 1997: 42). Das bedeutet, dass der Mittelwert aller
berechneten Schätzer (= Erwartungswert) bei ceteris paribus wiederholten
Stichprobenschätzungen genau den Wert trifft, der sich bei einer Totalzählung
der Elemente aus U ergibt. Ein Maß für die Exaktheit oder die Verzerrung
eines Schätzers ist der Abstand zwischen Erwartungswert und tatsächlichem
Populationswert, der ‚Bias’. Da die Schätzfunktion unverzerrt ist („unbiased“),
gilt damit:
Bias( πt ) = E( πt ) – t = 0 (5a)
bzw.
Bias( Uy ) = E( Uy ) - Uy = 0 (5b)
Die Erwartungstreue ist eine erstrebenswerte statistische Eigenschaft. Sie
garantiert, dass die Stichprobenkennwerte im landläufigen Sinne als
'repräsentativ' für die definierte Grundgesamtheit anzusehen sind, sofern
Verzerrungen, die nicht auf den Prozess der reinen Stichprobenziehung
zurückzuführen sind (‚nonsampling errors’), außer Acht gelassen werden.
Ein Maß für die Präzision eines Schätzers ist die Varianz. Sie ist
allgemein definiert als die Summe der quadratischen Abstände aller möglichen
Schätzer vom Erwartungswert, geteilt durch ihre Anzahl. Für eine präzise
Schätzung sollte sie möglichst klein sein. Sie lässt sich, darauf wird noch
eingegangen, durch verschiedene Maßnahmen wie Prä- oder Poststratifikation,
verringern.
11
Bei Vorliegen einer einfachen Zufallsauswahl (‚simple random
sampling’) sind die Auswahlwahrscheinlichkeiten für alle Elemente gleich und
ergeben sich mit πk = π = n/N. Dieser Wert besagt, welcher Bruchteil der
Gesamtheit in die Stichprobe gelangt und wird daher „Auswahlsatz“
(‚sampling fraction’) genannt. Der Kehrwert des Auswahlsatzes wird
üblicherweise „Hochrechnungsfaktor“ genannt und bildet nun nach Logik des
HTQ-Schätzers das Gewicht der Merkmalswerte bei einfacher Zufallsauswahl.
Wie nachfolgend (6) zeigt, entspricht damit der HTQ-Schätzer für das
Populationstotal dem N-fachen des Stichprobenmittelwertes:
ssk
ksyN
Nnyyt ⋅=== ∑∑ /
1ˆπ
(6)
Für den HTQ-Schätzer des Populationsmittelwertes bedeutet dies, dass es der
Stichprobenmittelwert selbst ist, der als HTQ-Schätzer fungiert. Dies zeigt
nachfolgend (7):
ss
U yN
yNNty =
⋅==
ˆˆ (7)
Jede Realisierung einer einfachen Zufallsstichprobe produziert demnach eine
selbstgewichtende Stichprobe: die Merkmalswerte können direkt und ohne
vorherige Manipulation in die Berechnung von Kennwerten eingehen.
Im Rahmen der Zufälligkeit der Auswahl kann es bei der einfachen
Zufallsstichprobe durchaus möglich sein, dass diverse Subgruppen einer
heterogenen Gesamtheit nicht adäquat genug erfasst werden. Dies kann sich
negativ auf die Qualität der Stichprobenschätzung auswirken. Um dem
entgegenzuwirken, lässt sich die heterogene Grundgesamtheit vor der Auswahl
in Schichten einteilen, die - bezüglich des interessierenden Merkmals -
homogen sind. Damit lassen sich Schätzungen von deutlich erhöhter Präzision
erzielen.
Dies ist der Fall der geschichteten Auswahl. Dort partitionieren wir die
Grundgesamtheit U={1,...,N} in H paarweise schnittfremde Schichten Uh. Dies
geschieht vor jeder Stichprobenauswahl. Die Anzahl der Elemente von Uh ist
mit Nh bezeichnet. Es gilt damit:
12
∑=
=H
hhNN
1
(8)
bzw. H
hhUU
1=
= wobei Ui ∩ Uj = φ, i ≠ j (9)
Alle Teilgesamtheiten Uh werden als eigene Grundgesamtheiten angesehen, in
denen unabhängig voneinander separate Wahrscheinlichkeitsauswahlen
durchgeführt werden. So ist es beispielsweise möglich - den entsprechenden
Erfordernissen im Feld nachkommend - innerhalb jeder Schicht mit
unterschiedlichen Designs zu arbeiten.
Der zu schätzende Populationsgesamtwert bildet nun die Summe der
einzelnen, schichtinternen Totale:
∑∑∑∑== ∈
===H
hh
H
h Ukk
Uk tyyt
h 11 (10)
Das Prinzip des HTQ-Schätzers gilt hierbei in gleicher Weise. Allerdings
verwendet man jetzt je Schicht die reziproken Auswahlwahrscheinlichkeiten
der Merkmalsträger als Gewichtungsfaktoren. Die Summe der einzelnen,
schichtinternen HTQ-Schätzer bildet dann dementsprechend den Schätzer für
die Gesamtpopulation:
∑=
=H
hhtt
1
ˆˆπ (11)
Innerhalb jeder Schicht soll nun eine einfache Zufallsauswahl vom Umfang nh
durchgeführt werden (‚stratified simple random sampling’). Analog zu (8)
ergibt sich der Gesamtumfang der Stichprobe aus ∑=
=H
hhnn
1
. Den geschätzten
Gesamtwert t erhalten wir folglich als Summe der einzelnen, schichtinternen
HTQ-Schätzer:
13
∑=
=H
hSh h
yNt1
ˆ (12)
Dabei ist ∑=h
hS
hkS nyy / der Stichprobenmittelwert pro Schicht. Für das
geschätzte arithmetische Mittel U
y resultiert daraus, dass die einzelnen
schichtinternen Stichprobenmittelwerte mit dem relativen Umfang Nh/N der
Schicht multipliziert werden:
hU S
H
h
h yNN
Nty ∑
=
==1
ˆˆ (13)
Das eigentliche, schichtspezifische Designgewicht 1/π ist hieraus nicht auf
Anhieb ersichtlich. Dennoch ist es in (12) und (13) enthalten. Dies soll
deutlich gemacht werden, indem (12) etwas ausführlicher formuliert wird:
∑∑∑= ∈=
==H
h Skk
h
hH
hSh
h
hhy
nNyNt
11
ˆ (14)
Wie hieraus erkennbar, wird tatsächlich jeder Merkmalswert mit dem Inversen
seiner Auswahlwahrscheinlichkeit gewichtet. Für das oben angeführte Design
bedeutet dies, dass die Elemente mit 1/π = Nh/nh multipliziert werden, was dem
relativen Verhältnis von konkretem Schichtumfang Nh zu schichtspezifischem
Stichprobenumfang nh entspricht. Ist dieses Verhältnis exakt ausgewogen in
dem Sinne, dass jeder Schicht eine genaue Anzahl von Fällen entnommen
wird, die in Relation strikt dem tatsächlichem Anteil der Schicht an der
Gesamtheit entspricht, dann gehen alle Merkmalswerte unabhängig ihrer
Schichtzugehörigkeit mit gleichem Gewicht in die Auswertung ein. Es gilt
dann Nh/nh = N/n. Dies ist der Fall der proportional geschichteten
Stichprobenauswahl. Der geschätzte Gesamtmittelwert U
y entspricht dann
dem einfachen arithmetischen Mittel für alle ausgewählten Merkmalswerte.
Die Stichprobe ist damit selbstgewichtend. Bei disproportionaler Auswahl
jedoch, d.h. dann, wenn die entnommene Fallzahl pro Schicht genau nicht dem
14
tatsächlichen Anteil der Schicht an der Gesamtheit entspricht, bekommen alle
Messwerte eines Teilkollektivs ihr spezifisches Schichtgewicht Nh/nh
zugewiesen. Dadurch werden designbedingte Disproportionalitäten der
Stichprobe automatisch ausgeglichen, da eben Merkmalswerte von Mitgliedern
einer über- oder unterrepräsentierten Schicht mit einem dazu umgekehrt
proportional geringerem, respektive höherem Gewicht in die Berechnung von
Schätzern eingehen. Damit ist gewährleistet, dass Auswertungen auf der
Gesamtebene unverzerrt durchgeführt werden können. In der Praxis nennt sich
diese Art der Designgewichtung ‚Proportionalisierung’. Ein praxisnahes
Beispiel, auf das in Kapitel (2.2.2) eingegangen wird, liefert die Ost-West-
Gewichtung der Sozialforschungsumfrage ALLBUS.
Sinn und Zweck jeglicher Schichtung liegt nun, wie bereits angedeutet, in der
erhöhten Präzision im Sinne einer reduzierten Varianz des Schätzers. Damit ist
gemeint, dass der geschichtete Schätzer bei wiederholter Stichprobenziehung
aus der gleichen Grundgesamtheit im Durchschnitt geringer um seinen
Erwartungswert streut als der Schätzer bei einfacher Auswahl. Mit einer
verringerten Varianz ist insbesondere immer dann zu rechnen, wenn das
Schichtungsmerkmal die Population in Bezug auf das interessierende Merkmal
in homogene Schichten einteilt. Dies ist gegeben, wenn Schichtungs- und
Untersuchungsmerkmal sehr stark kovariieren.
Zur Normierung von Gewichten lässt sich folgendes sagen. Die Summe aller
Gewichte in der Stichprobe ist (zunächst) gleich dem Umfang der
Grundgesamtheit, d.h. es gilt:
Nn
ii =∑
=1/1 π (15)
Damit repräsentiert nun jeder Messwert i in der Stichprobe genau 1/πi Werte in
der Population. Das Sample wird damit sozusagen „auf Populationsebene“
hochgerechnet.
Die Gewichte können aber – je nach Design und Auswahlsatz – zum
Teil sehr große Werte annehmen. Findet sich etwa bei der geschichteten,
einfachen Auswahl innerhalb einer Schicht ein Verhältnis von Nh/nh =
500.000/500, dann wird jeder Merkmalswert dieser Schicht mit dem Faktor
15
500.000/500 = 10.000 hochgerechnet. Das bedeutet, jeder Messwert der
Stichprobe steht für 10.000 Fälle in der Gesamtheit.
Im Allgemeinen ist man an solch hohen Zahlenwerten der
Gewichtungsfaktoren nicht interessiert. Die Gewichtungsfaktoren können nun
so normiert werden, dass ihre Summe nicht mehr dem Umfang der
Grundgesamtheit, sondern z.B. dem Stichprobenumfang (oder einer beliebigen
anderen Größe) entspricht. Dafür werden alle Gewichte mit einer
entsprechenden Konstanten, einem Normierungsfaktor, versehen. Um die
Gewichte „auf Fallzahl“ zu normieren, werden sie mit dem Faktor n/N
erweitert:
nNn n
ii =∑
=1/1 π (16)
Auf diese Weise ändert sich zwar ihr numerischer Wert, nicht aber ihre
Bedeutung. Ihr Effekt bleibt unberührt, d.h. die Änderung der relativen
Wichtigkeit der Merkmalswerte wird in ihrer Richtung nicht verändert.
In der Umfragepraxis ist es üblich, Fallgewichte derart zu normieren.
Beispielsweise werden die Gewichtungsfaktoren des Ost-West-Gewichts der
Sozialforschungsumfrage ALLBUS solchermaßen normiert (vgl. Kapitel
2.2.2).
2.2 Designbasierte Gewichtungsverfahren in der Praxis
Den Ausführungen bei Rösch (1994: 9) folgend, lassen sich in der Praxis zwei
Arten der Designgewichtung unterscheiden: die Transformationsgewichtung
und die Proportionalisierung. Unter ‚Transformationsgewichtung’ verstehen
wir die designbedingte Nivellierung divergierender Auswahlchancen nach der
Gesetzmäßigkeit des HTQ-Schätzers. Die ‚Proportionalisierung’ entspringt
dabei der gleichen Logik, bezeichnet aber den Ausgleich unterschiedlicher
Auswahlchancen aufgrund disproportional geschichteter Auswahl. Ein
Beispiel für eine Transformationsgewichtung liefert die bei ADM-Stichproben
16
gängige Gewichtung mit der ‚reduzierten Haushaltsgröße’.2 Ein Beispiel für
die Proportionalisierungsmethode gibt das in der Allgemeinen
Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) zur Anwendung
kommende, sog. Ost-West-Gewicht. Beide Prozeduren sollen nun in den
nachfolgenden zwei Kapiteln näher beleuchtet werden.
2.2.1 Die Transformationsgewichtung am Beispiel: Gewichtung nach der
‚reduzierten Haushaltsgröße’ bei ADM Stichproben
Damit bei ADM Stichproben unverzerrte Schätzungen von
Populationsparametern auf der Personenebene möglich werden, muss der
Theorie nach eine Gewichtung mit der reduzierten Haushaltsgröße zwecks
Ausgleich divergierender Auswahlchancen durchgeführt werden (vgl. z.B.
Braun et. al. 1993). Diese Maßnahme resultiert aus der konkreten ADM-
Stichprobenanlage, die Personen mit einer zur (reduzierten) Haushaltsgröße
umgekehrt proportionalen Wahrscheinlichkeit für die Stichprobe auswählt. Die
theoretische Rechtfertigung dafür liefert die Logik des klassischen Horvitz-
Thompson-Schätzers.
Das ADM-Design ist ein dreistufiger Stichprobenplan zur Erhebung
bevölkerungsrepräsentativer Personenstichproben in der Bundesrepublik
Deutschland.3 Angewandt wird es von allen professionellen Umfrageinstituten,
die dem Arbeitskreis deutscher Marktforschungsinstitute (ADM) angehören.
So ist z.B. der Großteil der seit 1980 im zweijährigen Turnus durchgeführten
Querschnittserhebungen der Sozialforschungsumfrage ALLBUS nach diesem
Design erhoben worden.4 Auf der ersten Auswahlstufe werden zunächst
Wahlbezirke mit einer Wahrscheinlichkeit proportional zu ihrer Größe
ausgewählt, anschließend werden innerhalb der gezogen Bezirke Haushalte
mittels Random-Route-Verfahren ermittelt. Auf diese Weise liefert das ADM-
Design auf der zweiten Auswahlstufe, der Haushaltsebene, eine selbst-
2 Das Adjektiv ‚reduziert’ bedeutet, dass nur die Anzahl der Personen im Haushalt, die in die definierte Grundgesamtheit fallen, relevant ist, also z.B. alle volljährigen Haushaltsmitglieder. 3 Für eine detaillierte Beschreibung des ADM-Stichprobendesigns vgl. Arbeitsgemeinschaft ADM-Stichproben und Bureau Wendt (1994) sowie Hoffmeyer-Zlotnik (1997). 4 Dies gilt für die ALLBUS-Stichproben der Jahre 1980 bis 1992 und 1998. Die übrigen Erhebungen sind (selbstgewichtende) Einwohnermelderegisterstichproben (vgl. Koch et. al. 2001: 8). Einen komparativen Überblick beider Stichprobenarten bietet Koch (1997).
17
gewichtende Stichprobe. Sofern keine systematischen Auswahlverzerrungen in
der Feldphase auftreten, besitzt damit jeder Haushalt in der BRD die gleiche
Chance, für die Stichprobe ausgewählt zu werden. Auf der dritten
Auswahlstufe, der Personenebene, gilt dies jedoch nicht mehr. Die
Auswahlwahrscheinlichkeit einer Person hängt dann umgekehrt proportional
von der (reduzierten) Größe des Haushalts ab, aus der diese Person ausgewählt
wird. Denn Personen aus großen Haushalten haben geringere, Personen aus
kleinen Haushalten größere Chancen, in die Stichprobe zu gelangen. Die
Wahrscheinlichkeit, eine Person aus einem sechsköpfigen Haushalt
auszuwählen, beträgt beispielsweise 1/6. Bei einem Single-Haushalt beträgt sie
Eins. Genau hier greift das Transformationsgewicht: Die Merkmalswerte
werden nach der Logik des HTQ-Schätzers mit dem Inversen ihrer
Auswahlwahrscheinlichkeit gewichtet. Jeder Messwert wird daher mit seiner
(reduzierten) Haushaltsgröße multipliziert. Das bedeutet konkret, dass
Merkmalswerte von Personen aus Single-Haushalten einfach, Merkmalswerte
von Personen aus sechsköpfigen Familien sechsfach in die Berechnung von
Kennwerten eingehen. Die designbedingten Stichprobenverzerrungen aufgrund
heterogener Auswahlchancen werden damit behoben. Das Sample wird somit
auch für die Personenebene repräsentativ und es können unverzerrte,
personenbezogene Stichprobenkennwerte berechnet werden.
Dieses Vorgehen rechtfertigt die Stichprobentheorie. In der Praxis
existieren jedoch gewisse Problematiken. Das reale Problem liegt in der
Tatsache, dass die zur Umgewichtung benötigte Variable ‚Haushaltsgröße’
selbst bestimmten Verzerrungen unterliegt (vgl. Hartmann/Schimpl-Neimanns
1992). Denn das ADM Design liefert nur rein theoretisch eine
haushaltsrepräsentative Stichprobe. Aus erhebungstechnischen Gründen sind
z.B. große Haushalte etwas überrepräsentiert (vgl. Wasmer/Koch/Wiedenbeck
1991: 40). Diese Verzerrungen sind jedoch aufgrund ihrer Geringfügigkeit
noch ignorierbar. Allerdings potenzieren sie sich in der Feldphase durch
systematische Response- und Nonresponse-Mechanismen bestimmter
Haushaltstypen. So sind z.B. Ein-Personen-Haushalte deutlich schwieriger zu
erreichen. Denn einerseits sind dies in der Regel jüngere Singles, die aufgrund
von Berufstätigkeit und erhöhter Mobilität öfter ausfallen, andererseits sind
dies z.B. alleinstehende, ältere Menschen, die womöglich aufgrund größerer
Kriminalitätsfurcht weniger häufig bei einer Befragung kooperieren.
Demgegenüber sind Mitglieder großer Haushalte ungleich leichter zu
18
erreichen. Hierbei handelt es sich meist um herkömmliche, hausgebundene
Familienstrukturen mit Kindern, die höhere Antreffwahrscheinlichkeiten
aufgrund ihrer erhöhten Häuslichkeit besitzen. Wie Hartmann (1990: 18) und
Hartmann/Schimpl-Neimanns (1992: 320) dokumentieren, ist im ALLBUS die
Häufigkeitsverteilung der Variable ‚Haushaltsgröße’ im Vergleich zur
amtlichen Statistik tatsächlich stark verzerrt. Die Autoren berichten, dass z.B.
der Anteil der Ein-Personen-Haushalte im ALLBUS 1986, 1988 und 1990 im
Schnitt um 26 bis 31 Prozent unterschätzt ist. Gehen nun Personen aus großen
Haushalten entsprechend ihrem Gewicht höherwertig in die Berechnung von
Kennwerten ein, dann verstärkt die Gewichtung diese Disproportionalität noch
weiter. Statt der eigentlich bezweckten „Entzerrung“ führt dies zur Verzerrung
in allen Variablen, die mit der Haushaltsgröße in Verbindung stehen. Rothe
(1994) konnte im Vergleich mit dem Mikrozensus bei drei von vier
designgewichteten soziodemografischen Variablen des ALLBUS 1986
Verzerrungen statt Verbesserungen nachweisen. Ähnliche Ergebnisse können
auch Hartmann und Schimpl-Neimanns (1992: 322f.) für die Variablen Alter,
Geschlecht und Familienstand beim ALLBUS 1986, 1988 und 1990
bestätigen.
Die theoretisch zwar korrekte Anwendung der Designgewichtung mit
der reduzierten Haushaltsgröße führt demnach zu einer ‚systematischen
Verzerrung der systematischen Verzerrung.’ Seit 1990 verzichtet daher ZUMA
auf die Empfehlung eines solchen Gewichts für den ALLBUS und überlässt
die Entscheidung über eine Verwendung dem Anwender (vgl.
Wasmer/Koch/Wiedenbeck 1991: 45).
2.2.2 Die Proportionalisierungsmethode am Beispiel: Die Ost-West-
Gewichtung der Sozialforschungsumfrage ALLBUS
Die Gewichtung nach der Proportionalisierungsmethode entspringt der
gleichen Logik wie die Transformationsgewichtung. Auch sie gewichtet
Merkmalswerte mit dem Inversen ihrer Inklusionswahrscheinlichkeit, um
damit Verzerrungen aufgrund heterogener Auswahlchancen auszugleichen.
Die unterschiedlichen Auswahlchancen resultieren hier aber aufgrund einer
gewollten Über- bzw. Unterrepräsentierung bestimmter Gruppen von
19
Untersuchungseinheiten durch disproportional geschichtete Auswahl. Dabei
entnimmt man jeder Schicht eine Anzahl von Fällen, die in Relation genau
nicht dem Anteil der Schicht an der Gesamtheit entspricht. Eine solche
Disproportionalität bei der Auswahl ermöglicht die bessere Erfassung
spezieller Populationen und bewirkt zudem – sofern die Grundgesamtheit
bezüglich der interessierenden Merkmale in homogene Schichten eingeteilt
wurde – eine zum Teil erheblich präzisere Schätzung von
Populationsparametern im Vergleich zur einfachen Auswahl. Im
Sozioökonomischen Panel (SOEP) sind beispielsweise die in Deutschland
lebenden Ausländer bewusst überrepräsentiert, um Aussagen von höherer
Validität dieser Spezialpopulation zu garantieren (Pischner 1994: 167). Auch
die Sozialforschungsumfrage ALLBUS arbeitet (seit 1991) mit einem solchen
disproportionalen Stichprobenansatz (vgl. Bandilla/Gabler/Wiedenbeck 1992).
Dort sind ostdeutsche Bundesbürger überproportional zum Anteil an der
Gesamtheit vertreten. Um diese Disproportionalität wieder auszugleichen,
werden die Angaben der Ost- bzw. Westdeutschen entsprechend ihrem
Schichtgewicht herunter- respektive heraufgewichtet.5 Das Schichtgewicht
wird aus dem Inversen des Auswahlsatzes pro Schicht, d.h. mit Nh/nh,
konstruiert (vgl. Formel 14). Für den ALLBUS 1992 berechnen sich
beispielsweise die Gewichte für die West- bzw. Oststichprobe wie folgt (vgl.
Gabler 1994a: 78):6
1982,12400
2,524562,64719
3548=⋅=⋅
West
West
nN
Nn
bzw.
5856,0114812263
2,647193548
=⋅=⋅Ost
Ost
nN
Nn
Zu beachten ist, dass die Gewichte hier zusätzlich mit dem Normierungsfaktor
n/N versehen sind, sodass ihre Summe dem Stichprobenumfang entspricht
(vgl. Formel 16).
5 Eine solche Gewichtung ist natürlich immer nur dann vonnöten, wenn Analysen für die Gesamtebene, d.h. über alle Schichten hinweg erstellt werden sollen. Die Proportionalisierung erübrigt sich, sofern die Angaben der Ost- und Westdeutschen separat ausgewertet werden. 6 Die Zahlen beziehen sich jeweils auf die Personenebene.
20
3. Modellbasierte Gewichtungsverfahren
Ziel einer jeden Gewichtung ist, wie bereits erläutert, die Verbesserung der
„Repräsentativität“ oder „Maßstabstreue“ einer Stichprobe. Damit erst
unverzerrte Schätzungen möglich werden, muss der Theorie nach immer eine
Designgewichtung vorgeschaltet werden. Darüber hinaus ist es jedoch
prinzipiell möglich, die Schätzung noch weitergehend zu verbessern. Dies
geschieht durch lineare Modellierung der Schätzfunktion anhand von
Zusatzinformationen, die für die Populationsebene zuverlässig vorliegen. Im
Gegensatz zur einfachen, gewissermaßen „freien“ Schätzung findet sich für
dieses Vorgehen die Bezeichnung „gebundene“ Schätzung, da Informationen
über die Population in die stichprobenbasierte Schätzung eingebunden werden
und zur Präzisierung der Schätzung beitragen sollen. Dabei fließen (implizit
oder explizit) bestimmte Modellannahmen in die Konstruktion des Schätzers
ein. Modellbasiertes Gewichten bedeutet nun, dass die Gewichtung
unmittelbar den zugrundegelegten Annahmen folgt.
Die nachfolgend beschriebenen Prozeduren lassen sich unterscheiden in
modellunterstützte und modellabhängige Verfahren. Erstere könnten dabei
eher als modellgeleitet charakterisiert werden, in dem Sinne, dass ein
zutreffendes Modell zur Verbesserung der Schätzung durch Varianzreduktion
führt, ein nicht zutreffendes Modell aber zu keiner Verzerrung im Sinne eines
größeren Bias führt. Dies ist beispielsweise bei den Prozeduren der Fall, die
sich direkt aus der Regressionsschätzung ergeben. Bei den modellabhängigen
Prozeduren unterliegt man dagegen dem Risiko eines Vabanque - Spiels: Der
Erfolg der Prozedur steht und fällt mit der Richtigkeit des formulierten
Modells. Entweder ist das Modell imstande, sich an die in der Realität
herrschenden Prozesse adäquat anzupassen, so dass damit eine deutlich
verbesserte Schätzung von Populationsparametern möglich wird oder die
Realität wird falsch modelliert, sodass es dadurch zu einer dramatischen
Verzerrung statt zur Verbesserung der Schätzung kommt. Eher
modellabhängige Prozeduren finden wir beispielsweise bei diversen Ad-Hoc-
Gewichtungsmethoden für Wahlprognosen oder bei der Adjustierung von
Online-Stichproben nach der Propensity-Score-Technik (vgl. Kap. 3.2.2 und
3.2.3).
21
3.1 Theoretische Grundlage: Die Regressionsschätzung
Die Genauigkeit einer Schätzung kann gegenüber der einfachen, „freien“
Schätzung verbessert werden, indem Informationen aus der Population mit in
die Konstruktion eines Schätzers einfließen. Dies sind Informationen, welche
entweder für jedes Element vollständig oder nur teilweise, dann aber auf
Aggregatebene vollständig für die Ebene der Population vorliegen. Typische
derartige Informationen sind in der empirischen Sozialforschung Variablen
wie Geschlecht, Altersklassen, Haushaltsgröße oder Gemeindegrößeklassen.
Diese Informationen sind entweder der amtlichen Statistik, d.h. dem
Mikrozensus entnommen oder im Frame, d.h. in der Auswahlgrundlage frei
verfügbar (z.B. bei Registerstichproben).
Die Grundannahme dabei ist die, dass die Informationen der
Hilfsvariablen mit den interessierenden Untersuchungsmerkmalen möglichst
kovariieren. Das bedeutet, dass die Hilfsvariablen bereits a priori
Informationen über die interessierenden Merkmale mit sich bringen. Ist die
Korrelation sehr hoch, so kann es, im Vergleich zur einfachen Schätzung, zu
einem erheblichen Präzisionsgewinn kommen. Eine gewisse Ähnlichkeit zur
geschichteten Stichprobenauswahl zeichnet sich hier ab: Denn auch dort
werden aus dem Frame verfügbare Hilfsinformationen über die Population
genutzt. Dann allerdings zur konkreten Realisierung des Designs, indem die
Hilfsvariablen als Stratifizierungsmerkmale die Allokation der Gesamtheit
ermöglichen. Auch bei der geschichteten Auswahl sind dann präzisere
Schätzungen möglich, wenn Hilfs-, d.h. Stratifizierungsmerkmal und
Untersuchungsvariable kovariieren. Eine solche Kovariation beider Merkmale
bedeutet, dass die Population durch die Stratifizierung in homogene Schichten
eingeteilt wird. Homogenität meint, dass innerhalb einer Schicht hinsichtlich
des Untersuchungsmerkmals eine geringe Streuung herrscht. Ähnlich verhält
es sich bei der gebundenen Schätzung: Ist die Hilfsvariable imstande, die
Population in homogene Gruppen im Hinblick auf die interessierenden
Merkmale einzuteilen, so führt die gebundene Hochrechnung zu einer
Varianzreduktion und damit zum Präzisionsgewinn. Der große Unterschied zur
geschichteten Stichprobenauswahl liegt jedoch darin begründet, dass die
Informationen der Hilfsvariablen bei der Regressionsschätzung explizit in die
Konstruktion des Schätzers einfließen. Dies geschieht im Regelfall durch die
Regression der Hilfsvariablen auf die Untersuchungsvariable als Bestandteil
22
der Schätzfunktion. In Anlehnung an die Terminologie aus Kapitel 2.1 soll das
Populationstotal t, sowie der Populationsmittelwert Uy des Untersuchungs-
merkmals Y geschätzt werden. Die Merkmale Xj seien dabei die Hilfsvariablen,
deren Werte auf Populationsebene bekannt sind. Der Regressionsschätzer für
das Total nimmt dann in seiner allgemeinen Schreibweise folgende Form an
(vgl. Särndal/Swensson/Wretman 1997: 225):
∑=
−+=J
jxjxjjy ttBtt
1)ˆ(ˆˆˆ
ππ (17)
Dabei sind πyt und πxt die aus der Stichprobe gewonnenen HTQ-Schätzer für
die Totale der Untersuchungs- und der Hilfsvariablen. xjt ist das tatsächliche,
aus verlässlicher Quelle bekannte Populationstotal der j-ten Hilfsvariablen.
JBB ˆ,...,ˆ1 sind die (aus der Stichprobe geschätzten) Regressionskoeffizienten,
die sich aus der Regression der J Hilfsvariablen auf die Untersuchungsvariable
ergeben.
Mit dieser Schreibweise kann der Regressionsschätzer aufgefasst werden als
‚normaler’ HTQ Schätzer für das Total πyt bei freier Hochrechnung plus einen
durch das Regressionsmodell entstandenen Korrekturfaktor, der die Schätzung
um den Wert ∑=
−J
jxjxjj ttB
1)ˆ(ˆ
π korrigiert. Dieser Term nimmt den Wert Null
genau dann an, wenn das zugrundegelegte Modell Regressionskoeffizienten
von Null produziert. Dies ist natürlich dann der Fall, wenn keine Kovariation
zwischen Untersuchungs- und Hilfsvariable existiert. Übrig bleibt dann der
normale HTQ-Schätzer für das Total, so als hätte es kein Regressionsmodell
gegeben.
Zur weiteren Beschreibung der Logik des Regressionsschätzers und seinen
Eigenschaften soll er im Folgenden in vereinfachter, jedoch algebraisch
äquivalenter Form zu (17) dargestellt werden. Zugrundegelegt wird dabei ein
einfaches Regressionsmodell mit nur einer einzigen Hilfsvariablen. Der
Schätzer für das Populationstotal nimmt nun folgende Gestalt an (vgl.
Särndal/Swensson/Wretman 1997: 272):
23
)]~(ˆ~[ˆSUS xxByNt −+= (18)
Analog zu (18) ergibt sich für den Regressionsschätzer des
Populationsmittelwertes:
)~(ˆ~/ˆˆSUSU xxByNty −+== (19)
Dabei sind Sy~ und Sx~ die jeweils designgewichteten Stichprobenmittelwerte,
also die einfachen HTQ-Schätzer für die beiden Variablen Y und X.
Liegt zudem eine einfache Zufallsauswahl vor, so vereinfacht sich der
Regressionsschätzer noch weiter, wie hier am Beispiel des geschätzten
Populationsmittelwert gezeigt werden soll:
)(ˆˆSUSU xxByy −+= (20)
Benötigt werden demnach lediglich die einfachen arithmetischen Mittel Sy und
Sx für die Stichprobenebene und Ux für die Populationsebene. Die
Individualwerte der Hilfsvariablen müssen demnach nicht für jede Einheit der
Zielpopulation bekannt sein, sondern nur in der Aggregatform Ux .
Bei der klassischen Kleinste-Quadrate-Regressionsschätzung ergibt sich der
Koeffizient B mit B = OLS = Cov(X,Y)/Var(Y), also dem Quotienten aus der
Stichprobenkovarianz beider Merkmale und der Stichprobenvarianz des
Merkmals Y. Dies muss nicht zwangsweise so sein: Der Koeffizient kann z.B.
auch als Erfahrungswert gewählt werden, sofern sich bereits aus früheren
Erhebungen ein konstanter Wert ergeben hat.
Für drei bestimmte Werte ergeben sich aus (20) folgende Spezialfälle (vgl.
Cochran 1972: 227):
24
Für B =1 ergibt sich der Differenzenschätzer:
)(ˆSUSU xxyy −+= (21)
Für B = S
S
xy
ergibt sich der Verhältnisschätzer:
US
SSU
S
SSU x
xyxx
xyyy =−+= )(ˆ (22)
bzw.
S
USU x
xyy =ˆ (23)
Für B = 0 ergibt sich der HTQ-Schätzer bei einfacher Hochrechnung:
SU yy =ˆ (24)
Der Differenzen- und der Verhältnisschätzer sind also Spezialfälle des
Regressionsschätzers. Die Anwendung des Regressionsschätzers mit B=OLS
empfiehlt sich genau dann, wenn Hilfs- und Untersuchungsvariablen am
besten durch ein lineares Regressionsmodell beschrieben werden können. Der
Differenzenschätzer sollte dann Anwendung finden, wenn Grund zur Annahme
besteht, dass der Regressionskoeffizient nahe bei Eins liegt. Der
Verhältnisschätzer ist dagegen dann sinnvoll, wenn die Werte der Hilfs- und
Untersuchungsvariablen möglichst eng um eine (Regressions-)Gerade streuen,
die durch den Ursprung geht.
Der Verhältnisschätzer nimmt nun eine Sonderstellung ein, da er Dreh-
und Angelpunkt einer jeglichen Gewichtung nach dem sog. Redressment
Verfahren ist. Dies ist die in der Praxis gängige, nachträgliche Adjustierung
von Stichprobenverteilungen an Daten der amtlichen Statistik. Diese
25
Standardprozedur der Umfragepraxis entspricht stichprobentheoretisch einer
Verhältnisschätzung bei nachträglich geschichteter Stichprobe.
Nachträgliche Schichtung meint, dass der Datensatz a posteriori
anhand von G Gruppenmerkmalen geschichtet wird.7
In seiner allgemeinen Form nimmt der nachträglich geschichtete
Verhältnisschätzer für das Populationstotal folgende Gestalt an (vgl.
Särndal/Swensson/Wretman 1997: 7.7.1, 270):
∑=
=G
ggxg Btt
1
ˆˆ (25)
mit:
∑=gU kxg xt als das bekannte Populationstotal der Hilfsvariablen
und ∑∑
=g
g
S kk
S kk
g x
yB
π
π
/
/ˆ als den Regressionskoeffizienten des
zugrundegelegten Verhältnismodells (dabei jeweils Gg ,...,1= ).
Unter Simple-Random-Sampling ergibt sich daraus für das Total:
∑ ∑∑
=
=G
g S k
S k
xg
g
g
x
ytt
1
ˆ (26)
bzw.
Sg
UgG
gSgg x
xyNt ∑
=
=1
ˆ (27)
Für die Schätzung des Mittelwertes ergibt sich unmittelbar:
∑=
==G
g Sg
UgSg
gU x
xy
NN
Nty
1
ˆˆ (28)
7 Die Praxis des Redressments zeigt, dass die zur nachträglichen Schichtung herangezogenen Gruppenmerkmale mit den für das Verhältnismodell benutzten Kategorien einer nominalskalierten Hilfsvariablen Xj in der Regel ausnahmslos identisch sind.
26
Falls der Umfang Ng unbekannt ist, kann er durch N·ng/n geschätzt werden
(vgl. Lohr 1999: 268; Särndal/Swensson/Wretman 1997: 267). Der Schätzer
(28) nimmt dann folgende Form an:
∑=
=G
g Sg
UgSg
gU x
xy
nn
y1
ˆ (29)
Innerhalb jeder der G Subgruppen wird der (mit dem relativen Umfang der
Schicht gewichtete) Stichprobenmittelwert Sgy mit dem gruppenspezifischen
Gewichtungsfaktor gg SU xx / erweitert. Dieses Vorgehen entspricht der aus der
Praxis bekannten Redressment-Adaptionstechnik nach dem „Soll-durch-Ist-
Prinzip“ (Rothe/Wiedenbeck 1994: 51f). „Soll-durch-Ist“ bezieht sich dabei
auf den Quotienten gg SU xx / , d.h. auf das Verhältnis von tatsächlichem
Mittelwert („Soll“) zum Stichprobenmittelwert („Ist“) der Hilfsvariablen.
Sofern das Sample bezüglich der Hilfsvariablen in allen Gruppen repräsentativ
ist, d.h. maßstabsgetreu in dem Sinne, dass das Stichprobenmittel und das
tatsächliche Mittel übereinstimmen, produziert dieses Verhältnis einen
Gewichtungsfaktor von Eins. Sind dagegen Mittelwerte der Hilfsvariablen in
den Gruppen unter- oder überschätzt, dann entstehen demgemäß
Gewichtungsfaktoren oberhalb respektive unterhalb von Eins.
Der große Vorteil einer Regressionsschätzung gegenüber der einfachen
Schätzung liegt nun im Präzisionsgewinn. Denn sofern das zugrundegelegte
Regressionsmodell sehr gut auf die Daten passt, kommt es zu einer
bedeutsamen Reduktion der Varianz im Sinne einer geringeren Variabilität des
Schätzers über alle möglichen Stichproben. Eine hohe Modellgüte ist immer
dann gegeben, wenn Untersuchungs- und Hilfsvariable hoch korrelieren.
Es erhebt sich die wichtige Frage, wie hoch die Korrelation sein muss,
damit es zum erhofften Präzisionsgewinn kommt. Wann genau ist die
Präzision der gebundenen Schätzung höher als die der einfachen, freien
Schätzung? Cochran (1972: 198) hat für den Verhältnisschätzer gezeigt, dass
seine Varianz genau dann geringer ist, wenn, unter der Voraussetzung, dass
27
die Variationskoeffizienten beider Variablen annähernd gleich sind, die
Korrelation zwischen Hilfs- und Untersuchungsmerkmal größer als 0,5 ist.
Beweis (nach Cochran 1972: 198): Die Varianz des einfachen HTQ-
Schätzers für den Populationsmittelwert SU yy =ˆ (Formel 7) bei einfacher
Zufallsauswahl beträgt:
2)1(1)ˆ( yU SNn
nyV −= mit: ∑
=
−−
=N
iUiy yy
NS
1
2 )(1
1
Die Varianz des einfachen Verhältnisschätzers für den Populationsmittelwert
S
USU x
xyy =ˆ (Formel 23) beträgt:
)2)(1(1)ˆ( 222xyxyU SrSSBS
Nn
nyV −+−=
mit: ∑=
−−
=N
iUiy yy
NS
1
2 )(1
1 ; ∑=
−−
=N
iUix xx
NS
1
2 )(1
1
;U
U
xyB = ),( YXCovSrS xy =
Der Verhältnisschätzer ist genau dann präziser, wenn seine Varianz kleiner ist.
Es muss also gelten:
2222 2 yxyxy SSrSSBS <−+
Dies ist dann der Fall, wenn
)/(21
U
y
U
x
yS
xSr >
Conclusio: Für eine effiziente Verhältnisschätzung muss die Korrelation
zwischen X und Y größer sein als ½, sofern U
y
U
x
yS
xS / in etwa bei Eins liegt.
28
Die Präzision der Verhältnisschätzung hängt damit von der Höhe der
Korrelation, sowie von dem möglichst gleichen Streuungsverhältnis beider
Merkmale ab. Für den Regressionsschätzer gilt darüber hinaus, dass er immer
präziser ist als der Verhältnisschätzer (vgl. Cochran 1972: 237f.).
Zu den statistischen Eigenschaften der Regressionsschätzer zählt, dass sie, wie
sich zeigen lässt, für große Stichproben asymptotisch erwartungstreu sind (vgl.
Cochran 1972: 237). Das bedeutet, ihr Erwartungswert trifft mit wachsendem
Stichprobenumfang im Mittel annähernd den tatsächlichen Populations-
parameter. Der Bias ist somit nahezu Null.
Hinzu kommt, dass die Regressionsschätzer auch dann noch annähernd
unverzerrt sind, wenn Hilfs- und Untersuchungsmerkmal nicht oder nur
schwach korrelieren und das zugrundegelegte (Regressions- oder Verhältnis-)
Modell folglich falsch spezifiziert ist. Die Erwartungstreue der Schätzfunktion
bleibt von der Güte des Modells völlig unberührt. Dazu Särndal/Swen-
sson/Wretman (1997: 239):
“We do not require that the model be ‘true’ in the sense of correctly depicting some process by which the population data may have been generated. We only believe that the population data are well described by the assumed model, the regression estimator normally will bring about a large variance reduction, as compared to the π estimator [einfacher HTQ-Schätzer, Anm. d. Verf.]. If the population is not well described by the model, the improvement on the π estimator may be modest, but the regression estimator still guarantees approximate unbiasedness. For these reasons, the regression estimator is said to be model assisted, but not model dependent.” (Hervorhebungen durch den Verfasser)
Ohne Frage besitzt diese Eigenschaft insbesondere für den Praxisfall wichtige
Implikationen: Bei gängigen Mehrthemenumfragen in der Markt- und
Sozialforschung ist die Korrelation zwischen Hilfs- d.h. Gewichtungsvariable
und Untersuchungsmerkmal oft nur sehr gering. Dies hat – darauf wird noch
eingegangen – beispielsweise Schnell (1993) gezeigt. Der Schätzer bleibt
dennoch unabhängig der Modellgüte weiterhin unverzerrt. Im Simulationsteil
dieser Arbeit wird diese Eigenschaft anschaulich demonstriert.
29
3.2 Modellbasierte Gewichtungsprozeduren in der Praxis
3.2.1 Die Gewichtung nach dem Redressment-Verfahren
Unter der Titulierung „Redressment“ werden in der Markt- und
Sozialforschung alle Prozeduren zur Adjustierung von Stichproben an
Eckdaten der amtlichen Statistik verstanden. Es werden dabei die
Ausprägungen bestimmter Variablen der Stichprobe, deren Verteilungsprofile
für die Ebene der Gesamtpopulation bekannt sind, an diese angepasst. Damit
erhält man eine (quasi-)'repräsentative' Stichprobe, die mit der
Grundgesamtheit in den zur Adaption herangezogenen Variablen vollständig
übereinstimmt. Die Schlüsselannahme dabei ist die, dass diese Prozedur auch
die Verteilungen der anderen Erhebungsvariablen, deren Verteilungsprofile in
der Population gerade nicht bekannt sind, näher an diese heranbringt.
Dieses in der Praxis gängige Standardgewichtungsverfahren entspringt
nun genau, wie im vorigen Kapitel bereits diskutiert, einer
Verhältnisschätzung bei nachträglich geschichteten Stichproben.
Gebräuchliche Synonyme für dieses Verfahren finden sich in der
sozialwissenschaftlichen Literatur zur Umfragepraxis mit Begriffen wie
„Anpassungsgewichtung“, „Strukturgewichtung“, „Nachgewichtung“,
„Zellgewichtung“, „Nachträgliche Schichtung“, „Demografiegewichtung“
oder „Raking“ (vgl. z.B. Gabler/Hoffmeyer-Zlotnik/Krebs 1994). Der Begriff
„Raking“ nimmt dabei in dieser Aufzählung eine Sonderstellung ein, wie im
Folgenden näher erläutert werden soll.
Die Adaptionstechnik ist dabei denkbar einfach und funktioniert nach
dem bereits erwähnten „Soll-durch-Ist“ Prinzip. Zunächst werden die
Hilfsvariablen, auf deren Basis die Anpassung stattfinden soll, bestimmt. Bei
Umfragen in der Markt- und Sozialforschung sind dies in aller Regel
(kategoriale oder klassierte) Variablen wie Lebensalter, Geschlecht,
Gemeindegrößeklassen, Regierungsbezirk etc. Falls nicht im Frame verfügbar,
werden diese Informationen aus der amtlichen Statistik, d.h. aus dem
Mikrozensus gewonnen. Der Datensatz wird dann anhand dieser Merkmale
aufgeteilt, d.h. nachträglich geschichtet. Dabei sind die Gruppen identisch mit
den Merkmalsausprägungen der Hilfsvariablen bzw., sofern mehrere
Hilfsvariablen vorliegen, sind sie deckungsgleich mit den Zellen der
kreuztabulierten Merkmalsausprägungen der Hilfsvariablen. Es entstehen
30
damit Gruppen, nach denen die Stichprobe angepasst werden kann. Jede
Untersuchungseinheit findet sich dabei in exakt einer Anpassungszelle wieder.
Anschließend wird z.B. nach Formel (29) der Schätzer für den
Populationsmittelwert berechnet. Das Soll-durch-Ist Verhältnis SgUg xx / bildet
dann pro Anpassungszelle den Gewichtungsfaktor, der den Elementen
innerhalb jeder Zelle zugespielt wird.
Die Angaben der Referenzdaten aus dem Frame oder der amtlichen
Statistik müssen dabei absolut verlässlich für die Ebene der Population sein.
Dies stellt eine Grundvoraussetzung für eine unverzerrte Schätzung dar. Wird
der Mikrozensus als Referenzquelle benutzt, so müssen die Adaptionsvariablen
der konkreten Stichprobe auf möglichst gleiche Art und Weise erhoben
worden sein. Denn nur bei direkter Vergleichbarkeit durch tunlichst identische
Frageformulierungen, sowie gleiche Antwortkategorien, wird eine unverzerrte
Anpassung möglich. Dies sollte, zumindest bei sozialstrukturellen
Anpassungsmerkmalen, keine Probleme bereiten, da auf Basis der ZUMA-
Standarddemografie bereits ein gültiger Konsens zur standardisierten und
damit vergleichbaren Abfrage demografischer und sozialstatistischer
Merkmale in der Bundesrepublik Deutschland geschaffen wurde (vgl.
Statistisches Bundesamt 1999).
Die Referenzdaten der amtlichen Statistik beruhen zwar selbst auf
Stichprobenschätzungen und sind insofern mit einem Auswahlfehler behaftet.
Sie können aber dennoch als konsistent-zuverlässige Schätzungen der
unbekannten Populationswerte betrachtet werden. Denn in Anbetracht der
Tatsache, dass der jährlich erhobene Mikrozensus mit einem Auswahlsatz von
1 Prozent der Bevölkerung eine extrem große, zudem aufgrund der
herrschenden Auskunftspflicht nahezu voll ausgeschöpfte Zufallsstichprobe
der Bevölkerung ist, bietet keine andere Investigation verlässlichere
Bevölkerungsdaten. Außerdem wird der Mikrozensus (ebenfalls durch
entsprechende Redressment-Prozeduren) ständig an die laufende
Bevölkerungsfortschreibung angepasst, in der z.B. standesamtliche Daten wie
Geburts- und Sterbefälle erfasst werden.8
8 Für einen Überblick über Geschichte, Rahmenbedingungen und Relevanz des Mikrozensus für sozialwissenschaftliche Zwecke vgl. Hartmann (1989). Zum Stichprobenplan des Mikrozensus bis 1989 vgl. ausführlich Esser et. al. (1989). Zur Hochrechnung desselben ab 1990 vgl. Heidenreich (1994).
31
Vergleicht man darüber hinaus, so wie es Hartmann (1990) getan hat,
den Mikrozensus auf Kongruenz mit den Daten der Volkszählung, der
Bundesanstalt für Arbeit, der Hochschulstatistik und anderen zur Validierung
tauglichen Quellen der amtlichen Statistik, so zeigen sich insgesamt gute
Deckungsgleichheiten in den Randverteilungen verschiedener Merkmale (vgl.
Hartmann 1990).
Der Mikrozensus eignet sich also sehr gut als zuverlässige
Referenzquelle zur Anpassung von bevölkerungsrepräsentativen Umfrage-
daten.
Bei der Anpassung nach dem Soll-durch-Ist Prinzip treten in der Praxis
jedoch folgende konkrete Probleme auf: So ist es möglich, dass die Anzahl der
Fälle in den Anpassungszellen der Stichprobe zu gering ist. Dies ist meist dann
der Fall, wenn mehrere Gewichtungsvariablen kombiniert werden. Aufgrund
eines zu geringen Stichprobenumfangs innerhalb der Zellen wäre ein daraus
berechneter Soll-durch-Ist-Schätzer verzerrt (vgl. Rothe/Wiedenbeck 1994:
54). Darüber hinaus können einige oder viele Zellen unbesetzt bleiben. Damit
ist immer dann zu rechnen, wenn die kombinierten Merkmalstableaus der
Anpassungsvariablen sehr viele Zellen aufweisen. Bei der Media-Analyse
1986 wurden beispielsweise für die Personenstichprobe sechs demografische
Variablen zur Anpassungsgewichtung herangezogen (vgl. Rothe/Wiedenbeck
1994: 55): Alter (7 Klassen), Geschlecht (2 Klassen), Haushaltsgröße (6
Klassen), Regierungsbezirk (31 Klassen) und die Gemeindegröße nach
Boustedt (7 Klassen). Die Kombination dieser Merkmale ergibt Kreuztabellen
mit insgesamt 7x2x6x31x7x7 = 127596 Anpassungszellen. Nach Formel (29)
wird innerhalb jeder dieser Zellen eine eigene Soll-durch-Ist Prozedur
durchgeführt. Es bedarf keiner besonderen Betonung, dass etwa bei einer
gängigen Stichprobengröße von 3000 Fällen etliche Zellen in der Stichprobe
unbesetzt bleiben. Eine Soll-durch-Ist-Anpassung bliebe dann unmöglich, da
der „Ist“-Wert der Stichprobenanpassungszelle Null wäre und die Division
durch Null nicht definiert ist. Um dem Nullzellenproblem aus dem Weg zu
gehen, finden Strategien Anwendung, die unter dem Oberbegriff „Raking“
zusammengefasst werden. Die Anpassungszellen werden dann nicht für alle
Merkmale gleichzeitig, sondern nacheinander für mehrere Teilkombinationen
der Merkmale gebildet, also beispielsweise zuerst die Kombination Alter mal
Geschlecht, dann Alter mal Haushaltsgröße, dann Regierungsbezirk mal
32
Gemeindegröße, usw.9 Kombiniert werden die Variablen in der Weise, dass
ausschließlich Teiltafeln ohne Nullzellen entstehen. Bleiben hinterher immer
noch Zellen mit zu gering besetzter Fallzahl übrig, werden sie zu größeren
fusioniert. Der Nachteil dieser Vorgehensweise liegt nun darin, dass eine
Untersuchungseinheit nicht mehr in genau eine Anpassungszelle fällt. Nun
besetzt sie pro Teiltafel eine Zelle. Dadurch muss die Gewichtung iterativ
durchgeführt werden, denn die Anpassung der einen Teiltafel beeinflusst nun
die Anpassung der anderen. Ein Algorithmus wird herangezogen, der iterativ
die einzelnen Teilkombinationen miteinander verrechnet. Das Prinzip
funktioniert folgendermaßen: Zunächst wird die erste Teilkombination der
Merkmale zur Adaption herangezogen und entsprechend nach der Soll-durch-
Ist-Prozedur angepasst. Die daraus berechneten Anpassungsgewichte fließen
dann in die zweite Teilkombination ein. Auch diese wird entsprechend an ihre
Sollwerte angepasst. Die wiederum daraus resultierenden Gewichte fließen
dann in die dritte Teilkombination, diese wird wieder angepasst, es entstehen
neue Gewichte, die nächste Teilkombination wird herangezogen, usf.
Nachdem alle Teiltafeln angepasst wurden, wird die gesamte Prozedur erneut
mit der ersten wiederholt. Dies geschieht solange, bis sich die
Gewichtungsfaktoren an einen konstanten Wert angenähert haben und/oder ein
vorgegebenes Kriterium zum Abbruch führt (vgl. Rothe 1994: 65). Diese
Strategie der iterativen Annäherung wird allgemein Iterative Proportional
Fitting (IPF) genannt und geht in seinem Ursprung zurück auf die Arbeit von
Deming/Stephan (1940), die eine Anpassungsprozedur an die Randsummen
externer Solltafeln beschreiben. Sofern nämlich nicht für alle Zellen die
„Soll“-Werte aus der Population bekannt sind, sondern nur die Randsummen,
bleibt die Möglichkeit, die Iterationen mit den Randhäufigkeiten
durchzuführen. Insgesamt sind zahlreiche Variationen des beschriebenen
Grundalgorithmus entwickelt worden. Einen Überblick bietet Rösch (1994)
und Gabler (1994b). Ein bekanntes Verfahren ist das „Hoch-
rechnungsverfahren nach dem Prinzip des minimalen Informationsverlustes“,
das auf Merz (1983) zurückgeht. Dieses Verfahren verarbeitet ebenso nur die
Randsummen der Anpassungszellen. Zur Anwendung kommt es z.B. bei der
Einkommens- und Verbrauchsstichprobe des Statistischen Bundesamtes 1998
(vgl. Statistisches Bundesamt 2001).
9 Diese Kombination ist fiktiv. Für das konkrete Vorgehen bei der Media-Analyse 1986 vgl. die Rekonstruktion bei Rothe/Wiedenbeck (1994: 56ff).
33
3.2.2 Gewichtungsverfahren in der Wahlforschung
Ein weiteres Beispiel der modellbasierten Gewichtung in der Praxis liefert die
bei Umfragen zum politischen Meinungsklima übliche Gewichtung nach der
sog. Rückerinnerungsfrage.10 Dabei werden zur Vorhersage des nächsten
Wahlergebnisses („Sonntagsfrage“) normalerweise die Informationen des
amtlichen Ergebnisses der letzten Wahl und die Angaben der
Rückerinnerungsfrage für eine Redressment-ähnliche „Soll-durch-Ist-
Anpassung“ an die aktuell erhobenen Daten verwendet. Technisch gesprochen
kommen dabei sowohl Verhältnis- als auch Differenzenschätzer zum Einsatz,
als auch Kombinationen derselben. Rein rechnerisch werden dabei die bei der
Rückerinnerung unterschätzten Parteien im Vergleich zum letzten amtlichen
Ergebnis hochgewichtet, sowie vice versa, in der Erinnerung überschätzte
Parteien heruntergewichtet (vgl. Diekmann 1996: 366; Noelle-Neumann 1996:
292ff.)
Erfahrungsgemäß sind die Vorhersagen institutsübergreifend oftmals
erstaunlich präzise. Dies liegt offenkundig an der sehr hohen Modellgüte der
benutzten Prozeduren. Schließlich ist im Regelfall mit einer vergleichbar sehr
hohen Korrelation zwischen Hilfs- und Untersuchungsvariable, d.h. zwischen
Rückerinnerungs- und Sonntagsfrage zu rechnen. Darüber hinaus existiert nur
eine einzige Untersuchungsvariable, auf die die Modellannahmen abgestimmt
sein müssen. Dies ist ein großer Vorteil gegenüber gängigen
Mehrthemenumfragen in der Sozialforschung und spricht für die Anwendung
der Regressionsschätzung bei Wahlprognosen.
Dennoch bestehen auch in der Wahlforschung einige Probleme. Dazu
gehört, dass die Rückerinnerungsfrage aufgrund psychologischer
Erinnerungslücken und Diffusionsmechanismen verzerrt sein kann. Dadurch
sind neben dem zugrundegelegten Regressions- oder Verhältnismodell weitere
Modellannahmen erforderlich. Eine unterstellte Hypothese dabei ist, dass „die
Rückerinnerungsverzerrung in Richtung und Stärke dem Bias der
Sonntagsfrage entspricht.“ (Diekmann 1996: 367).11
Das Problem dabei ist, wie Max Kaase im Rheinischen Merkur 07/1987
ausführt, dass derart gewichtete Prognosen die Wirkung haben, „diese mehr in 10 Dies ist die retrospektiv gestellte Frage danach, welche Partei bei der letzten Wahl gewählt wurde. 11 Diekmann (1996) nennt deswegen diese Form der Gewichtung auch „Hypothesen-gewichtung.“
34
die Nähe der traditionell zu erwartenden Wahlergebnisse zu rücken“ und
„damit gerade die eigentlich interessante Nachricht [zu verfälschen]: Wie
nämlich zu einem bestimmten Zeitpunkt die Stimmung der Bevölkerung
bezüglich der politischen Parteien aussieht“ (Rheinischer Merkur 07 / 1987,
zitiert nach Ulmer 1989: 88). Auch bei Zeitreihen zum politischen
Meinungsklima bewirkt die Rückerinnerungsgewichtung in der Regel eine
Glättung der Kurvenverläufe. Wie Krauß (1994: 155) feststellt, fällt die
Glättung umso stärker aus, je höher der politische Indikator mit dem
Rückerinnerungsmerkmal korreliert ist. Dadurch könnten, wie Krauß weiterhin
anmerkt, Schwankungen in der politischen Stimmung in ihrem Ausmaß
unterschätzt werden (vgl. Krauß 1994: 157).
Hinzu kommt, dass speziell Wahlprognosen zahlreichen weiteren
Fehlerquellen unterliegen. So haben die Prognoseinstitute mit „Verzerrungen“
zu kämpfen, die durch spontane Protestwähler, gewandte Wechselwähler,
meinungslose Ad-Hoc-Wähler und Nichtwähler ausgelöst werden. Obendrein
können unvorhersehbare Ereignisse wie z.B. Naturkatastrophen oder
terroristische Anschläge die politische Wetterlage und damit auch die Gunst
des Wählers kurzfristig beeinflussen. Zur Korrektur solcher Fehler werden
dann seitens der Institute weitere Ad-Hoc-Gewichte eingebaut. Dabei können
verschiedenste Hypothesen über den Einfluss diverser tagesaktueller
Geschehnisse oder der Präferenzen bestimmter Wählergruppen auf die
Wahlprognose eine Rolle spielen (vgl. Kostede 1990). Bei der
Hypothesengenerierung kommen dann teils Erfahrungswerte, teils fundierte
wissenschaftliche Erkenntnisse zum Tragen. Die Fälle im Datensatz werden
dann dergestalt hoch- oder heruntergewichtet, dass der zugrundegelegten
Hypothese Rechnung getragen wird. Dabei wird natürlich unterstellt, dass die
herangezogenen Hypothesen empirische Gültigkeit besitzen.
Das folgende Beispiel vermittelt einen Eindruck für diese
Vorgehensweise: Aus wissenschaftlicher Analyse heraus hat man z.B. starken
Grund zur Annahme, dass Briefwähler traditionell eher dem politisch liberalen
Spektrum zugeordnet werden können und deshalb eher „schwarz-gelb“ als
„rot-grün“ favorisieren.12 Dann wird man bei Wahlprognosen auf Basis von
12 Ellermann (2004: 271) konstatiert tatsächlich, dass Briefwähler eher der FDP zugewandt sind. Auf Basis ihrer Analyse der Parteipräferenzen von Briefwählern aller bundesdeutschen Wahlen seit 1956 stellt sie fest, dass „zwischen der Präferenz für ein bestimmtes Wahlverfahren (Urnenwahl/Briefwahl) und der Präferenz für eine Partei ein Zusammenhang besteht“.
35
sog. „Exit Polls“, also Befragungen von Wählern am Wahlabend unmittelbar
nach der Wahl mit simulierten Urnen, die Anteilswerte von Union und FDP
etwas heraufgewichten, um den Stimmanteilen der bei Exit Polls per
definitionem nicht erfassten Gruppe der Briefwähler gerecht zu werden.13 Die
Einfluss-Stärke dieser Gewichtung wird dabei natürlich in Relation dem Anteil
der Briefwähler an der Gesamtwählerschaft entsprechen müssen.
Fehlen fundierte wissenschaftliche Erkenntnisse, wird auch die
„Erfahrung“ des Demoskopen zur Hypothesengenerierung benutzt. Sofern die
zugrundegelegten Hypothesen solcher Bereinigungsmethoden empirisch
zutreffend sind, können damit die Vorhersagen der Wahlergebnisse deutlich
verbessert werden. Sofern sie nicht zutreffen, ist womöglich mit
Fehlprognosen zu rechnen. Die Gewichtungsmethoden sind deswegen als
modellabhängig zu bezeichnen.
Aufgrund der proprietären Methodik wird auf eine genaue
Dokumentation der Berechnungsformeln seitens der kommerziell
ausgerichteten Institute verzichtet. Die konkreten Gewichtungs-Rezepturen
werden wie Staatsgeheimnisse aufs Strengste gehütet. Selbst die Rohdaten
werden, mit Ausnahme von Forschungsgruppe Wahlen, nicht publiziert (vgl.
Ulmer 1989: 89). Man kann nur vermuten, welche genauen Annahmen den
Prozeduren zu Grunde liegen. Infolgedessen gestaltet sich die externe,
objektiv-wissenschaftliche Überprüfung solcher Ad-Hoc-Transformationen
äußerst schwierig (vgl. Diekmann 1996: 367).
Generell muss stark differenziert werden zwischen der kommerziellen
und der akademischen Wahlforschung. Die akademische Wahlforschung stellt
ihre formulierten Modelle der interessierten Fachöffentlichkeit zur Verfügung.
Beispielhaft hierfür wäre ein Prognosemodell der Wissenschaftler Gschwend
und Norpoth zu nennen, welches auf substantielle Erkenntnisse der
Wahlforschung zurückgreift. Deren Modell berücksichtigt neben kurzfristigen
Einflussfaktoren wie Popularitätswerte des Bundeskanzlers auch lang- und
mittelfristige Einflussfaktoren. Dazu gehört der langfristige Wählerrückhalt
der Regierungsparteien, gemessen am Mittel der jeweils letzten drei
Bundestagswahlen sowie die Dauer der aktuellen Regierungsperiode zur
Modellierung von Abnutzungserscheinungen (vgl. Gschwend/Norpoth 2001).
Dieses Modell wurde anhand vergangener Wahlen der letzten Jahrzehnte
13 Zur Methode von Exit-Poll-Befragungen vgl. Noelle-Neumann (1996: 297).
36
validiert und weiterentwickelt und konnte erstmals - laut Aussage der
Entwickler - seine Leistungskraft für die Prognose des Wahlausgangs der
Bundestagswahl 2002 erfolgreich unter Beweis stellen (vgl.
Gschwend/Norpoth 2002).
3.2.3 Gewichtung von Web-Surveys nach der Propensity-Score Technik
Die Anzahl internetbasierter Erhebungen in der empirischen Markt- und
Sozialforschung nimmt in jüngster Zeit ohne Zweifel stetig zu.14 Ihre
gesteigerte Popularität erklärt sich unverkennbar aus der Tatsache, dass ihre
Anwendung augenscheinlich eine Reihe großer Vorteile bietet. So ist die
Umsetzung und Durchführung einer Online-Befragung technisch
unkompliziert, flexibel einsetzbar und gewissermaßen „für jedermann“
realisierbar. Ferner lassen sich in äußerst kurzer Zeit sehr hohe Fallzahlen
gewinnen. Die vergleichsweise enorme Zeit- und Kostenersparnis in allen
Bereichen der Erhebung sucht seines Gleichen. Nicht zuletzt eröffnen
weitreichende graphische und multimediale Möglichkeiten der
Fragebogengestaltung neue, bis dato unerahnte Optionen für experimentelle
und quasi-experimentelle Fragebogendesigns (vgl. Couper 2000: 465)
Kurzum: Die innovativen Möglichkeiten der Internetbefragung befördern die
empirische Forschung auf direktem Wege in ein neues Zeitalter.
Bei allen Pluspunkten, die der neuen Methodik zugesprochen werden
muss, gilt es noch einige nicht unerhebliche Probleme aus dem Weg zu
räumen. Die größte Aufgabe stellt dabei die richtige Auswahl der
Befragungspersonen dar. Insbesondere bei Online-Befragungen mit dem
Anspruch, bevölkerungsrepräsentativ zu sein, muss die Aussagekräftigkeit
solcher Daten relativiert werden. Internetumfragen sind hauptsächlich in
zweierlei Hinsicht verzerrt. Problematisch ist einerseits die Zugangs-
Verzerrung, die sich durch den derzeit nicht flächendeckenden Internetzugang
von Befragungspersonen ergibt und andererseits die Teilnahmeverzerrung bei
selbstrekrutierter, non-probabilistischer Auswahl.
14 Für einen Überblick internetbasierter Erhebungen vgl. Couper (2000), Dillman (2000), Couper, Traugott, Lamias (2001).
37
Die Zugangs-Verzerrung ist ein Problem des Noncoverage. Die
angestrebte Grundgesamtheit (z.B. die allgemeine Bevölkerung) stimmt bei
Online-Befragungen nur ungenügend mit der Auswahlgesamtheit überein.
Eine Umfrage kann dann nur schwerlich repräsentativ für die gesamte
Bevölkerung sein, wenn nur eine Teilmenge daraus, nämlich die Gesamtheit
der Internetnutzer, Auswahlgrundlage ist.
Das Ausmaß dieser Verzerrung liegt deutlich auf der Hand. In der
BRD liegt die derzeitige Internetdichte bei knapp 53 Prozent (vgl. N-Onliner
Atlas 2004).15 Gänzlich unproblematisch wäre es, wenn diese Teilpopulation
eine unverzerrte Zufallsauswahl aus der Gesamtbevölkerung darstellen würde.
Dies ist offenkundig nicht der Fall. Die Internetgemeinde unterscheidet sich
von der Gesamtheit zum Teil erheblich. In wichtigen soziodemographischen
Merkmalen wie Geschlecht, Altersstruktur und Bildungsniveau sind die
Unterschiede besonders eklatant. So sind die Internetnutzer in Deutschland
überwiegend männlich, deutlich jünger als der Durchschnitt und formal besser
gebildet (vgl. N-Onliner Atlas 2004). Zu ähnlichen Ergebnissen für die USA
kommt auch Couper (2000: 472). Unnötig zu betonen, dass langfristig zwar die
Chance einer flächendeckenden Internetpenetration – ähnlich der
Telefondichte – besteht. Dennoch ist derzeit eine online-erhobene Be-
völkerungsbefragung systematisch verzerrt. Bestimmte Bevölkerungsgruppen
haben eine hohe, andere eine nur sehr geringe und wieder andere gar keine
Chance, in die Stichprobe zu gelangen.
Die zweite Verzerrungsmöglichkeit ist die Teilnahme-Verzerrung. Sie
tritt auf bei selbstrekrutierten Internetumfragen, d.h. Umfragen, bei denen die
Teilnehmer nicht ausgewählt werden, sondern sich selbst aktiv für die
Teilnahme an einer Umfrage entscheiden. Diese non-probabilistische Form der
(Selbst-)Auswahl stellt die zur Zeit am häufigsten im Netz zu findende Form
der Online-Befragung dar. Dies resultiert sicherlich aus dem Umstand, dass es
derzeit noch kein ausreichend bewährtes, auf möglichst
wahrscheinlichkeitstheoretischer Grundlage basierendes Auswahlverfahren
gibt. Schließlich existiert für das Internet weder eine dem
Einwohnermeldeamtsregister vergleichbare Auswahlgrundlage, noch eine dem
beim ADM-Design gängigen Random-Route-Protokoll nahekommendes 15 Es sei hier angemerkt, dass diese Angabe nur als grobe Annäherung zu verstehen ist. Schätzungen der Internetdichte unterliegen zahlreichen Fehlerquellen. Sie unterscheiden sich in der Regel sehr stark voneinander u.a. aufgrund hoher Fluktuation des Zugangs, wie auch definitorischer Differenzen (vgl. Couper 2000: 468f).
38
Verfahren, noch können Email- oder IP-Adressen wirkungsvoll generiert
werden. Dennoch gibt es Versuche, Online-Wahrscheinlichkeitsauswahlen zu
ermöglichen. Couper (2001: 477ff) liefert eine umfassende Typisierung der
gängigen Online-Auswahlverfahren und beschreibt u. a. die Möglichkeiten der
probabilistischen Auswahl. Dazu gehört auch der bereits in den ADM-
Standards aufgenommene Versuch, Online-Umfragen auf Basis offline-
rekrutierter „Access“-Panels durchzuführen (vgl. ADM et. al. 2001; Couper
2000: 488ff.). Hierbei wird im Rahmen einer traditionellen, auf
wahrscheinlichkeitstheoretischer Grundlage basierender Offline-Umfrage
zunächst das Vorhandensein eines Internetzugangs und die Bereitschaft zur
Teilnahme an einer zukünftigen Internetbefragung erfasst. Dadurch wird eine
Auswahlgrundlage von potentiellen Internetnutzern – das Access-Panel –
geschaffen. Der Vorteil dieser Vorgehensweise liegt darin begründet, dass zum
einen auf jeder Stufe die Auswahlwahrscheinlichkeiten bekannt sind und zum
anderen recht detaillierte Aussagen getroffen werden können über das Ausmaß
von Nonresponse und Noncoverage.16 Zudem lassen sich Erkenntnisse über
typische, prädiktive Eigenschaften der Nonrespondenten gewinnen. Diese
Informationen könnten dann zur entsprechenden Korrekturgewichtung von
Nonresponse-Effekten genutzt werden.17
Bei den gängigen non-probabilistischen Online-Erhebungen liegt die
Rekrutierung von Befragungspersonen in der Selbstselektion der Teilnehmer.
Der Anreiz zur Teilnahme soll dabei durch entsprechend platzierte Werbung
(Werbebanner im Internet, Pop-Up-Fenster, Werbung in Print-, Radio- und
TV-Medien, etc.) und/oder anreizbietende Entlohnungssysteme (Gewinnspiele,
Bonuspunkte, Einkaufsgutscheine, etc.) forciert werden. Daraus resultiert das
in der Umfrageforschung wohlbekannte Problem der Selbstselektion, welches
prinzipiell bei allen Umfragen auf freiwilliger Teilnahmebasis (z. B. besonders
bei postalischer Befragung) auftritt. Hinzu kommt hier, dass zum einen keine
16 Ob jedoch mit diesen Panels ein großer Schritt in Richtung „Repräsentativität“ der Internetnutzer erreicht wird, bleibt vorerst abzuwarten. Bandilla et al. (2003) konnten zwar für ihre Untersuchung mit Daten des ISS (International Social Survey) feststellen, dass diese Methodik gewiss nicht für die Ebene der Gesamtbevölkerung, durchaus aber für Gruppen mit hoher Internetpenetration (wie z.B. höher gebildete Personen) repräsentative Daten erzeugt. Wie jedoch Faas (2003b) im Rahmen seiner Untersuchung konstatiert, müssen „Online-Umfragen auf Basis von Access Panels nicht zwangsläufig Ergebnisse liefern, die Repräsentativität für alle Internet-Nutzer für sich beanspruchen können“ (72, Hervorhebung im Original). Beispielsweise sind die Mitglieder solcher Panels häufig besonders versierte Internetnutzer, während hingegen unerfahrene Nutzer systematisch unterrepräsentiert sind. 17 Vgl. dazu den nachfolgenden Abschnitt über die Möglichkeiten zur Korrekturgewichtung von systematischen Ausfalleinflüssen.
39
Zufallsauswahl vorgeschaltet wurde und zum anderen die Entscheidung zur
Teilnahme in einem sehr viel stärkeren Maße mit dem
Untersuchungsgegenstand korreliert sein kann. Denn begreifen wir die
Entscheidung zur Teilnahme (nach Esser 1986) als Kosten-Nutzen-Abwägung
eines rational handelnden Akteurs, dann ist gerade die Teilnahme an einer
Internetbefragung, zusätzlich zu den gängigen Kosten, belastet mit monetären
Kosten in Form von Internetnutzungsgebühren. Eine Teilnahme lässt sich dann
oftmals nur durch ein starkes persönliches Interesse am Untersuchungsthema
erklären. Gerade die Abhängigkeit zwischen Bereitschaft zur Teilnahme und
persönlichen Interesse am Thema der Untersuchung kann zu nicht
unproblematischen Einseitigkeiten in den Ergebnissen einer Befragung führen.
Weitere Probleme sind darin zu sehen, dass sich z.B. keinerlei
Informationen über Art und Umfang von Nonresponse gewinnen lassen. Auch
die Auswahlwahrscheinlichkeiten sind schlichtweg unbekannt. Zudem ist
oftmals die mehrfache Ausfüllung eines Fragebogens durch die gleiche Person
nicht kontrollierbar. Damit wird jegliche design- oder modellbasierte
Gewichtung zur Ausbesserung dieser Effekte zu einem schwierigen
Unterfangen.
Eine Alternative bietet die Gewichtung auf Basis geschätzter Internet-
Teilnahme-Wahrscheinlichkeiten, den sog. Propensity-Scores. Allgemein sind
‚Propensity-Scores’ geschätzte Wahrscheinlichkeiten für die Zugehörigkeit zu
einer Gruppe (z.B. die Gruppe der Internetnutzer, die Teilnehmer an einem
Experiment oder einer Umfrage). Diese werden anhand eines Kausalmodells
(realisiert z.B. durch logistische Regression) mittels verschiedener Kovariaten
geschätzt. Diese Methode geht ursprünglich zurück auf die Vorarbeit zunächst
von Cochran (1968), dann von Rosenbaum und Rubin (1983, 1984).
Anwendung findet sie z.B. auch bei Surveys zur Korrektur von Unit-
Nonresponse (vgl. dazu näheres in Kapitel 3.2.4). Die Propensity-Score-
Adjustierung im Kontext von Web-Surveys beschreiben z.B. Danielsson
(2002) und Lorenc (2004).
Für die Behebung von Online-Verzerrungen wurde diese Methode
erstmals bei internetbasierten Wahlprognosen angewandt von George
Terhanian und seinen Mitarbeitern bei dem US-Meinungsforschungsinstitut
Harris Interactive (Lorenc 2004: 1f). Diese Gewichtungsmethode war laut
eigener Aussage des Unternehmens ausschlaggebend für die erfolgreiche
40
Vorhersage des Wahlergebnisses der amerikanischen Präsidentschaftswahl im
Jahr 2000 (Faas 2003a: 134).
Die Vorgehensweise einer Propensity-Score-Gewichtung bei Online-
Datensätzen erfolgt prinzipiell folgendermaßen (vgl. Danielsson 2002; Lorenc
2004). Zunächst ist ein Offline-Datensatz vonnöten, in dem der
Internetzugang als binärcodierte Variable vorliegt. Nun wird mittels (meist)
logistischer Regression die Wahrscheinlichkeit für das Ereignis
„Internetzugang vorhanden“ geschätzt. Als erklärende Variablen fungieren
dafür in der Regel diverse soziodemografische Merkmale als auch
verschiedene Einstellungsvariablen, die mit dem Merkmal „Internetzugang“
kovariieren. Daraus geht für jedes Element die geschätzte Internetzugangs-
Wahrscheinlichkeit hervor. Dies sind die Propensity-Scores. Anhand der
Verteilung dieser Wahrscheinlichkeiten im Offline-Sample wird auf die
tatsächliche Wahrscheinlichkeitsverteilung der Propensity-Scores in der
Population geschlossen. Anschließend werden Gewichtungsklassen nach den
Gruppen gebildet, deren Mitglieder innerhalb einer Gruppe möglichst
homogene Propensity-Scores aufweisen. Im Online-Datensatz wird nun jedes
Mitglied einer so erstellten Gruppe mit dem Inversen der (mittleren)
gruppenspezifischen Propensity-Score gewichtet.
Die Propensity-Score kann somit als geschätzte Response-
Wahrscheinlichkeit für die Teilnahme an einer Web-Befragung angesehen
werden. Ihr Kehrwert gleicht die Verzerrungen in einer Art Quasi-
Designgewichtung aus.
Aufgrund der kommerziellen Nutzung ist bei Harris Interactive die
genaue Rezeptur dieser Methode, d.h. welche Variablen konkret als
Kovariaten fungieren, nicht exakt dokumentiert (vgl. Danielsson 2002: 7).
Ein deutsches, ebenfalls proprietäres und daher minder dokumentiertes
Beispiel der Propensity-Score Gewichtung findet sich bei den Online-Surveys
der ‚Perspektive Deutschland’ – Befragung.18 ‚Perspektive Deutschland’ ist
eine selbstrekrutierte, non-probabilistische Online-Befragung. Seit 2001 wird
sie jährlich durchgeführt und fokussiert dabei hauptsächlich auf
gesellschaftspolitisch relevante Themen. Laut definierter Grundgesamtheit
erhebt sie den ehrgeizigen Anspruch, bevölkerungsrepräsentativ für die 16-
69jährigen zu sein. Diesem Anspruch soll durch Propensity-Score-
18 Vgl.: www.perspektive-deutschland.de (URL vom 01.09.2004)
41
Adjustierung Rechnung getragen werden (vgl. Projektbroschüre Perspektive
Deutschland 2004).
Die einzige zugängliche Quelle über die genaue Adaption dieser
Methode findet sich in einem bis dato unveröffentlichten Konzeptpapier (vgl.
Börsch-Supan et. al. 2003). Die gesamte Adjustierungsprozedur besteht aus
folgenden Schritten: Zunächst wird parallel neben der Online-Befragung eine
identische Offline-Studie nach traditioneller Methodik durchgeführt. Die
Daten der z.B. durch Random-Route-Protokoll und CAPI realisierten Offline-
Studie werden als Referenzdaten später zur Schätzung der Response-
Wahrscheinlichkeiten benötigt. Da auch das traditionelle Sample verzerrt sein
kann, wird es zuvor mittels Standard-Redressment-Gewichtung an
entsprechende Zensus-Daten angepasst.
Anschließend wird versucht, die Internetzugangsverzerrung
auszugleichen. Dafür muss die Internetnutzungswahrscheinlichkeit mittels
Propensity-Score-Technik geschätzt werden. Im Offline-Fragebogen ist
demzufolge abgefragt, ob ein Internetanschluss der befragten Person zur
Verfügung steht. Die Schätzung der Wahrscheinlichkeit geschieht nun für
jedes Individuum anhand eines Probit-Modells durch im Offline-Fragebogen
erhobene Prädiktoren wie diverse Einstellungskonstrukte (z.B.
Risikobereitschaft) als auch durch soziodemografische Merkmale. Die so
individuell geschätzten Teilnahmewahrscheinlichkeiten sind die Propensity-
Scores. Anschließend werden mit Respekt zur geschätzten Propensity-Score
homogene Gruppen gebildet; der Kehrwert der gruppenspezifisch mittleren
Propensity-Score bildet das Online-Korrekturgewicht. Damit bekommen
Personen der Online Stichprobe in Abhängigkeit ihrer Gruppenzugehörigkeit
ein spezifisches Gewicht zugewiesen. Konkret kann dies bedeuten, dass
Gruppenmitglieder mit geringerer Zugangswahrscheinlichkeit wie z.B. ältere,
formal niedrig gebildete Frauen proportional dazu hochgewichtet werden.
In einem letzten Schritt soll die Teilnahme-Verzerrung ausgeglichen
werden. Zunächst muss dafür die Teilnahmewahrscheinlichkeit geschätzt
werden. Diese kann nun nicht wie im vorherigen Schritt direkt bestimmt
werden, da es keine reliablen Angaben zu den Beweggründen einer
selbstselektierten Teilnahme geben kann. Denn es gibt keine binäre
Gruppenvariable, die zwischen Teilnehmern und Nicht-Teilnehmern
diskriminiert. Die Gewichte werden stattdessen ermittelt, indem der komplette,
bereits propensity-gewichtete Variablenset der Online-Stichprobe mittels
42
Redressment-Anpassung nach einem Iterative-Proportional-Fitting Verfahren
mit dem der Offline Stichprobe angepasst wird (vgl. Börsch-Supan et. al.
2003).
Führt diese Methode tatsächlich zu einer verbesserten Schätzung und
„repräsentativen“ Daten? Ein Problem bereitet sicherlich das parallele, offline
administrierte Referenzsample. Diese Daten gelten als Populationswerte; aus
ihnen sollen die Propensity-Scores geschätzt werden. Diese Daten sind aber
nicht fehlerfrei. Wie andere Stichprobendaten auch sind sie mit Fehlern
behaftet, die dadurch entstehen, dass nur eine zufällige Auswahl aus der
Gesamtheit befragt wird („sampling errors“), mit Fehlern, die aufgrund des
verwendeten Stichprobendesigns resultieren („design effect“; vgl. Kish 1965)
und mit Fehlern, die nicht auf die durch den Prozess der Auswahl entstehende
zufällige Variabilität von Stichprobe zu Stichprobe zurückzuführen sind wie
z.B. Nonresponse, Noncoverage oder Messfehler („nonsampling errors“).
Daneben sind weitere Verzerrungseffekte denkbar, die sich aus der
Gleichsetzung von Daten ergeben, die mit zwei unterschiedlichen
Instrumenten erhoben wurden: Offline-Umfragen sind in der Regel
intervieweradministriert, Online-Umfragen dagegen ausschließlich
selbstadministriert. Im ersten Fall können durch den Interviewer
Anwesenheits-Effekte, wie die soziale Erwünschtheit oder die Akquieszenz,
im zweiten Fall Abwesenheits-Effekte, z.B. intellektuelle oder emotionale
Verständnisprobleme auftreten. So kamen beispielsweise Schonlau et. al.
(2004) bei ihrem Vergleich einer propensity-gewichteten Online Erhebung mit
einer identischen, durch Random-Digit-Dialing (RDD) realisierten
Telefonbefragung nur bei 8 von 37 Fragen auf nichtsignifikante
Antwortdifferenzen. Auf mögliche negative response-to-media Effekte
zwischen Online und Offline Stichproben weisen Miller/Panjikaran (2001) hin.
Die Autoren verglichen ebenfalls eine propensity-score-gewichtete Online-
Umfrage mit einer RDD-Telefonbefragung und führten gefundene
Diskrepanzen bei der Vergabe von „Weiß-Nicht“-Antworten auf die einerseits
oral (Telefon), andererseits visuell (Online) offerierte Darstellung des
Fragebogens zurück.
Die direkte Vergleichbarkeit beider Samples scheint also problematisch
zu sein. Ein Indiz für die Brauchbarkeit dieser Gewichtungsmethode zeigt
jedoch die erfolgreiche Vorhersage der US-Präsidentschaftswahl durch die
Online-Umfrage von Harris Interactive im Jahr 2000. Gerade Wahlprognosen
43
bieten ja die einzigartige Möglichkeit der unmittelbaren Überprüfbarkeit der
Prognosen durch den tatsächlichen Wahlausgang. Ob allerdings diese Methode
auch bei der jüngsten Wahlprognose für die US-Präsidentschaftswahl im
September 2004 Erfolg brachte, ist dem Verfasser nicht bekannt.
Im Wesentlichen hängt jedoch der Erfolg dieser Methode stark von der
richtigen Schätzung der Response-Wahrscheinlichkeiten ab. Dies wiederum
hängt davon ab, ob das verwendete Schätzmodell richtig spezifiziert wurde,
d.h. ob die Wahl der in das Kausalmodell eingehenden unabhängigen
Variablen und die Aufteilung der Gruppen richtig war. Lorenc (2004) konnte
durch Simulation zeigen, dass die Gewichtung nach der Propensity-Score
teilweise erheblich zur Reduzierung von Stichprobenverzerrungen führen
kann, sofern von den gewählten Modellvariablen genügend Erklärungskraft
zur Vorhersage der Responsewahrscheinlichkeiten ausgeht. Fehlen jedoch
wichtige erklärende Variablen im Kausalmodell, kommt es zu einer ungleich
größeren Verzerrung. Dieses Ergebnis macht die starke Modellabhängigkeit
der Prozedur nur allzu deutlich, zeigt aber auch, dass dieser innovativen
Methode – ein richtig spezifiziertes Modell vorausgesetzt – ein enormes
Potential innewohnt.
3.2.4 Gewichtung zur Korrektur von Nonresponse19
Nonresponse kann als eines der Hauptprobleme bei Umfragen angesehen
werden. Seit den siebziger Jahren lassen sich weltweit zunehmend geringere
Ausschöpfungsquoten bei kommerziellen, als auch bei akademischen Surveys
feststellen. Groves et. al. (2004: 184ff.) konstatieren diesen Trend für die USA;
Schnell (1997: 71ff.) für die Bundesrepublik Deutschland. Eine ausführliche
Diskussion über den aktuellen Forschungsstand bezüglich Nonresponse in
Surveys bietet Groves (1989), Groves et. al. (2002, 2004: 169ff.), Schnell
19 Wenn im folgenden mit dem Begriff Nonresponse gearbeitet wird, sei damit ausschließlich der sog. Unit-Nonresponse gemeint. Unit-Nonresponse meint, dass das für die Stichprobe ausgewählte Objekt vollständig ausfällt, d.h. in der Datenmatrix fehlt ein vollständiger Antwortvektor. Der Item-Nonresponse, also das Fehlen nur einzelner Angaben (missing values), bleibt hier explizit außen vor. Strategien zur Korrektur von Item-Nonresponse , sog. Imputationstechniken, finden hier demnach keine Berücksichtigung. Für einen Überblick der verschiedenen Techniken vgl. Little/Rubin (1987: 60ff.); Särndal/Swensson/Wretman (1997: 589ff); Lohr (1999: 272ff).
44
(1997) sowie Koch/Porst (1998). Einen Rational-Choice-basierten Ansatz zur
theoretischen Erklärung von Nonresponse skizziert Esser (1986).
Nonresponse kann vernachlässigt werden, sofern es sich - nach der
Klassifikation von Little/Rubin (1987: 14f.) - um missing data completely at
random (MCRA) handelt. Hierbei ist der Mechanismus, der die Ausfälle
produziert („missing data mechanism“), gänzlich unkorreliert mit allen
Untersuchungs- wie Hilfsvariablen. Die erhaltene Nettostichprobe stellt dann
eine reine, unverzerrte Zufallsauswahl aus der Gesamtheit dar.
Sofern der Nonresponse-Mechanismus nur mit den Hilfsvariablen,
nicht aber mit den Untersuchungsvariablen korreliert ist, kann der
Ausfalleinfluss ebenfalls vernachlässigt werden in dem Sinne, dass der
Mechanismus durch ein explizites Modell erklärt werden kann. Der
Ausfallmechanismus ist dann missing at random (MAR) innerhalb nach
Werten der Hilfsvariablen gebildeten Subgruppen.
Beide Fälle von Nonresponse, MCAR und MAR, werden daher als
ignorable Nonresponse zusammengefasst (vgl. Little/Rubin 1987 14f.).
Da insbesondere bei sehr hohen Ausfallraten von 40 – 50 % nicht
davon ausgegangen werden kann, dass es hinsichtlich der
Untersuchungsvariablen keinerlei Unterschiede zwischen respondierenden und
nicht respondierenden Untersuchungseinheiten gibt, wird in den meisten Fällen
weder MCAR, noch MAR zutreffen. Der Nonresponse-Mechanismus ist dann
als non-ignorable zu bezeichnen.
Nichtignorierbarer Nonresponse führt zu diversen
Stichprobenverzerrungen. Der folgende Gedanke soll diesen Fall
verdeutlichen: Die Teilnahme an einer Umfrage sei mit der Höhe des
Einkommens korreliert. Das bedeutet, Personen mit hohem Einkommen sind
der Tendenz nach weniger dazu bereit, ihre kostbare Zeit für ein stellenweise
ein- bis zweistündiges Interview herzugeben.20 Die Stichprobenauswahl wird
verzerrt sein: Personen der höheren Einkommensklassen sind systematisch
unterrepräsentiert. Doch damit nicht genug. Insgesamt ist mit weiteren
Verzerrungen zu rechnen. Denn Personen mit hohem Einkommen sind
tendenziell eher hoch gebildet, vermehrt männlich, eher älter als jünger, in
höherem Maße verheiratet als geschieden, präferieren voraussichtlich andere 20 So beträgt z.B. im 1998er ALLBUS die durchschnittliche Dauer eines Interviews 54,5 Minuten mit einer Standardabweichung von 15,4 und einer Spannweite von 235 Minuten. Ähnliche Werte finden sich für den ALLBUS 1996 und den DJI-Survey 1997 (Quelle: Eigene Berechnungen).
45
Parteien, teilen vermutlich andere Wertorientierungen, leben andere Lebens-
und Konsumstile und geben insgesamt andere Antworten als Personen mit
mittlerem oder unterdurchschnittlichem Einkommen.
Kurz gesagt, alle Erhebungsvariablen, die mit der verzerrten Variablen
‚Einkommen’ kovariieren, werden mitverzerrt. Hinzu kommt, dass Ausfälle
nicht allein von einem Merkmal wie ‚Einkommen’ abhängen:
„Bei Befragungen fehlen (aus unterschiedlichen Gründen) üblicherweise marginale, ‚extreme’ und ‚abweichende’ bzw. ‚unkonventionelle’ Populationsanteile, Personen sowohl aus über- wie unterprivilegierten Lebenslagen sowie solche, die aus eher grundsätzlichen Erwägungen eine Beteiligung an Umfragen (einschließlich solcher der amtlichen Statistik) ablehnen“ (Esser 1986: 38).
Neben Personen der hohen und niedrigen Einkommensklassen sind dies, wie
bereits Scheuch (1962: 334) anmerkte, in besonderem Maße soziale Gruppen
wie alte und junge Menschen, Angehörige von Minoritäten, Berufstätige,
Frauen und Großstadtbewohner. Als weitere Prädiktoren für Nonresponse
erweisen sich sozio-ökonomische Statusmerkmale wie Bildung und
Schichtzugehörigkeit. In vielen Bevölkerungsumfragen sind demnach
Personen aller mittleren Statusklassen überrepräsentiert. Von Scheuch (1962)
als „Middle-Class-Bias“ umschrieben, wird dieses Phänomen heute auf das
Bildungsniveau zurückgeführt (vgl. Schnell 1997: 202; Schräpler 2000: 119).
Die maßgeblichen Ausfallgründe liegen in der Verweigerung des
Interviews oder in der Nicht-Erreichbarkeit der Zielperson.21
Daneben üben bestimmte Situationsmerkmale und sogar
Interviewereffekte einen Einfluss auf die Kooperationsbereitschaft von
Befragungspersonen aus. Koch (1991) und Schräpler (2000: 144f) weisen
beispielsweise einen Zusammenhang zwischen bestimmten Merkmalen der
Interviewerperson (Geschlecht, Schulabschluss und Alter) und der
Teilnahmebereitschaft der Befragungsperson am Interview nach. So haben
weibliche Interviewer mit mittlerem Schulabschluss die höchsten Chancen auf
Kooperationsbereitschaft seitens der Zielperson zu stoßen.
Die Ausfallquote hängt auch vom Erhebungsinstrument ab.
Beispielsweise stellen Gabler und Häder (1997) anhand des Vergleichs von
21 Dies sind nur die Hauptkategorien (vgl. Böltken 1976: 203f.). Weitere finden sich bei Cochran (1972: 420) oder auch Esser (1986).
46
Stichprobenverteilungen einer telefonischen und einer persönlich-mündlichen
Eurobarometer-Umfrage mit Referenzdaten des Mikrozensus fest, dass ältere
Frauen bei der face-to-face-Befragung z.T. erheblich unter-, hingegen bei der
Telefonstudie deutlich überrepräsentiert sind. Auch hier wird man nur
schwerlich abstreiten können, dass die mit Ausfällen behafteten Merkmale
‚Alter’ und ‚Geschlecht’ keinerlei Einfluss auf noch weitere
Untersuchungsvariablen nehmen.
Eine hohe Ausfallquote wird also in den meisten Fällen zu
nichtignorierbaren, systematischen Verzerrungen führen. Das Ausmaß der
Verzerrung hängt direkt ab von der Stärke des Zusammenhangs zwischen
Nonresponse-Mechanismen und Untersuchungsmerkmalen.
Zuverlässige Schlüsse von der Stichprobe auf die Grundgesamtheit sind
dann nicht mehr garantiert. Die klassischen Techniken der Inferenzstatistik,
wie z.B. die Konstruktion von Konfidenzintervallen, berücksichtigen einen
solchen nonsampling error nicht. Sie beziehen sich nur auf die Teilpopulation
der Respondenten, nicht jedoch auf alle Elemente der Grundgesamtheit.
Welche Möglichkeiten zur Minimierung dieser negativen Effekte
stehen zur Verfügung? Neben diversen Maßnahmen vor und während der
Feldphase, wie z.B. der besonderen Schulung der Interviewer, der Erhöhung
der Kontaktversuche und der Wahl des richtigen Erhebungsverfahrens gehört
vor allem die modellbasierte Gewichtung zur bedeutsamen Strategie für den
Umgang mit dem Nonresponse-Problem. Dafür werden nach verschiedenen
Kriterien Modellannahmen über das tatsächliche (unbekannte) Antwort- und
Nonresponseverhalten der Untersuchungseinheiten entworfen.
Ein brauchbares Modell beschreiben Särndal/Swensson/Wretman
(1997: 578), dass sie response homogeneity group (RHG) – Modell nennen.
Die Stichprobe wird dabei in Gruppen zerlegt, von denen man (hypothetisch)
annimmt, dass die Elemente innerhalb der Gruppen gleiche, konstante
Antwortwahrscheinlichkeiten besitzen. Des Weiteren liegt die Modellannahme
zugrunde, dass innerhalb der gebildeten Klassen der Nonresponse-
Mechanismus nicht systematisch, sondern zufällig erfolgt. Dies entspricht der
Annahme, dass die fehlenden Antwortvektoren missing at random (MAR) sind
(vgl. Särndal/Swensson/Wretman 1997: ebenda) .
Sofern die Gruppen mit den Anpassungszellen einer Redressment-
Prozedur übereinstimmen, dann ist, wie Särndal/Swensson/Wretman (1997:
585) zeigen, das RHG Modell identisch mit der in der Praxis üblichen
47
Verhältnisschätzung bei nachträglich geschichteten Stichproben (“ratio
estimator with weighting class adjustments”). Mit anderen Worten: Das
Standard-Redressment geht dann in ein Nonresponse-Korrekturverfahren unter
der Modellannahme homogener Antwortgruppen (RHG) über.
Nach welchen Kriterien sind die Anpassungsgruppen zu bilden? Die
Gruppen sollten so gewählt werden, dass der RHG- bzw. MAR-Annahme
möglichst Rechnung getragen wird. Aus Gründen der Pragmatik sind dies in
der Praxis meist verfügbare Gruppen- bzw. Gewichtungsvariablen wie Alter,
Geschlecht, Nationalität oder Gemeindegrößeklassen.
Eine sehr vielversprechende Möglichkeit wäre es, die Gruppen über die
Propensity-Score-Technik zu ermitteln. Auf diese Technik wurde bereits im
Kontext von Web-Surveys eingegangen (vgl. Kapitel 3.2.3). Die
Funktionsweise ist hier ähnlich.22 Falls die Teilnahme (Response) als
dichotome, binärcodierte Variable im Datensatz vorliegt, kann die individuelle
Response-Wahrscheinlichkeit (Propensity-Score) durch eine (z.B. logistische)
Regression der Response-Variablen auf unabhängige, erklärende Variablen
geschätzt werden. Die Gewichtungsgruppen werden dann so gebildet, dass
innerhalb der Gruppen möglichst homogene (geschätzte) Response-Raten
herrschen. Eine Studie, in der diese Technik zur Anwendung kommt,
beschreiben Groves et. al. (2004: 328).
Diese Methode kann sich besonders ergiebig bei Längsschnittdaten
erweisen, da dort in der Regel bereits en détail zahlreiche Informationen über
Nonrespondenten aus früheren Wellen bekannt sein dürften. Im SOEP werden
beispielsweise in ähnlicher Weise entsprechende Anpassungsgruppen mit
homogener Response-Wahrscheinlichkeit ermittelt (vgl. Pirschner 1994).
Insgesamt jedoch hängt der Erfolg der Gewichtung von der Richtigkeit
der getroffenen Modellannahmen ab, d.h. vor allem von den richtig
spezifizierten Gruppen, die den Datensatz so einteilen, dass innerhalb der
Gruppen die MAR-Annahme annähernd erfüllt ist.
Wie Bethlehem (1988, 2002) zeigen kann, lassen sich dann die
ausfallbedingten Verzerrungen gänzlich reduzieren: Unter einem
systematischen Nonresponse-Einfluss liegt beispielsweise der Bias des
22 Zur Propensity-Score-Technik im Kontext von Nonresponse vgl. Little/Rubin (1987: Kapitel 4.4.2, 56ff.). Für einen zusammenfassenden Überblick vgl. Rosenbaum (2002: 295ff.).
48
geschätzten Mittelwertes (bei freier Hochrechnung) ungefähr in der
Größenordnung (vgl. Bethlehem 2002: Ausdruck 1.2.3, S. 276):
pYpCovyyEyB UUU
),()ˆ()ˆ( ≈−= (30)
Dabei ist pk die Response-Wahrscheinlichkeit für jedes Element k; p ist die
durchschnittliche Response-Wahrscheinlichkeit aller Elemente und ),( YpCov
ist die Populationskovarianz zwischen der Response-Wahrscheinlichkeit und
der Untersuchungsvariablen Y. Daraus folgt nun, dass der Schätzer Uy genau
dann unverzerrt ist, wenn die Korrelation zwischen Untersuchungsvariable und
Responsemechanismus Null ist. Je größer jedoch der Zusammenhang zwischen
Response-Wahrscheinlichkeit und Untersuchungsvariable, desto größer ist
auch der Nonresponse-Bias. Des Weiteren hängt die Verzerrung auch von der
Ausschöpfungsquote ab: Je höher die Ausschöpfung einer Stichprobe, desto
höher liegt die durchschnittliche Response-Wahrscheinlichkeit p und desto
kleiner wird der Bias.
Wird der Datensatz nun in Gruppen eingeteilt, dann liegt, wie sich
zeigen lässt, der Bias des (nachträglich geschichteten) Schätzers für den
Mittelwert in der Größenordnung (vgl. Bethlehem 2002, Ausdruck 2.2.3,
S.277):
g
gG
ggU p
YpCovn
nyB
),(1)ˆ(1∑=
= (31)
Der Bias ist nun genau dann Null, wenn die Gruppen so gewählt werden, dass
innerhalb der Gruppen die Korrelation zwischen Response-Mechanismus und
Untersuchungsmerkmal Null ist.
Sofern also im Rahmen eines Redressments der Datensatz derart
geschickt aufgeteilt wird, dass innerhalb der Gruppen ),( YpCov = 0 herrscht,
kann der Nonresponse-Bias eliminiert werden.
Ziel der nachfolgenden Simulationsstudie soll u.a. sein, die Auswirkungen
eines praxisgängigen Redressments als Nonresponse-Korrekturgewichtung zu
analysieren (vgl. Kapitel 4.6). Dabei sollen genau zwei Modelle berücksichtigt
49
werden: ein Szenario mit ),( YpCov = 0 innerhalb der Gruppen und eines mit
),( YpCov ≠ 0 innerhalb der Gruppen.
4. Die empirische Überprüfung der Auswirkungen einer
Redressment-Gewichtung mittels Monte-Carlo-Simulation
4.1 Zielsetzung und Vorgehensweise
Die nachfolgende Simulationsstudie verfolgt das Ziel, die Gewichtung nach
dem Redressment-Prinzip mit dem Fall der Nichtgewichtung unter
verschiedenen, praxisrelevanten Aspekten zu vergleichen. Das praxisgängige
Verfahren des Redressments ist, wie bereits erörtert, identisch mit einer
Verhältnisschätzung bei nachträglich geschichteten Stichproben. Eine
wesentliche Grundvoraussetzung für die Effektivität einer Verhältnisschätzung
im Sinne einer Reduktion der Stichprobenvariabilität des Schätzers stellt die
Korrelation zwischen Hilfs- und Untersuchungsvariable dar. Diese sollte
möglichst größer als 0,5 sein (vgl. Cochran 1972: 198). Im Falle einer
Redressment-Gewichtung sollten demnach die Anpassungskategorien der
Gewichtungsvariablen homogen sein in Bezug auf das interessierende
Merkmal, denn genau dies entspräche einer hohen Korrelation zwischen
Gewichtungs- und Untersuchungsmerkmal. In der Praxis ist dies meist nicht
der Fall. Beispielsweise hat Schnell (1993: 20) anhand einer
Korrelationsanalyse mit Daten des ALLBUS 1980 herausgefunden, dass
typische Standardgewichtungsvariablen im Durchschnitt nur äußerst gering mit
den Untersuchungsvariablen der Mehrthemenumfrage korreliert sind. Dazu
Schnell (1993: 23):
„Zusammenfassend muss festgestellt werden, dass die Erklärungskraft der demographischen Variablen Alter, Geschlecht und Bundesland für die meisten in sozialwissenschaftlichen Surveys erhobenen Variablen sehr gering ist. Nichts deutet darauf hin, dass dies für andere demographische Variablen als Gewichtungsvariablen anders wäre. Die Annahme der Homogenität von Gewichtungsklassen in Hinsicht auf interessierende Variablen ist somit falsch.“
50
Es drängt sich nun die Frage auf, wie sich eine Gewichtung auf die Qualität
der Daten auswirkt, wenn – wie es die Regel zu sein scheint – die
Voraussetzungen für ihre Effektivität nicht erfüllt sind.
In der folgenden Studie soll zunächst die Gewichtung unter
verschiedenen Szenarien der Modellgüte (hoch, mittel, schwach) simuliert
werden. Dafür werden Untersuchungsvariablen erzeugt, die einmal hoch,
mittelmäßig und schwach mit der Gewichtungsvariable in Verbindung stehen.
Insbesondere dem Fall der schwachen Modellgüte, d.h. Gewichtungs- und
Untersuchungsmerkmal korrelieren nur sehr schwach miteinander, soll
besondere Aufmerksamkeit geschenkt werden, um möglichst die für die
Umfragepraxis relevanten Aspekte zu extrahieren.
Im Fokus des Interesses steht dabei einerseits der Effekt einer
Gewichtung auf die Schätzung von Anteils- oder Mittelwerten, andererseits
auf die Schätzung von Korrelationskoeffizienten.
Darüber hinaus soll untersucht werden, wie sich eine Redressment-
Gewichtung auf die Datenqualität auswirkt, wenn die Stichprobe mit
systematischen Ausfällen behaftet ist. In diesem Fall geht die Redressment-
Prozedur in eine Nonresponse-Korrekturgewichtung über, die implizit
zusätzliche Annahmen über die Struktur der Daten, insbesondere über den
Mechanismus der Ausfälle, aufstellt. Zu diesen Annahmen gehört, dass der
Nonresponse-Mechanismus innerhalb der Anpassungskategorien des
Redressments als missing at random (MAR) angenommen werden kann. Jede
Redressment-Gewichtung impliziert demnach, dass der Nonresponse lediglich
mit den zur Adaption herangezogenen Hilfsvariablen, nicht aber mit den
Untersuchungsvariablen selbst korreliert ist. Diese Annahme dürfte jedoch in
den meisten Fällen unrealistisch sein. Das konkrete Verhalten eines
gewichteten Schätzers soll deswegen unter der Konstruktion zweier Szenarien
des systematischen Ausfalls analysiert werden, nämlich einmal bei korrekter
sowie völlig falscher MAR-Annahme.
51
4.2 Zur Durchführung23
Die Simulation erfolgt nach der sog. Monte-Carlo-Methode. Das Monte-Carlo-
Prinzip beschreibt Mooney (1997: 2) folgendermaßen:
„Monte Carlo simulation offers an alternative to analytical mathematics for understanding a statistic´s sampling distribution and evaluating its behavior in random samples. Monte Carlo simulation does this empirically using random samples from known populations of simulated data to track a statistic´s behavior. The basic concept is straightforward: If a statistic´s sampling distribution is the density function of the values it could take on in a given population, then its estimate is the relative frequency distribution of the values of that statistic that were actually observed in many samples drawn from that population. Because it usually is impractical for social scientist to sample actual data multiple times, we use artificially generated data that resemble the real thing in relevant ways. The recent availability of high-speed computers makes this approach now widely practical for the first time in history.” (Hervorhebungen im Original)
Für unsere Zwecke werden in einem solchem Monte-Carlo-Massenexperiment
insgesamt 10000 Stichproben jeweils vom Umfang n = 100 immer wieder aus
der gleichen, artifiziell erzeugten Population gezogen. Jedes Mal werden dabei
zwei Schätzer berechnet. Zum einen der ungewichtete Schätzer bei freier
Hochrechnung; zum anderen derselbe, aber nach dem Soll-durch-Ist Prinzip
gewichtete, nachträglich geschichtete (Verhältnis-)Schätzer. Die dann
entstehenden zwei Häufigkeitsverteilungen der je 10000 berechneten
ungewichteten wie gewichteten Stichprobenkennwerte nähern sich nun an die
(nur theoretisch bekannten) tatsächlichen Stichprobenverteilungen beider
Schätzer an. Damit lassen sich dann die statistischen Verteilungseigenschaften
beider Schätzer analysieren und vergleichen. Die Mittelwerte dieser
Häufigkeitsverteilungen stellen Annäherungen an die Erwartungswerte dar; die
Streuung der Verteilungen approximiert die Varianz des Schätzers. Es lässt
sich somit u.a. die Effizienz der Schätzer untersuchen.
Allgemein setzt sich die Qualität eines Schätzers aus zwei
Bestandteilen zusammen.
Die erste Komponente ist die Präzision (engl. „precision“) der
Schätzung. Diese misst sich in dem Grad der Abweichung der wiederholt
23 Alle mit dem Computer durchgeführten Simulationen und Berechnungen wurden mit der Statistik-Software SPSS realisiert (vgl. SPSS Inc. 2001a). Alle relevanten Prozeduren wurden programmiert mittels SPSS-Syntax-Sprache (vgl. SPSS Inc. 2001b).
52
berechneten Stichprobenkennwerte vom Erwartungswert. Dies ist die Varianz
oder deren Quadratwurzel, die Standardabweichung der
Stichprobenkennwerteverteilung. Die Standardabweichung einer
Stichprobenverteilung ist besser bekannt als der „Standardfehler des
Schätzers“.
Die zweite Komponente betrifft die Richtigkeit oder Exaktheit (engl.
„accuracy“) der Schätzung. Das Maß dafür ist der Bias, also der Abstand
zwischen Erwartungswert und Populationswert. Eine Schätzung ist dann
verzerrt, wenn sie im Mittel nicht den wahren Wert trifft, wenn also der Bias
nicht Null ist.
Beide Komponenten beziehen sich in gewisser Weise auf die
Genauigkeit einer Schätzung. Folgerichtig nennt Cochran (1972: 31f.) die erste
Komponente „Wiederholungsgenauigkeit“ und die zweite Komponente
„Treffgenauigkeit“.24 Für die Zusammenfassung beider Gütekriterien bietet
sich ein Gesamtfehlermaß an, welches Auskunft über die Gesamtgenauigkeit
einer Schätzung gibt. Dies ist der sog. „mittlere quadratische Gesamtfehler“,
der MSE („mean square error“). Er ist definiert als (vgl. Lohr 1999: 28):
MSE = (Standardfehler)2 + (Bias)2 (32)
Falls ein Schätzer erwartungstreu, d.h. „unbiased“ ist, dann reicht die
Dokumentation der Varianz oder des Standardfehlers zur Qualitätsabschätzung
aus, da in dem Fall:
MSE = (Standardfehler)2 (33)
Anhand dieser Gütekriterien können in der nachfolgenden Simulationsstudie
beide Schätzer, der ungewichtete und der gewichtete, miteinander verglichen
werden. Es kann nun nachgeprüft werden, unter welchen Voraussetzungen die
Gewichtung der Daten zur Verbesserung und unter welchen Voraussetzungen
die Gewichtung zur Verschlechterung der Schätzung führt.
24 Wenn salopp von „der Genauigkeit“ die Rede ist, dann ist damit im Allgemeinen die „Wiederholungsgenauigkeit“ gemeint.
53
4.2.1 Konstruktion der Population
Zunächst wird künstlich eine Population erzeugt, aus der später die
Stichproben gezogen werden sollen. Der Umfang der Population soll 100000
Fälle betragen. Bei einer Stichprobengröße von je 100 Fällen entspricht dies
einem Auswahlsatz von 0,1 Prozent. Die artifiziell erzeugten
Populationsvariablen sollen dabei eine vorgegebene Korrelationsmatrix
besitzen. Dies geschieht mit einem in SPSS programmierten Syntax-Code. Mit
diesem ist es möglich, beliebig verteilte Zufallsvariablen in exakt
vorgegebener Korrelation zu erzeugen. Dieser Code ist eine vom Verfasser
leicht modifizierte Version eines von David C. Howell und Lawrence Gordon
übernommenen SPSS-Programms.25 Das Programmprinzip funktioniert
folgendermaßen:26 Zunächst werden sieben standardnormalverteilte
Zufallsvariablen erstellt. Dies geschieht mit einem in SPSS implementierten
COMPUTE-Befehl, welcher auf Basis eines Pseudo-Zufallszahlen-Generators
für jeden der 100000 Fälle einen zufälligen Variablenwert aus einer
normalverteilten Grundgesamtheit ausgibt.
Die Zufallsvariablen korrelieren zunächst (zufällig) nahe Null. Durch
geeignete Linearkombinationen dieser Variablen können nun daraus neue
Zufallsvariablen mit einer vorgegebenen Korrelationsmatrix erzeugt werden.
Voraussetzung dafür ist aber, dass sie zunächst gänzlich unkorreliert sind. Dies
wird erreicht, indem die sieben Variablen einer Hauptkomponentenanalyse
unterzogen werden, wobei genau sieben zu extrahierende Faktoren vorgegeben
werden. Anschließend werden die Faktorwerte der sieben Faktoren berechnet
und als Variablen abgespeichert. Mit den Faktorwerten ergeben sich dann
sieben neue Variablen, die exakt voneinander unabhängig sind. Diese nennen
wir X1,...,X7. Nun wird die gewünschte Korrelationsmatrix R vorgegeben (vgl.
Abb. 1). Mathematische Grundlage zur Erzeugung korrelierter Daten ist die
sog. Cholesky-Zerlegung.27 Mittels der Cholesky-Zerlegung wird die Matrix R
in das Produkt einer unteren und einer oberen Dreiecksmatrix zerlegt: R=AAT .
25 Der Originalcode ist frei zugänglich unter http://www.uvm.edu/~dhowell/StatPages/More_Stuff/CorrGen2.html (URL vom 18.11.2004). 26 Der gesamte Programmcode ist in Anhang 1 abgedruckt. 27 Zur Cholesky-Zerlegung im Zusammenhang mit der Erzeugung korrelierter Daten vgl. Mooney (1997: 47f.), Liebl (1995: 49ff.) sowie die Beschreibungen im Internet unter http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Gener_Correl_Numbers.html (URL vom 18.11.2004) und http://www.lehre.fhw-berlin.de/fineng/korrproz.htm (URL vom 18.11.2004).
54
Die Koeffizienten der unteren Dreiecksmatrix A berechnen sich gemäß:
7,...,11
1
2 =
−= ∑
−
=
iarai
kikiiii (34)
7,...,11 1
1+=
−= ∑
−
=
ijaara
ai
kikjkji
iiji (35)
Die korrelierten Zufallsvariablen Y1,...,Y7 erhalten wir nun als Spalten der
Matrix Y=XAT, d.h. Yi=ai1X1+...+ai7X7. Im Anschluss daran wird das Zentrum
und die Streuung der Variablen adjustiert, indem die Variablen Y1,...,Y7
jeweils mit der gewünschten Standardabweichung multipliziert werden und
dazu der gewünschte Mittelwert addiert wird. Dies ist möglich, da die
Variablen standardisiert vorliegen und entspricht einer Rückrechnung der Z-
Transformation. Für alle Variablen wird ein Mittelwert von 1800 mit einer
Standardabweichung von 500 gewählt. Dies sind die „wahren“ Parameter, die
es später zu schätzen gilt.
Abb. 1: vorgegebene Populationskorrelationsmatrix der
Untersuchungsvariablen NR1-NR7
1,840 1,560 ,710 1,400 ,630 ,220 1,200 ,150 ,430 ,190 1,050 ,150 ,280 ,160 ,350 1
-,110 -,150 -,080 -,150 -,180 -,200 1
Korrelation nach PearsonKorrelation nach PearsonKorrelation nach PearsonKorrelation nach PearsonKorrelation nach PearsonKorrelation nach PearsonKorrelation nach Pearson
NR1_1NR2_1NR3_1NR4_1NR5_1NR6_1NR7_1
NR1_1 NR2_1 NR3_1 NR4_1 NR5_1 NR6_1 NR7_1
4.2.2 Konstruktion des Gewichtungsmerkmals „Geschlecht“
Aus dem Populationsdatensatz wird nun eine weitere Variable erzeugt, nach
deren Verteilung die Stichproben gewichtet werden sollen. Dies ist die binär
codierte Gewichtungsvariable „Geschlecht.“ Diese Variable soll nun so erstellt
werden, dass sie in unterschiedlich starker Korrelation mit den
Untersuchungsvariablen in Verbindung steht. Dazu wird sie direkt aus
55
Variable NR1 erzeugt, indem ihre Werte dichotomisiert auf eine neue Variable
aufgeteilt werden.28 Dadurch, dass die Variable „Geschlecht“ nun unmittelbar
aus NR1 entstanden ist, steht sie mit den Untersuchungsvariablen in einem
bestimmten korrelativen Verhältnis zueinander. Wie Abbildung 2 zeigt,
variiert die Korrelation mit den ersten sechs Untersuchungsvariablen zwischen
0,798 und 0,039.29
Abb. 2: Korrelation der Gewichtungsvariablen „Geschlecht“ mit den
Untersuchungsvariablen NR1-NR6.
Geschlecht Modellgüte NR1 ,798 Hoch NR2 ,670 NR3 ,448 Mittel NR4 ,318 NR5 ,160 Schwach
NR6 ,039
N = 100000
In der Praxis der Umfrageforschung dürfte - darauf lassen die Ergebnisse bei
Schnell (1993) schließen - eher letzteres Szenario, d.h. durchweg schwache
Beziehungen zwischen Gewichtungs- und Untersuchungsvariable
vorherrschend sein. Durch diese Konstruktion bietet sich nun die Möglichkeit,
die Auswirkungen einer unterschiedlich starken Korrelation zwischen
Gewichtungs- und Untersuchungsmerkmal auf die Präzision der Schätzung hin
zu untersuchen.
Die Häufigkeitsverteilung der Variable Geschlecht gestaltet sich durch
die Dichotomisierung so, dass sich für die Frauen ein Anteil von 52,1 Prozent
und für die Männer ein Anteil von 47,9 Prozent in der Population ergibt. Dies
sind die „Soll“-Werte, nach denen später jede gezogene Stichprobe angepasst
wird (vgl. Abb. 3).
28 vgl. die entsprechende RECODE-Prozedur in Anhang 1. 29 Variable NR7 bleibt außen vor, da aus ihr später die weitere Gewichtungsvariable „Alter“ kreiert wird.
56
Abb. 3: Häufigkeitsverteilung von Geschlecht in der Population
47859 47,952141 52,1
100000 100,0
mwGesamt
GültigHäufigkeit Prozent
4.3 Simulation 1: Auswirkungen der Redressment-Gewichtung auf die
Schätzung von Mittelwerten
4.3.1 Ziehung der Stichproben und Implementierung des
Gewichtungsverfahrens
Für den Prozess der wiederholten Stichprobenziehungen wurde ebenfalls ein
entsprechendes SPSS-Syntax-Programm erstellt.30 Das Programm folgt
folgendem algorithmischen Prinzip:
Vorab wird in einem ersten Schritt der Populationsdatensatz in den
Prozessor geladen. Anschließend wird daraus eine einfache Zufallsstichprobe
vom Umfang n = 100 gezogen. Nun werden die erforderlichen ungewichteten
Statistiken berechnet und in einer Datei festgehalten. Dies sind jeweils der
Mittelwert und die Standardabweichung der sechs Untersuchungsvariablen.
Danach wird die Stichprobe nach dem Redressment-Prinzip gewichtet. Zur
Adaption wird dafür die Variable „Geschlecht“ herangezogen. Dazu wird aus
den Stichprobendaten jeweils der Anteilswert („Ist“-Wert) der Männer und der
Frauen berechnet und anschließend mit dem aus der Population bekannten
„Soll“-Wert (vgl. Abb. 3) ins Verhältnis gesetzt.31 Als nächstes werden die
gewichteten Statistiken aller sechs Untersuchungs-variablen berechnet und
ebenfalls abgespeichert. Die gesamte Prozedur wird nun in eine Schleife
eingebettet, sodass erneut mit dem ersten Schritt gestartet werden kann.
30 Der gesamte Programm-Code findet sich in Anhang 2 abgedruckt. Der Verfasser bedankt sich an dieser Stelle bei Lars Ninke für wertvolle Anregungen und nützliche Hilfen bei der Syntax-Programmierung. 31 Dazu muss die Variable Geschlecht Dummy-codiert vorliegen.
57
Insgesamt läuft dieser Algorithmus 10000 mal durch, d.h. es werden je 10000
gewichtete und ungewichtete Stichprobenkennwerte berechnet und in einer
Kennwerte-Datei abgespeichert.32
Technisch erfolgt die Gewichtung dergestalt, dass im Datensatz eine
Gewichtungsvariable kreiert wird, die die gruppenspezifischen Soll-durch-Ist-
Werte enthält und diese den Frauen bzw. Männern der Stichprobe zuspielt. Für
die Berechnung des gewichteten Mittelwertes bedeutet dies, dass jedes
Element yk mit seinem gruppenspezifischen Gewichtungsfaktor Ugx / Sgx
gewichtet wird. Die Berechnung entspricht damit jeweils exakt Formel (29):
Sg
UgG
g Skk
G
g Sg
UgSg
gU x
xy
nxx
ynn
yg
∑∑∑= ∈=
==11
1ˆ (29)
mit:
G Anzahl der Gewichtungsklassen (hier: G=2 Gruppen:
Männer, Frauen)
n Umfang der Stichprobe (hier: n = 100)
Ugx Anzahl der Frauen bzw. Männer in der Population
(„Soll“-Wert)
Sgx Anzahl der Frauen bzw. Männer in der Stichprobe
(„Ist“-Wert) 4.3.2 Ergebnisauswertung
4.3.2.1 Vergleich der Erwartungswerte
Die Histogramme der empirischen Stichprobenkennwerteverteilungen der je
10000 gewichteten und ungewichteten Mittelwerte sind in Abb. 4a dargestellt.
Wie nicht anders zu erwarten, sind sie normalverteilt. Dies geht rein analytisch
aus dem Zentralen Grenzwertsatz hervor. In Abbildung 4b sind für alle
32 Für die Ziehung der 10000 Stichproben inklusive Implementierung der Gewichtung und Berechnung der Kennwerte benötigt der benutzte Computer mit 1,4 Gigahertz Prozessorleistung und 256 Megabyte Arbeitsspeicher in etwa 20 Stunden Rechenzeit.
58
Untersuchungsvariablen die Mittelwerte der Stichprobenverteilungen
dargestellt. Diese ‚Mittelwerte der Mittelwerte’ sind als empirisch ermittelte
Schätzwerte der (tatsächlichen) Erwartungswerte der Schätzer zu verstehen.
Aufgrund der hohen Zahl der gezogenen Stichproben (10000) können sie als
recht gute Näherungswerte betrachtet werden. Die ebenfalls bereits analytisch
bewiesene Erwartungstreue bzw. approximative Erwartungstreue beider
Schätzer kann somit durch die Simulation gewissermaßen empirisch bestätigt
werden: Der Mittelwert aller 10000 Stichprobenmittelwerte liegt jeweils um
1800. Dies gilt sowohl für den ungewichteten, als auch für den gewichteten
Schätzer über alle sechs Untersuchungsvariablen hinweg (vgl. Abb. 4b). Ein
durchgeführter Z-Test (Gauß-Test) mit dem Testwert 1800 zeigt, dass
durchweg alle approximierten Erwartungswerte lediglich zufällig, d.h.
nichtsignifikant vom tatsächlichen Wert abweichen (vgl. Abb. 4c). Daneben
zeigt ein T-Test für gepaarte Stichproben, dass die Differenzen untereinander,
d.h. zwischen den jeweils gewichteten und ungewichteten Erwartungswerten
allesamt nichtsignifikant sind (vgl. Abb. 4d). Dies lässt darauf schließen, dass
die Gewichtung im Durchschnitt derart geringe Differenzen zwischen den
Erwartungswerten produziert, dass diese nicht aufgrund der Gewichtung,
sondern aufgrund von zufallsbedingten Einflüssen entstanden sein müssen.
Eine Gewichtung beeinflusst demnach die Erwartungstreue des Schätzers in
keiner Weise: Unabhängig der Güte des Modells bleibt der gewichtete
Schätzer gleichermaßen unverzerrt; ein Bias existiert nicht.
Abb. 4a: Histogramme der ungewichteten und gewichteten Mittelwerte aus
den 10000 gezogenen Stichproben für die Variablen NR1 bis NR6
- ungewichtet -
NR1_a Mittelwerte ungewichtet
2020,0
1980,0
1940,0
1900,0
1860,0
1820,0
1780,0
1740,0
1700,0
1660,0
1620,0
2000
1000
0
Std.abw. = 49,58 Mittel = 1800,5
N = 10000,00
- gewichtet -
NR1_b Mittelwerte gewichtet
1950,0
1930,0
1910,0
1890,0
1870,0
1850,0
1830,0
1810,0
1790,0
1770,0
1750,0
1730,0
1710,0
1690,0
1600
1400
1200
1000
800
600
400
200
0
Std.abw. = 30,12 Mittel = 1800,1
N = 10000,00
59
NR2_a Mittelwerte ungewichtet
2000,0
1960,0
1920,0
1880,0
1840,0
1800,0
1760,0
1720,0
1680,0
1640,0
1600,0
2000
1000
0
Std.abw. = 49,16 Mittel = 1800,9
N = 10000,00
NR2_b Mittelwerte gewichtet
1950,0
1930,0
1910,0
1890,0
1870,0
1850,0
1830,0
1810,0
1790,0
1770,0
1750,0
1730,0
1710,0
1690,0
1670,0
1650,0
1200
1000
800
600
400
200
0
Std.abw. = 36,79 Mittel = 1800,5
N = 10000,00
NR3_a Mittelwerte ungewichtet
1980,0
1960,0
1940,0
1920,0
1900,0
1880,0
1860,0
1840,0
1820,0
1800,0
1780,0
1760,0
1740,0
1720,0
1700,0
1680,0
1660,0
1640,0
1620,0
1600,0
2000
1000
0
Std.abw. = 50,09 Mittel = 1800,6
N = 10000,00
NR3_b Mittelwerte gewichtet
1950,0
1930,0
1910,0
1890,0
1870,0
1850,0
1830,0
1810,0
1790,0
1770,0
1750,0
1730,0
1710,0
1690,0
1670,0
1650,0
1630,0
1000
800
600
400
200
0
Std.abw. = 45,32 Mittel = 1800,3
N = 10000,00
NR4_a Mittelwerte ungewichtet
2000,0
1960,0
1920,0
1880,0
1840,0
1800,0
1760,0
1720,0
1680,0
1640,0
1600,0
2000
1000
0
Std.abw. = 49,10 Mittel = 1800,9
N = 10000,00
NR4_b Mittelwerte gewichtet
1980,0
1960,0
1940,0
1920,0
1900,0
1880,0
1860,0
1840,0
1820,0
1800,0
1780,0
1760,0
1740,0
1720,0
1700,0
1680,0
1660,0
1640,0
1620,0
2000
1000
0
Std.abw. = 46,75 Mittel = 1800,7
N = 10000,00
NR5_a Mittelwerte ungewichtet
2000,0
1980,0
1960,0
1940,0
1920,0
1900,0
1880,0
1860,0
1840,0
1820,0
1800,0
1780,0
1760,0
1740,0
1720,0
1700,0
1680,0
1660,0
1640,0
1620,0
2000
1000
0
Std.abw. = 50,56 Mittel = 1800,5
N = 10000,00
NR5_b Mittelwerte gewichtet
2000,0
1980,0
1960,0
1940,0
1920,0
1900,0
1880,0
1860,0
1840,0
1820,0
1800,0
1780,0
1760,0
1740,0
1720,0
1700,0
1680,0
1660,0
1640,0
1620,0
2000
1000
0
Std.abw. = 50,17 Mittel = 1800,4
N = 10000,00
60
NR6_a Mittelwerte ungewichtet
1980,0
1940,0
1900,0
1860,0
1820,0
1780,0
1740,0
1700,0
1660,0
1620,0
1580,0
2000
1000
0
Std.abw. = 50,05 Mittel = 1800,6
N = 10000,00
NR6_b Mittelwerte gewichtet
2000,0
1960,0
1920,0
1880,0
1840,0
1800,0
1760,0
1720,0
1680,0
1640,0
1600,0
2000
1000
0
Std.abw. = 50,26 Mittel = 1800,5
N = 10000,00
Abb. 4b: approximierte Erwartungswerte der ungewichteten und gewichteten
Stichprobenmittelwerte für die Variablen NR1 bis NR6
1795
1800
1805
ungewichtet 1800,481 1800,854 1800,555 1800,881 1800,483 1800,647
gewichtet nachGeschlecht
1800,125 1800,516 1800,276 1800,712 1800,374 1800,538
1 2 3 4 5 6
Abb. 4c: Z-Test mit dem Vorgabewert μ0 = 1800
Testwert = 1800
-ungewichtet –
- gewichtet -
T df Sig. (2-seitig) T Df Sig. (2-seitig) NR1 ,970 9999 ,332 ,415 9999 ,678 NR2 1,738 9999 ,082 1,402 9999 ,161 NR3 1,108 9999 ,268 ,608 9999 ,543 NR4 1,795 9999 ,073 1,523 9999 ,128 NR5 ,954 9999 ,340 ,746 9999 ,456 NR6 1,293 9999 ,196 1,071 9999 ,284
61
Abb. 4d: T-Test für gepaarte Stichproben Gepaarte Differenzen T df Sig.
(2-seitig)
Mittelwert der
paarweisen Differenzen
Standard-abweichung
der paarweisen Differenzen
Standard-fehler der
Mittelwert-differenzen
95% Konfidenzintervall
der mittleren Differenz
Untere Obere Paar
1 NR1a Mittelwerte
ungewichtet - NR1b Mittelwerte gewichtet
,356022 39,7759988 ,3977600 -,423667 1,135712 ,895 9999 ,371
Paar 2
NR2a Mittelwerte ungewichtet - NR2b Mittelwerte gewichtet
,338244 33,5979635 ,3359796 -,320344 ,996832 1,007 9999 ,314
Paar 3
NR3a Mittelwerte ungewichtet - NR3b Mittelwerte gewichtet
,279130 22,7599534 ,2275995 -,167011 ,725271 1,226 9999 ,220
Paar 4
NR4a Mittelwerte ungewichtet - NR4b Mittelwerte gewichtet
,169365 16,7412347 ,1674123 -,158797 ,497527 1,012 9999 ,312
Paar 5
NR5a Mittelwerte ungewichtet - NR5b Mittelwerte gewichtet
,108541 9,2961227 ,0929612 -,073682 ,290764 1,168 9999 ,243
Paar 6
NR6a Mittelwerte ungewichtet - NR6b Mittelwerte gewichtet
,108720 5,4900745 ,0549007 ,001103 ,216336 1,980 9999 ,058
4.3.2.2 Vergleich der Varianzen
In Abb. 5a sind jeweils die Streuungen der Stichprobenverteilungen anhand
der Standardabweichungen zu sehen. Dies sind gleichzeitig die Standardfehler
der Schätzfunktionen. Während die Standardfehler der ungewichteten
Variablen allesamt um den Wert 50 liegen, wird deutlich, dass die gewichtete
Schätzung bei hoher Korrelation zwischen Untersuchungs- und
Anpassungsmerkmal (NR1-NR2) eine eindeutig geringere Variation ihrer
Kennwerteverteilung liefert. Die Standardfehler des gewichteten Schätzers
sind dort um ein Vielfaches geringer. Im Durchschnitt ist also mit deutlich
präziseren Schätzungen zu rechnen. Auch bei mittelmäßiger Modellgüte (NR3-
NR4) ist der Standardfehler des gewichteten Schätzers noch geringer. Bei
schwacher bzw. keiner Korrelation zwischen Untersuchungs- und
Anpassungsmerkmal sind die Streuungen beider Verteilungen annähernd
gleich (NR5-NR6).
62
Abb. 5a: Standardabweichung der Mittelwertverteilungen (= Standardfehler)
für alle sechs Untersuchungsvariablen; jeweils für den
ungewichteten wie gewichteten Fall
0
10
20
30
40
50
60
ungewichtet 49,58086 49,15502 50,0855 49,10282 50,56124 50,05179
gewichtet nachGeschlecht
30,11661 36,79356 45,32411 46,74771 50,16565 50,25813
1 2 3 4 5 6
Der enorme Präzisionsgewinn wird auch durch die Gegenüberstellung der
Mittelwertverteilungen anhand ihrer Boxplots verdeutlicht. In Abbildung 5b
sind sie exemplarisch für drei ausgewählte Untersuchungsvariablen (NR1,
NR3 und NR6) dargestellt. Anschaulich ist der Einfluss der Modellgüte auf die
Präzision der Schätzung erkennbar. Bei hoher Modellgüte (Variable NR1)
streuen die mittleren 50 Prozent der gewichteten Mittelwerte sehr viel enger
um das Zentrum der Verteilung als die ungewichteten. Die beiden Boxplots
sind hingegen bei schwacher Modellgüte (Variable NR6) nahezu identisch.
Abb. 5b: Boxplots der Mittelwerte für die exemplarischen Variablen NR1,
NR3, NR6; jeweils ungewichtet u. gewichtet
1000010000N =
NR1
gewichtetungewichtet
2100
2000
1900
1800
1700
1600
1000010000N =
NR3
gewichtetungewichtet
2100
2000
1900
1800
1700
1600
1500
1000010000N =
NR6
gewichtetungewichtet
2100
2000
1900
1800
1700
1600
1500
63
Die Variation der Kennwerteverteilung stellt ein Gütekriterium für die
Genauigkeit der Schätzung dar: Je geringer die Streuung, desto näher liegt der
Schätzer im Durchschnitt am Erwartungswert und desto präziser ist die
Schätzung. Im Allgemeinen ist von zwei erwartungstreuen Schätzfunktionen
diejenige als wirksamer bzw. effizienter zu bezeichnen, deren Varianz kleiner
ist (Bamberg/Baur 1998: 148). Das Verhältnis beider Varianzen zueinander
kann, z.B. nach Diehl/Arbinger (1990: 45), als „relative Effizienz“ bezeichnet
werden. Mit der relativen Effizienz wird die Streuung der gewichteten
Mittelwertverteilung mit der Streuung der ungewichteten ins Verhältnis
gesetzt:
)(/)( tungewichtegewichtet XVarXVarRE = (36)
Das Inverse dieser Maßzahl berechnet sich mit: REInvers = 1/ RE. Mit dieser
Maßzahl erhalten wir nun für unsere Zwecke eine Art inkrementellen Index,
der den Präzisionszuwachs (oder gegebenenfalls die Präzisionsabnahme) der
gewichteten Schätzung gegenüber der einfachen zum Ausdruck bringt.
In Abbildung 6 sind die Werte beider Maßzahlen für alle
Untersuchungsvariablen zusammengetragen. An dem Inversen der relativen
Effizienz ist nun ablesbar, dass bei hoher Modellgüte die Varianz der
gewichteten Mittelwertverteilung um das 2,72-fache (Variable NR1) bzw.
1,78-fache (Variable NR2) geringer ist als die Varianz der ungewichteten
Mittelwertverteilung. Bei mittlerer Modellgüte sind die Varianzen immerhin
noch um das 1,22-fache bzw. 1,10-fache (für Variable NR3 bzw. NR4)
geringer. Bei schwacher Modellgüte sind die Varianzen annähernd gleich. Für
Variable NR6, bei der die Modellgüte besonders schwach ist, ist die Varianz
der gewichteten Verteilung sogar leicht größer.
Abb. 6: Relative Effizienz und Inverse relative Effizienz der Schätzer für die
Variablen NR1 – NR6
Relative Effizienz
)(/)( tungewichtegewichtet XVarXVar=
Relative Effizienz (Invers)
Modell- güte
NR1 0,3690 2,7103 hoch NR2 0,5603 1,7848 NR3 0,8189 1,2211 mittel NR4 0,9064 1,1033 NR5 0,9844 1,0158 schwach NR6 1,0088 0,9918
64
Dieses Ergebnis demonstriert abermals sehr gut, dass die gewichtete
Schätzung bei hoher und mittlerer Modellgüte zu einem teils drastischen
Präzisionsgewinn führt. Bei schwacher Modellgüte ist die Präzision ungefähr
gleich, bzw. leicht geringer.
Eine schwache Modellgüte bedeutet in erster Linie folgendes: Die
Schätzung bleibt durch die Prozedur der Gewichtung im Wesentlichen
unbeeinflusst. Denn sofern das Gewichtungsmerkmal unkorreliert ist mit dem
Untersuchungsmerkmal, wird die Anpassung nach dem einen Merkmal
unbedeutend sein für das andere Merkmal. Die Simulationsergebnisse
vermögen dies zu unterstreichen, denn im Folgenden werden die gewichteten
und ungewichteten Mittelwerte jeweils in einem Streudiagramm abgetragen
(vgl. Abbildung 7).
Abb. 7: Streudiagramme und Korrelationen (Pearsons r) zwischen den gewichteten
und ungewichteten Mittelwertverteilungen der Variablen NR1-NR6
NR1_b Mittelwerte gewichtet
20001900180017001600
NR
1_a
Mitt
elw
erte
ung
ewic
htet
2100
2000
1900
1800
1700
1600
r = 0,597
NR2_b Mittelwerte gewichtet
20001900180017001600
NR
2_a
Mitt
elw
erte
ung
ewic
htet
2100
2000
1900
1800
1700
1600
r = 0,730
NR3_b Mittelwerte gewichtet
20001900180017001600
NR
3_a
Mitt
elw
erte
ung
ewic
htet
2000
1900
1800
1700
1600
1500
r = 0,891
NR4_b Mittelwerte gewichtet
20001900180017001600
NR
4_a
Mitt
elw
erte
ung
ewic
htet
2100
2000
1900
1800
1700
1600
r = 0,940
NR5_b Mittelwerte gewichtet
20001900180017001600
NR
5_a
Mitt
elw
erte
ung
ewic
htet
2100
2000
1900
1800
1700
1600
r = 0,983
NR6_b Mittelwerte gewichtet
2100200019001800170016001500
NR
6_a
Mitt
elw
erte
ung
ewic
htet
2000
1900
1800
1700
1600
1500
r = 0,994
65
Klar ersichtlich ist hierbei, dass mit abnehmender Modellgüte die Punkte im
Streudiagramm immer näher an eine Gerade rücken. Die Korrelation zwischen
beiden Verteilungen ändert sich demgemäß von „mittelmäßig“ mit 0,597 bis
„nahezu perfekt“ mit 0,994. Je schwächer also das implizierte Modell, desto
weniger werden die Mittelwerte der Unter-suchungsvariablen durch die
Gewichtung beeinflusst. Die Gewichtung hat dann also fast keine Auswirkung
auf die mit ihr unkorrelierten Untersuchungs-variablen. Bei hoher Modellgüte
jedoch entfernen sich die Punkte im Diagramm von der Geraden, was bedeutet,
dass die Gewichtung zu größeren Veränderungen in den
Untersuchungsvariablen führt.
4.3.2.3 Vergleich der Differenzen zum wahren Wert
Der große Vorteil der simulierten Stichprobenziehung liegt darin, dass die
„wahren“ Werte, d.h. die tatsächlichen Populationsparameter, bekannt sind.
Jetzt stellt sich die Frage, in wie viel Prozent der gezogenen Stichproben die
gewichtete Schätzung Werte produziert hat, die im Vergleich zur
Nichtgewichtung näher am wahren Wert liegen. Dazu wird für jeden der
10000 berechneten Stichprobenmittelwerte der Abstand zum tatsächlichen
Wert (= 1800) erfasst. Anschließend wird in einer neuen, binärcodierten
Variablen abgetragen, ob sich die gewichtete oder die ungewichtete Schätzung
näher am wahren Wert befindet. Die Ergebnisse sind in Abbildung 8
dargestellt. Auch hier wird deutlich, dass eine hohe Modellgüte für die
Wirksamkeit der Gewichtung entscheidend ist. Die Differenz des gewichteten
Schätzers zum wahren Wert fällt im Vergleich zum ungewichteten bei den
Variablen NR1 und NR2 in 68 bzw. 63 Prozent der gezogenen Stichproben
kleiner aus. Bei mittlerer Modellgüte (NR3 u. NR4) ist dies in 57 bzw. 55
Prozent der gezogenen Stichproben der Fall und bei schlechter Modellgüte
(NR5 u. NR6) halten sich beide Schätzer die Waage: In jeweils ca. 50 Prozent
der gezogenen Stichproben kommt es zur verbesserten Schätzung durch
Gewichtung.
66
Abb. 8: Führt die Gewichtung zur verbesserten Schätzung?
Prozentsatz der gezogenen Stichproben, bei
denen der gewichtete Schätzer näher am wahren
Wert liegt
NR1 68,7% NR2 63,7% NR3 57,6% NR4 55,6% NR5 51,6% NR6 49,2%
graphisch dargestellt (absolute Häufigkeiten)
Anzahl der Schätzungen mit geringerer Differenz
zum wahren Wert
NR6 gewichtete Schät
NR6 ungewichtete Sch
NR5 gewichtete Schät
NR5 ungewichtete Sch
NR4 gewichtete Schät
NR4 ungewichtete Sch
NR3 gewichtete Schät
NR3 ungewichtete Sch
NR2 gewichtete Schät
NR2 ungewichtete Sch
NR1 gewichtete Schät
NR1 ungewichtete Sch
Sum
me
8000
7000
6000
5000
4000
3000
2000
4.3.2.4 Vergleich der Konfidenzintervalle
Aufgrund der Kenntnis der wahren Werte kann darüber hinaus geprüft werden,
wie sich die Konfidenzintervalle der Mittelwerte pro Stichprobe verhalten. Es
erhebt sich die nicht uninteressante Frage, in wie viel Prozent der gezogenen
Stichproben die Konfidenzintervalle den wahren Parameter überdecken oder
nicht. Dazu wird aus jeder gezogenen Stichprobe nicht nur der
Stichprobenmittelwert, sondern auch die Stichprobenstandardabweichung
berechnet. Diese jeweils durch die Quadratwurzel des Stichprobenumfangs
dividiert, ergibt den (aus der Stichprobe geschätzten) Standardfehler des
Mittelwertes. Das 1,96-fache des Standardfehlers ist wiederum der
Stichprobenfehler für ein 5%-Fehlerniveau. Subtrahieren bzw. addieren wir
diesen Wert zum Stichprobenmittelwert, so erhalten wird die untere bzw. die
obere Grenze des 95%-Konfidenzintervalls. Diese Grenzen werden nun in der
Kennwerte-Datei für jede einzelne gezogene Stichprobe festgehalten. Damit
können die je 10000 berechneten Konfidenzintervalle der gewichteten und der
ungewichteten Mittelwerte anhand ihrer Überdeckungshäufigkeiten
miteinander verglichen werden. In Abbildung 9a und 9b sind die Ergebnisse
festgehalten.
67
Abb. 9a: Überdeckungshäufigkeiten der 95%-Konfidenzintervalle
Ungewichtet
Gewichtet Diskrepanz der Überdeckungs-
häufigkeiten (gewichtet-
ungewichtet)
nicht-überdeckend
(in %)
überdeckend
(in %)
nicht-überdeckend
(in %)
überdeckend
(in %) NR1 5,3 94,7 NR1 0,1 99,9 5,2 NR2 4,8 95,2 NR2 0,9 99,2 4,0 NR3 5,2 94,8 NR3 3,2 96,8 2,0 NR4 5,1 94,9 NR4 3,9 96,1 1,2 NR5 5,6 94,5 NR5 5,4 94,7 0,2 NR6 5,0 95,0 NR6 5,2 94,9 -0,1
Abb. 9b: Überdeckungshäufigkeiten der 95%-Konfidenzintervalle
- graphisch dargestellt (Werte gerundet)
Überdeckungshäufigkeiten der 95%-Intervalle
(in Prozent)
NR6 gewichtet
NR6 ungewichtet
NR5 gewichtet
NR5 ungewichtet
NR4 gewichtet
NR4 ungewichtet
NR3 gewichtet
NR3 ungewichtet
NR2 gewichtet
NR2 ungewichtet
NR1 gewichtet
NR1 ungewichtet
100
99
98
97
96
95
94
93
95959594
96
95
97
95
99
95
100
95
Es zeigt sich, dass die Gewichtung auch hierbei deutliche Vorteile bietet.
Während die berechneten Intervalle der ungewichteten Mittelwerte allesamt
(NR1 bis NR6) in etwa der normativen Vorgabe von 95 Prozent
Überdeckungswahrscheinlichkeit gerecht werden, ist erkennbar, dass die
Intervalle der gewichteten Mittelwerte bei hoher Modellgüte diese Vorgabe
großzügig überschreiten: Bei Variable NR1 überdecken 99,9 Prozent der
Intervalle den wahren Wert; bei Variable NR2 sind es 99,2 Prozent, bei
Variable NR3 96,8 und bei Variable NR4 immerhin noch 96,1 Prozent der
Intervalle. Erst bei schwacher Modellgüte (NR5 und NR6) gleichen sich die
Häufigkeiten einander an, wobei die gewichtete Variable NR6 0,1 Prozent
weniger Intervalle aufweist, die den wahren Wert überdecken, als die
ungewichtete Variable NR6.
68
4.3.3 Zwischenfazit 1
Anhand der durchgeführten Simulationsstudie lassen sich zwei wichtige
Erkenntnisse für die Gewichtung nach dem Soll-durch-Ist-Prinzip festhalten.
Erstens führt die Gewichtung bei hohem Modell-Fit zu einer enormen
Präzisionssteigerung. Dies äußert sich unmittelbar in einer geringeren Streuung
der Stichprobenkennwerteverteilung des gewichteten Schätzers. Bei Vorliegen
nur einer einzigen, konkreten Stichprobe bedeutet dies im Schnitt eine
geringere Differenz zum wahren Wert, eine kleinere Stichprobenvarianz und
einen kleineren Standardfehler. Dies wiederum bewirkt engere Grenzen eines
Vertrauensintervalls und damit im Gesamten eine verbesserte, präzisere
Schätzung. Die Konfidenzintervalle der gezogenen Stichproben sind darüber
hinaus nicht nur kleiner, sie überdecken auch häufiger als vorgegeben den
wahren Wert. Im Falle der hohen Modellgüte sind dies immerhin nahezu 100
Prozent der berechneten Intervalle.
Das einzige Manko ist lediglich darin zu sehen, dass bei schlechter
Modellgüte mit einer leichten Varianzvergrößerung zu rechnen ist, worunter
dann die Präzision minimal zu leiden hat. Wie jedoch gezeigt werden konnte,
ist dies nur bei einer äußerst geringen Korrelation bzw. Nullkorrelation
zwischen Gewichtungs- und Untersuchungsmerkmal (Variable NR6) der Fall.
Zweitens konnte durch die Monte-Carlo-Simulation die Tatsache
bestätigt werden, dass der gewichtete Schätzer unabhängig der Modellgüte
ebenso erwartungstreu ist wie der ungewichtete. Ist also der Modell-Fit
schlecht in dem Sinne, dass die Gewichtungsvariable gänzlich unkorreliert ist
mit der Untersuchungsvariablen, dann führt dies in keiner Weise zu einer
verzerrten Schätzung. In der Konsequenz bedeutet dies für die Praxis, dass die
Gewichtung nach dem Redressment-Prinzip zunächst bedingungslos
empfohlen werden kann, sofern alle anderen systematischen Fehlerquellen
ausgeschlossen werden können.
69
4.4 Simulation 2: Implementierung einer zweiten Gewichtungs-
variablen
Um die Simulationsstudie im Gesamten näher an die in der Praxis
vorherrschenden Prozesse heranzubringen, soll nun das Monte-Carlo-
Experiment unter Hinzufügung einer weiteren Gewichtungsvariablen
wiederholt werden. Dies soll die Variable „Alter“ sein. Konstruiert wird sie im
Populationsdatensatz aus der übriggebliebenen Variablen NR7. Diese Variable
ist zunächst normalverteilt und korreliert nur gering mit allen anderen
Untersuchungsvariablen (vgl. die Korrelationsmatrix aus Abb. 1). Nun wird
aus den Werten dieser Variablen eine neue, trichotome Variable gebildet.
Diese soll die Variable „Alter“ mit den drei Klassen „jung“, „mittel“, und „alt“
darstellen. Die Klassengrenzen werden mehr oder weniger willkürlich so
gewählt, dass 26 Prozent der 100000 Fälle in der Population in die Kategorie
„jung“, 49 Prozent in die Kategorie „mittel“ und 24 Prozent in die Klasse „alt“
fallen. Die Anpassungskategorien der Soll-durch-Ist-Gewichtung ergeben sich
dann aus den Zellen der Kreuztabelle der Merkmalskombination beider
Anpassungsvariablen „Geschlecht“ und „Alter“ zusammen. Diese „Soll“-Tafel
ist in Abbildung 10 abgedruckt:
Abb. 10: „Soll“ - Tafel der Merkmalskombination Alter / Geschlecht
Anzahl
11122 23779 12958 4785915177 25697 11267 5214126299 49476 24225 100000
mw
Geschlecht
Gesamt
jung mittel altAlter in drei Klassen
Gesamt
Jede dieser Anpassungszellen bildet nun den Soll-Wert, nach dem die
Stichproben angepasst werden. Die Berechnung des gewichteten Mittelwertes
entspricht dann wiederum in exakter Weise Formel (29), jedoch diesmal mit
G=6 Anpassungsgruppen.
Die Korrelation der Variablen „Alter“ mit allen
Untersuchungsvariablen ist nun, dadurch dass „Alter“ unmittelbar aus NR7
konstruiert wurde, durchweg gering (vgl. Abbildung 11). Auch die Korrelation
beider Gewichtungsvariablen untereinander ist mit 0,08 äußerst gering. Dies
70
entspricht nahezu dem Praxisfall, bei dem „Alter“ im Regelfall weder hoch mit
„Geschlecht“ oder anderen Gewichtungsvariablen, noch im Schnitt sehr stark
mit typischen Untersuchungsvariablen korreliert ist (vgl. Schnell 1993).
Nun werden analog zum ersten Durchgang erneut 10000 Stichproben
gezogen und jedes Mal die ungewichteten und gewichteten Mittelwerte der
sechs Untersuchungsvariablen berechnet. Der dafür erforderliche SPSS
Programmcode für diese Prozedur findet sich in Anhang 3 abgedruckt.
Abb. 11: Korrelation der Gewichtungsvariablen Alter/Geschlecht mit den
Untersuchungsvariablen NR1-NR6
Alter
Geschlecht
Modellgüte
(gilt für Geschlecht)
NR1 ,099 ,798 Hoch NR2 ,136 ,670
NR3 ,073 ,448 Mittel NR4 ,136 ,318
NR5 ,162 ,160 schwach NR6 ,179 ,039
N = 100000
4.4.1 Ergebnisauswertung
4.4.1.1 Vergleich der Erwartungswerte
Zu den Ergebnissen lässt sich vorwegnehmend sagen, dass sie in ihrer
Richtung große Ähnlichkeit zum ersten Durchlauf mit nur einer
Gewichtungsvariablen aufweisen: Auch hier zeichnen sich die
normalverteilten Stichprobenkennwerteverteilungen zunächst dadurch aus,
dass ihr Mittelwert den tatsächlichen Wert annähernd trifft (vgl. Abb. 12a).
Die hier ersichtlichen Differenzen der Erwartungswerte zum tatsächlichen
Mittelwert (1800) sind zudem (über alle Variablen hinweg) nicht signifikant
(vgl. Z-Test in Abb. 12b). Die ungewichteten als auch die gewichteten
71
Schätzer sind demnach erwartungstreu. Diese Eigenschaft wurde bereits
analytisch bestätigt und konnte empirisch in der ersten Simulation und nun
auch unter Beifügung einer weiteren Gewichtungsvariablen in der zweiten
Simulation demonstriert werden. Wichtig dabei ist die Erkenntnis, dass die
Erwartungstreue auch dann noch gegeben ist, wenn insgesamt eine schlechte
Modellgüte vorliegt. Diese Erkenntnis unterstreicht der durchgeführte T-Test
für gepaarte Stichproben (vgl. Abb. 12c). Dort sind die Differenzen zwischen
den jeweils gewichteten und ungewichteten Erwartungswerten allesamt (auf
hohem Niveau) als nicht signifikant ausgezeichnet. Das lässt darauf schließen,
dass die gefundenen Differenzen zwischen den Erwartungswerten so gering
sind, dass sie nicht aufgrund der Gewichtung, sondern aufgrund von
zufallsbedingten Einflüssen entstanden sein müssen. Es kann demnach
unabhängig der Modellgüte des Gewichtungsverfahrens mit erwartungstreuen
Schätzern gerechnet werden. Auch die Gewichtung mit zwei
Anpassungsmerkmalen beeinflusst die Unverzerrtheit des Schätzers nicht.
Abb. 12a: approximierte Erwartungswerte der ungewichteten und gewichteten
Stichprobenmittelwerte für die Variablen NR1 bis NR6
1795
1800
1805
ungewichtet 1799,595 1799,813 1799,838 1799,866 1799,568 1799,481
gewichtet nach Alter &Geschlecht
1799,693 1799,901 1799,908 1799,887 1799,4 1799,467
1 2 3 4 5 6
Abb. 12b: Z-Test mit dem Vorgabewert μ0 = 1800
Testwert = 1800
-ungewichtet - - gewichtet -
T Df Sig. (2-seitig)
T df Sig. (2-seitig)
NR1 -,807 9999 ,420 -,987 9999 ,324 NR2 -,374 9999 ,708 -,259 9999 ,795 NR3 -,323 9999 ,747 -,200 9999 ,841 NR4 -,269 9999 ,788 -,234 9999 ,815 NR5 -,871 9999 ,384 -1,204 9999 ,229 NR6 -1,047 9999 ,295 -1,062 9999 ,288
72
Abb. 12c: T-Test bei gepaarten Stichproben
Gepaarte Differenzen T df Sig. (2-seitig)
Mittelwert der
paarweisen Differenzen
Standard-abweichung
der paarweisen Differenzen
Standard-fehler der
Mittelwert-differenzen
95% Konfidenzintervall
der mittleren Differenz
Untere Obere Paar
1 NR1a Mittelwerte
ungewichtet – NR1b Mittelwerte gewichtet
-,0976 40,33286 ,40333 -,8882 ,6930 -,242 9999 ,809
Paar 2
NR2a Mittelwerte ungewichtet – NR2b
Mittelwerte gewichtet
-,0886 34,61636 ,34616 -,7672 ,5899 -,256 9999 ,798
Paar 3
NR3a Mittelwerte ungewichtet – NR3b
Mittelwerte gewichtet
-,0693 24,68873 ,24689 -,5533 ,4146 -,281 9999 ,779
Paar 4
NR4a Mittelwerte ungewichtet – NR4b
Mittelwerte gewichtet
-,0210 20,19064 ,20191 -,4168 ,3748 -,104 9999 ,917
Paar 5
NR5a Mittelwerte ungewichtet – NR5b
Mittelwerte gewichtet
,1674 16,17841 ,16178 -,1498 ,4845 1,034 9999 ,301
Paar 6
NR6a Mittelwerte ungewichtet – NR6b
Mittelwerte gewichtet
,0145 14,91266 ,14913 -,2779 ,3068 ,097 9999 ,923
4.4.1.2 Vergleich der Varianzen
Die Streuungen der Stichprobenkennwerteverteilungen, in Abb. 13 anhand der
Standardabweichungen der Mittelwertverteilungen (=Standardfehler)
dargestellt, zeigen ebenfalls große Ähnlichkeiten zum ersten Durchlauf: Mit
steigender Modellgüte steigt auch der Präzisionsgewinn.
Abb. 13: Streuung (Standardabweichung) der Mittelwertverteilungen für alle
sechs Untersuchungsvariablen; jeweils für den ungewichteten wie
gewichteten Fall
0
20
40
60
ungew ichtet 50,14004 50,04318 50,07244 49,89137 49,6315 49,53303
gew ichtet nach Alter &Geschlecht
31,12758 38,02815 46,05645 48,34836 49,83771 50,19305
1 2 3 4 5 6
73
Vergleichen wir die Effizienz beider Gewichtungsverfahren, so zeigt sich, dass
sie in Abhängigkeit der Modellgüte für beide Verfahren gleichförmig verläuft,
dabei insgesamt bei der Gewichtung nach zwei Merkmalen etwas geringer
ausfällt (vgl. Abb. 14).
Abb. 14: Relative Effizienz (Invers) der Schätzer für die Variablen NR1 –
NR6; jeweils für beide Gewichtungsverfahren
Gewichtet nach Geschlecht Gewichtet nach Alter & Geschlecht
Relative Effizienz
(Invers)
Relative Effizienz
(Invers)
NR1 2,7103 2,5946 NR2 1,7848 1,7317 NR3 1,2211 1,1820 NR4 1,1033 1,0648 NR5 1,0158 0,9917 NR6 0,9918 0,9739
- graphisch dargestellt -
Relative Effizienz (Invers)
NR6NR5NR4NR3NR2NR1
3,0
2,0
1,0
0,0
3,0
2,5
2,0
1,5
1,0
,5
0,0
Gewichtet nach
Geschlecht & Alter
Geschlecht
74
4.4.2 Zwischenfazit 2
Es bleibt festzuhalten, dass die Ergänzung um eine weitere
Gewichtungsvariable das ursprüngliche Bild nicht wesentlich verändert. Die
Präzisionskraft der Prozedur hängt auch weiterhin von der möglichst hohen
Korrelation (mindestens) einer Gewichtungsvariablen ab. Die Hinzufügung
einer mit den Untersuchungsvariablen insgesamt schwach in Verbindung
stehenden Gewichtungsvariablen bewirkt im Ganzen lediglich eine leichte
Mäßigung des Präzisionsgewinns. Für den Fall, dass beide Adaptionsvariablen
nur schwach mit den Untersuchungsvariablen korrelieren, kommt es zu einer
leichten Varianzvergrößerung. Unabhängig davon bleibt jedoch noch einmal
zu betonen, dass die (approximative) Erwartungstreue des gewichteten
Schätzers in jedem Fall garantiert bleibt.
4.5 Simulation 3: Auswirkungen der Redressment-Gewichtung auf die
Schätzung von Korrelationskoeffizienten
Speziell in der Sozialforschung ist der Forscher bekanntlich weniger an der
Schätzung von konkreten Mittel- oder Anteilswerten interessiert, als vielmehr
an der konfirmatorischen Überprüfung theoretisch vermuteter
Beziehungsstrukturen zwischen Variablen. Dies geschieht durch geeignete
statistische Modellierung. Ein breites Angebot der statistischen Modellanalyse
steht dem Anwender dafür zur Verfügung. Dieses reicht von der Konstruktion
einfacher Regressionsmodelle bis hin zur Betrachtung theoretischer Gebäude
mittels Kovarianzstrukturanalysen.
Kovarianzen bzw. Korrelationskoeffizienten stellen dabei immer
Kernpunkte jeglicher Analyse von Beziehungsstrukturen dar. Es drängt sich
nun die Frage auf, inwiefern eine Gewichtung sich auf die Schätzung von
Korrelationskoeffizienten auswirkt. Mit welchen Effekten ist für ein
aufgestelltes Regressionsmodell zu rechnen, wenn die Stichprobe gewichtet
wird?
Die meisten „Modellbauer“ unter den Sozialforschern argumentieren,
dass eine Gewichtung von Merkmalswerten für die Konstruktion eines
Regressionsmodells irrelevant ist. Dies soll durch folgendes Beispiel
75
verdeutlicht werden (vgl. Groves et. al. 2004: 389). Angenommen, y folgt der
Theorie nach aus x. Eine einfache Modellgleichung der Gestalt
iii exy ++= 10 ββ wird benutzt, um diese Theorie an der Empirie zu testen.
Nun sind beispielsweise die Stichprobendaten dahingehend verzerrt, dass
ältere Personen über- und jüngere Personen unterrepräsentiert sind. Sie
müssten eigentlich, zwecks Nivellierung dieser Verzerrung, entsprechend nach
„Alter“ gewichtet werden. Der an der Überprüfung seiner Theorie orientierte
„Modellbauer“ würde dem jedoch entgegenhalten, dass das Modell falsch
spezifiziert ist, wenn „Alter“ die Regression zwischen x und y beeinflusst. Eine
Gewichtung würde sich erübrigen, sofern der Einfluss des Merkmals „Alter“
auf die Variablen x und y im Modell explizite Berücksichtigung findet.
Dennoch, sofern ein solcher Einfluss im Modell nicht berücksichtigt
wird, bleibt die Frage offen: Wie wirkt sich unsere Redressment-Gewichtung
auf die Schätzung eines Korrelationsmodells aus? Sind
Korrelationskoeffizienten generell robust oder anfällig gegenüber gewichteten
Daten? Inwieweit spielt die Korrelation zwischen den Gewichtungsvariablen
und den im Korrelationsmodell verwendeten Untersuchungsvariablen auf die
Schätzung der Modellkoeffizienten eine Rolle?
Die nachfolgende Simulation soll nun den konkreten Einfluss einer
Redressment-Gewichtung unter zwei Aspekten näher untersuchen. Dazu
werden zwei bivariate Test-Modelle erstellt: Modell 1 ist die Korrelation
zwischen den Untersuchungsvariablen NR1 und NR3. Auf Populationsebene
beträgt sie 0,56. Modell 2 ist der Zusammenhang zwischen Variable NR5 und
NR6, deren Produkt-Moment-Korrelationswert in der Population bei 0,35 liegt.
Dies sind die Parameter, die es im Folgenden zu schätzen gilt.
Die Simulationstechnik ist dabei identisch mit der vorangegangenen
Simulation, d.h. die konstruierte Population, die Monte-Carlo-Methode der
Stichprobenziehung und die Gewichtung der Daten ändern sich nicht. Die zu
schätzenden Kennwerte sind mit Respekt zur Vorgabe nun nicht Mittelwerte,
sondern die zwei Korrelationskoeffizienten beider Modelle. Die
Modellvariablen NR1 und NR3 (Modell 1) bzw. NR5 und NR6 (Modell 2)
werden für die Analyse deswegen ausgewählt, weil sie zum einen jeweils
beide sehr hoch (Modell 1) und zum anderen beide sehr niedrig (Modell 2) mit
der Gewichtungsvariablen „Geschlecht“ korrelieren (vgl. Abb. 2)
76
Analog zur ersten Simulation werden erneut jeweils 10000 Stichproben
der Größe 100 aus der Population gezogen. Jedes Mal wird für beide Modelle
der Korrelationswert für die ungewichtete und gewichtete Stichprobe
berechnet und in einer Kennwerte-Datei abgespeichert. Die Gewichtung
erfolgt in zweifacher Weise: Zuerst wird der Datensatz nach ‚Geschlecht’
gewichtet, anschließend simultan nach der Kombination ‚Geschlecht’ und
‚Alter’. Die sich nun ergebenden, normalverteilten Stichproben-
kennwerteverteilungen der Korrelationskoeffizienten werden nun miteinander
verglichen.
4.5.1 Ergebnisauswertung
4.5.1.1 Vergleich der Erwartungswerte
Es zeigt sich zunächst in Abbildung 16a und 16b, dass die ‚wahren’
Korrelationskoeffizienten (Modell 1 = 0,56 und Modell 2 = 0,35) durch die
Mittelwerte der Stichprobenverteilungen gleichermaßen „gut“, jedoch nicht
„exakt“ reproduziert werden. Insgesamt sind die Stichprobenverteilungen
leicht linksschief, was womöglich damit zusammenhängt, dass die Verteilung
bei Korrelationskoeffizienten generell langsamer gegen die Normalverteilung
konvergiert und diese dann auch nur approximativ erreicht.
Abb. 16a: Histogramme ungewichteten und gewichteten Korrelations-
koeffizienten beider Modelle; jeweils für beide Modelle &
gewichtet nach beiden Verfahren
Modell 1 - ungewichtet
,750,700
,650,600
,550,500
,450,400
,350,300
,250
1600
1400
1200
1000
800
600
400
200
0
Std.abw. = ,07 Mittel = ,557
N = 10000,00
Modell 1 - gew. n. G
,750,700
,650,600
,550,500
,450,400
,350,300
,250
1600
1400
1200
1000
800
600
400
200
0
Std.abw. = ,07 Mittel = ,559
N = 10000,00
Modell 1 - gew. n. A & G
,775,725
,675,625
,575,525
,475,425
,375,325
,275,225
1600
1400
1200
1000
800
600
400
200
0
Std.abw. = ,07 Mittel = ,559
N = 10000,00
77
Modell 2 - ungewichtet
,625,575
,525,475
,425,375
,325,275
,225,175
,125,075
,025-,025
1200
1000
800
600
400
200
0
Std.abw. = ,09 Mittel = ,348
N = 10000,00
Modell 2 - gew. n. G
,650,600
,550,500
,450,400
,350,300
,250,200
,150,100
,050,000
-,050
1200
1000
800
600
400
200
0
Std.abw. = ,09 Mittel = ,348
N = 10000,00
Modell 2 - gew. n. A & G
,625,575
,525,475
,425,375
,325,275
,225,175
,125,075
,025-,025
1200
1000
800
600
400
200
0
Std.abw. = ,09 Mittel = ,348
N = 10000,00
Abb. 16b: (appr.) Erwartungswerte für beide Modelle
Ungewichtet Gewichtet nach
Geschlecht Gewichtet nach
Alter & Geschlecht
Anzahl der Stichproben
(appr.) Erwartungs-
wert
Standard- fehler
(appr.) Erwartungs-
wert
Standard- fehler
(appr.) Erwartungs-
wert
Standard- fehler
Modell 1 10000 0,5574 0,06898 0,5588 0,06901 0,5587 0,07066
Modell 2 10000 0,3482 0,08859 0,3481 0,08902 0,3484 0,09102
Konkret lässt sich insbesondere für Modell 1 feststellen, dass beide
Gewichtungsverfahren eine leicht bessere Annäherung an den wahren Wert
liefern als die ungewichteten Stichproben. Die Erwartungstreue scheint jedoch
für die ungewichteten Schätzer, als auch teilweise für die gewichteten nicht
vollständig erreicht worden zu sein. Zumindest zeigen die Ergebnisse des Z-
Tests mit dem Vorgabewert 0,56 bzw. 0,35, dass die hier geschätzten
Erwartungswerte sich zum Teil signifikant vom tatsächlichen Wert
unterscheiden (vgl. Abb. 16c). Dies gilt in beiden Modellen für den
ungewichteten Fall, nicht jedoch durchgängig für den gewichteten. Unter
Modell 1 sind die Differenzen auf dem 5%-Niveau für beide Gewichtungsarten
nicht mehr signifikant (Sig.: 0,09 und 0,06), unter Modell 2 nur für die
Gewichtung nach Alter & Geschlecht (Sig.: 0,072). Dies deutet darauf hin,
dass die gewichteten, und insbesondere die nach beiden Merkmalen
gewichteten Schätzungen weniger verzerrt sind. Insgesamt müssen die
Ergebnisse des Z-Tests doch mit Vorsicht betrachtet werden. Bei einer solch
hohen Stichprobengröße von 10000 können bereits sehr kleine Differenzen zu
signifikanten Differenzen werden. Deswegen kann hier mit diesem Ergebnis
78
keineswegs bestätigt werden, dass die ungewichtete Schätzfunktion des
Korrelationskoeffizienten eine verzerrte sei. Es lässt sich hier jedoch soviel
festhalten: Unter Modell 1 erhalten wir durch die Gewichtung
Erwartungswerte, die näher am tatsächlichen Wert liegen. Die Differenzen
zwischen den ungewichteten und gewichteten Erwartungswerten sind dabei
sogar so groß, dass sie signifikant sind. Dieses Ergebnis zeigt der T-Test für
gepaarte Stichproben, auch wenn hier wieder die Ergebnisse aus bekannten
Gründen mit Vorsicht zu lesen sind (vgl. Abb. 16d).
Abb. 16c: Z-Tests für beide Modelle
-3,723 9999 ,000-1,695 9999 ,090-1,884 9999 ,060
Modell 1 - ungewichtetModell 1 - gew. n. GeschlechtModell 1 - gew. n. Alter & Geschl.
T df Sig. (2-seitig)
Testwert = 0.56
-2,026 9999 ,043-2,133 9999 ,033-1,800 9999 ,072
Modell 2 - ungewichtetModell 2 - gew. n. GeschlechtModell 2 - gew. n. Alter & Geschlecht
T df Sig. (2-seitig)
Testwert = 0.35
Abb. 16d: T-Test für gepaarte Stichproben Gepaarte Differenzen T Df Sig. (2-
seitig) Mittelwert
der paarweisen Differenzen
Standard-abweichu
ng der paarweise
n Differenz
en
Standard-fehler der
Mittel-wert-
differenzen
95% Konfidenz-intervall der
mittleren Differenz
Untere Obere Paar
1 Modell 1: „ungewichtet“
– „gewichtet n. Geschlecht“
-,0014 ,00518 ,00005 -,0015 -,0013 -26,99 9999 ,000
Paar 2
Modell 1: „ungewichtet“ – „gewichtet n. Alter &
Geschlecht“
-,0012 ,01591 ,00016 -,0015 -,0009 -7,775 9999 ,000
Paar 3
Modell 2: „ungewichtet“ – „gewichtet n.
Geschlecht“
,0001 ,00867 ,00009 -,0001 ,0003 1,201 9999 ,230
Paar 4
Modell 2: „ungewichtet“ – „gewichtet n. Alter &
Geschlecht“
-,0002 ,02122 ,00021 -,0006 ,0003 -,735 9999 ,463
79
4.5.1.2 Vergleich der Varianzen
Vergleicht man nun die Streuungen der jeweils gewichteten und ungewichteten
Verteilungen miteinander, so fällt auf, dass die gewichteten Verteilungen
allesamt leicht höhere Varianzen aufweisen. Dies ist erkennbar an den
Standardfehlern aus Abb. 16b, sowie an der in Abb. 17 dargestellten relativen
Effizienz. Dabei streut die Stichprobenverteilung der nach dem Merkmal
Geschlecht gewichteten Kennwerte zwar höher als die Verteilung der
ungewichteten Kennwerte, aber die Differenz ist sehr klein. Die Werte der
relativen und der Inversen relativen Effizienz liegen alle äußerst nahe bei Eins
(vgl. die ersten zwei Spalten in Abb. 17). Dagegen weisen die Verteilungen der
nach Alter und Geschlecht gewichteten Stichproben höhere Varianzen auf. So
liegt die Varianz bei Modell 1 um das 1,04-fache und bei Modell 2 um das
1,05-fache höher als bei einfacher Hochrechnung (vgl. die letzten Spalten in
Abb. 17). Insgesamt kann also insbesondere bei der Gewichtung mit zwei
Merkmalen mit einem leichten Präzisionsverlust gerechnet werden.
Abb. 17: relative Effizienz und Inverse relative Effizienz der Schätzer für
beide Modelle & Gewichtungsarten
Gewichtet nach Geschlecht Gewichtet nach Alter & Geschlecht Relative Effizienz
)(/)( tungewichtegewichtet XVarXVar= Relative Effizienz
(Invers) Relative Effizienz
)(/)( tungewichtegewichtet XVarXVar= Relative Effizienz
(Invers) Modell 1 1,0010 0,9990 1,0494 0,9530 Modell 2 1,0098 0,9903 1,0557 0,9473
Bei aller Kennzeichnung der Ungleichheiten zwischen Gewichtung und
Nichtgewichtung sollten die Gemeinsamkeiten nicht vergessen werden. Denn
die Streuungsunterschiede der Verteilungen sind nur äußerst gering, wie dies
die Betrachtung der Boxplots in Abb. 18 deutlich zu unterstreichen vermag.
Abb. 18: Boxplots der Stichprobenverteilungen beider Modelle
100001000010000N =
Modell 1
gew. n. A & G
gew. n. G
ungewichtet
,9
,8
,7
,6
,5
,4
,3
,2
,1
100001000010000N =
Modell 2
gew. n. A&G
gew. n. G
ungewichtet
,8
,6
,4
,2
0,0
-,2
80
4.5.1.3 Vergleich der Differenzen zum wahren Wert
Wir berechnen nun die exakte Differenz aller geschätzten
Korrelationskoeffizienten zum tatsächlichen Populationswert und vergleichen
jeweils die Abstände der gewichteten und ungewichteten Koeffizienten. Nun
ist erkennbar, in wie viel Prozent der gezogenen Stichproben der gewichtete
oder der ungewichtete Datensatz Schätzungen hervorgebracht hat, die näher
am wahren Wert liegen. Abbildung 19 zeigt, dass die Gewichtung nach dem
Merkmal Geschlecht im Vergleich zur Nichtgewichtung in 59,9 Prozent
(Modell 1) bzw. in 55,8 Prozent (Modell 2) der gezogenen Stichproben
Schätzungen mit geringerer Differenz zum wahren Wert ergeben. Gewichtet
man die Stichproben jedoch nach der Merkmalskombination Alter und
Geschlecht, so findet sich nur noch in 48,2 bzw. 47,1 Prozent (Modell 1 bzw.
2) der Fälle eine Verbesserung der Schätzung gegenüber der Nichtgewichtung.
Die geringe Varianzvergrößerung bei der simultanen Gewichtung nach zwei
Merkmalen äußert sich also in einer geringeren Häufigkeit von präziseren
Stichprobenziehungen.
Abb. 19: Prozentsatz der gezogenen Stichproben, bei denen der gewichtete
Schätzer näher am wahren Wert liegt
4.5.2 Zwischenfazit 3
Es zeigt sich, dass unter Modell 1 (hohe Modellgüte) die Gewichtung nach
Geschlecht als auch die Gewichtung nach Alter und Geschlecht weniger
„verzerrte“ Erwartungswerte hervorgebracht hat. Unter Modell 2 (schlechte
Gewichtet nach Geschlecht
Gewichtet nach Alter & Geschlecht
Mod2 Gew.(A&G)besser
Mod2 Gew.(G) besser
Mod1 Gew.(A&G)besser
Mod1 Gew.(G) besser
Abso
lute
Häu
figke
iten
6200
6000
5800
5600
5400
5200
5000
4800
4600
4400
4714
5578
4824
5991
Modell 1 59,9 % 48,2 % Modell 2 55,8 % 47,1 %
81
Modellgüte) erweist sich sogar der geschätzte Erwartungswert für die
Gewichtung nach beiden Merkmalen als derjenige Wert, welcher die beste
Annäherung an den wahren Wert aufwies. Dennoch, betrachtet man die
Varianzen, dann scheint insbesondere die Beifügung eines zweiten
Gewichtungsmerkmals einen leicht negativen Einfluss auf die Präzision im
Sinne einer Varianzvergrößerung zu haben.
Dessen ungeachtet zeigt dieses Ergebnis im Gesamten, dass der
Einfluss einer Redressment-Gewichtung auf die Präzision der Schätzung bei
Korrelationskoeffizienten weniger stark ist als bei Mittelwerten. Die
gewichtete Schätzung von Korrelationskoeffizienten offenbart sich damit
insgesamt als etwas „robuster“ gegenüber dem Einfluss einer Gewichtung.
4.6 Simulation 4: Auswirkungen der Redressment-Gewichtung auf die
Schätzung von Mittelwerten unter Berücksichtigung
systematischer Nonresponse-Effekte
Die im vorherigen Abschnitt zugrundegelegten Simulationsmodelle
berücksichtigten den Einfluss systematischer Ausfälle auf die
Parameterschätzungen nicht. Alle berechneten Schätzer – gewichtet wie
ungewichtet – waren demnach unverzerrt. In einem weiteren Experiment
sollen nun explizit diverse Mechanismen des Unit-Nonresponse einbezogen
werden. Untersucht werden soll nun, inwieweit die simulierte Redressment-
Gewichtung den durch systematischen Ausfall entstandenen „Schaden“
beheben kann.
Mit Verzerrungen in den Untersuchungsvariablen ist immer dann zu
rechnen, wenn die Teilnahmewahrscheinlichkeit mit den interessierenden
Merkmalen korreliert ist. Bildet man nun für eine Redressment-Gewichtung im
Datensatz Anpassungsgruppen, dann ist die Gewichtung insbesondere dann
äußerst sinnvoll, wenn die Gruppierung so erfolgt, dass innerhalb der Gruppen
die Korrelation zwischen der Teilnahmewahrscheinlichkeit und den
interessierenden Merkmalen auf Null gebracht wird.
Unter Nonresponse verfolgt die Gewichtung zwei Ziele: Wie sonst
auch kann sie die Präzision der Schätzung durch Varianzreduktion erhöhen,
sofern Gewichtungs- und Untersuchungsmerkmale ausreichend stark
82
korrelieren. Hinzu kommt, dass sie einen ausfallbedingten Bias korrigieren
kann, sofern der Ausfallmechanismus innerhalb der Anpassungsgruppen
möglichst missing at random (MAR) ist.
Orientiert man sich an der Praxis, so sind zwei Szenarien des
Redressments als Nonresponsekorrektur denkbar: Entweder sind die An-
passungsklassen der Gewichtungsvariablen so gewählt, dass tatsächlich MAR
unterstellt werden kann (Szenario 1) oder die Gruppen sind so gewählt, dass
sie der Annahme nicht gerecht werden (Szenario 2).
Beide Szenarien sollen nun simuliert und anschließend miteinander
verglichen werden. Die Modellierung des Nonresponse-Mechanismus
geschieht dabei folgendermaßen. Im Populationsdatensatz wird zunächst eine
Indikatorvariable erstellt, die für jedes Element angibt, ob es zur Gruppe der
Teilnehmer oder zur Gruppe der Nichtteilnehmer gehört. Die Zuordnung
geschieht dabei über ein Bernoulli-Experiment, welches mit einer
vorgegebener Wahrscheinlichkeit jedem Element entweder die Zahl 1 für
„Response“ oder die Zahl 0 für „Nonresponse“ zuordnet.33 Realisiert wird dies
über eine entsprechende COMPUTE-Anweisung zur Erzeugung Bernoulli-
verteilter Zufallsvariablen (vgl. Programmcode in Anhang 4).
Für Szenario 1 wird dazu in jeder einzelnen Anpassungszelle der
Merkmalskombination Alter/Geschlecht ein eigenes Bernoulli-Experiment mit
vordefinierter Wahrscheinlichkeit durchgeführt. Jede Gewichtungsklasse
bekommt nun ihre eigene (konstante) Responsequote zugewiesen (vgl. Abb.
A1 in Anhang 4). Durch diese Vorgehensweise ist nun gewährleistet, dass
innerhalb der Anpassungsklassen der Responsemechanismus mit den
Untersuchungsvariablen nahezu unkorreliert ist (vgl. Abb. 20).
Für Szenario 1 haben wir damit MAR-Daten hergestellt, d.h. die
Reponse-Wahrscheinlichkeit korreliert mit den Gewichtungsvariablen, nicht
aber direkt mit den Untersuchungsvariablen.34 Der negative Effekt von
Nonresponse auf die Qualität der Schätzungen kann nun durch die Gewichtung
kontrolliert werden, es herrscht ignorable Nonresponse.
33 Bei den späteren Stichprobenziehungen können dann entsprechend nur Fälle mit Response = 1 ausgewählt werden. Programmtechnisch geschieht dies über eine entsprechende Filterung. 34Eine Korrelation mit den Untersuchungsvariablen besteht jedoch indirekt. Dadurch, dass nämlich die Gewichtungsvariablen mit den Untersuchungsvariablen mehr oder weniger stark korrelieren, beeinflusst der (mit den Gewichtungsvariablen korrelierte) Response auch indirekt die Untersuchungsvariablen mehr oder weniger stark. Das bedeutet, dass insbesondere die Variablen NR1 und NR2 (hohe Korrelation mit den Gewichtungsmerkmal „Geschlecht“) durch den Ausfallmechanismus verzerrt sein werden.
83
Abb. 20: Korrelation der Response-Variable mit den Untersuchungsvariablen
innerhalb der Anpassungszellen (Szenario 1)
Altersklassen
1 2 3 Geschlecht m Response Response Response
NR1 ,001 NR1 -,008 NR1 ,001 NR2 -,006 NR2 ,003 NR2 ,006 NR3 ,002 NR3 ,002 NR3 ,009 NR4 ,001 NR4 -,002 NR4 ,007 NR5 ,009 NR5 -,003 NR5 -,004 NR6 -,008 NR6 -,003 NR6 ,006
w Response Response Response NR1 ,009 NR1 -,006 NR1 -,011 NR2 ,011 NR2 -,008 NR2 -,003 NR3 ,008 NR3 -,010 NR3 -,014 NR4 ,004 NR4 -,011 NR4 -,004 NR5 ,012 NR5 -,015 NR5 -,011 NR6 ,004 NR6 -,001 NR6 ,001
Zur Modellierung von Szenario 2 werden die Response-Wahrscheinlichkeiten
nun genau nicht auf die Merkmalskombination der Gewichtungsvariablen
Alter und Geschlecht verteilt, sondern auf andere, noch zu erstellende
Gruppen. Dafür werden aus den Ausgangsvariablen NR5 und NR6 im
Populationsdatensatz durch entsprechende Klassifikation der Merkmalswerte
zwei neue Variablen, eine dichotome und eine trichotome, erstellt. Die
Merkmalskombination dieser beiden Variablen bildet nun die
Verteilungsgrundlage der Responsewahrscheinlichkeiten. Jetzt herrscht
innerhalb der Gewichtungsklassen der Kombination Alter/Geschlecht keine
Nullkorrelation zwischen der Response-Variablen und den
Untersuchungsvariablen (vgl. Abb. 21).
Abb. 21: Korrelation der Response-Variable mit den Untersuchungsvariablen
innerhalb der Anpassungszellen (Szenario 2)
Altersklassen
1 2 3 Geschlecht m Response Response Response
NR1 -,024 NR1 -,027 NR1 -,015 NR2 -,053 NR2 -,043 NR2 -,031 NR3 -,095 NR3 -,088 NR3 -,071 NR4 -,054 NR4 -,042 NR4 -0,17 NR5 -,138 NR5 -,131 NR5 -,081 NR6 -,268 NR6 -,245 NR6 -,190
w Response Response Response NR1 -,007 NR1 -,014 NR1 -,026 NR2 -,037 NR2 -,053 NR2 -,048 NR3 -,089 NR3 -,105 NR3 -,090 NR4 -,042 NR4 -,051 NR4 -,040 NR5 -,132 NR5 -,137 NR5 -,103 NR6 -,292 NR6 -,291 NR6 -,266
84
Der Nonresponse-Mechanismus ist nun non-ignorable. Das zweite Szenario
simuliert damit den Fall, der in der Praxis womöglich häufiger anzutreffen ist.
Bei der Analyse der Simulationsergebnisse soll daher diesem Fall besondere
Aufmerksamkeit geschenkt werden.
Die in Abbildung 20 und 21 dargestellten Werte beziehen sich auf die
Korrelationen innerhalb der Gewichtungsklassen. Lässt man den
Populationsdatensatz ungruppiert, dann beschreibt die Korrelation zwischen
der Response-Variablen und den Untersuchungsvariablen die Stärke der zu
erwartenden Verzerrung in den Parameterschätzungen (vgl. Abb. 22). Die
Mittelwerte in Abb. 22 beziehen sich nun auf die Teilpopulation der
Respondenten, d.h. diejenigen Fälle, bei denen die Response-Variable den
Wert 1 aufweist. Es zeigt sich nun, dass unter dem ersten Szenario die
Korrelation besonders für die ersten Untersuchungsvariablen sehr hoch ist, im
zweiten Szenario für die letzten Variablen. Dementsprechend finden sich, wie
anhand der Mittelwerte erkennbar, die höchsten Abweichungen der
Mittelwerte vom „wahren“ Wert (1800) in Szenario 1 besonders bei den
ersten, in Szenario 2 bei den letzteren Untersuchungsvariablen.
Abb. 22 Korrelation zwischen Response und Untersuchungsvariablen auf der
Gesamtebene; Mittelwerte aller Untersuchungsvariablen für die
Fälle mit einem Response-Wert von 1; jeweils für beide Szenarien
Szenario 1
Korrelation mit
„Response“
Anzahl der Fälle mit
Response=1
Mittelwert (für Fälle mit
Response = 1)
NR1 -0,153 79923 1761,72 NR2 -0,136 79923 1765,93 NR3 -0,090 79923 1777,57 NR4 -0,075 79923 1781,31 NR5 -0,048 79923 1787,87 NR6 -0,035 79923 1791,30
Es soll also nun untersucht werden, inwieweit sich die Gewichtung unter den
zwei konstruierten Szenarien verhält. Für beide Szenarien werden nun jeweils
Szenario 2
Korrelation
mit „Response“
Anzahl der Fälle mit
Response=1
Mittelwert (für Fälle mit
Response = 1)
NR1 -0,025 70661 1791,88 NR2 -0,048 70661 1784,56 NR3 -0,091 70661 1770,80 NR4 -0,051 70661 1783,56 NR5 -0,132 70661 1757,53 NR6 -0,268 70661 1713,55
85
wiederum 10000 Stichproben nach dem bereits bekannten Prinzip gezogen.35
Jedes Mal wird erst der ungewichtete, dann der nach Geschlecht, sowie der
nach Alter und Geschlecht gewichtete Mittelwert berechnet.
4.6.1 Ergebnisauswertung
4.6.1.1 Vergleich der Erwartungswerte
In Abbildung 23a und 23c sind für beide Szenarien und für alle sechs
Untersuchungsvariablen die geschätzten Erwartungswerte, d.h. die Mittelwerte
der Stichprobenverteilungen, dargestellt. In Abbildung 23b und 23c ist jeweils
der Bias wiedergegeben. An den dort zu sehenden Werten der ungewichteten
Mittelwertverteilungen ist nun für beide Szenarien deutlich das Ausmaß der
ausfallbedingten Verzerrung erkennbar: Die ungewichteten Mittelwerte aller
Untersuchungsvariablen weichen mehr oder weniger stark vom tatsächlichem
Wert (1800) ab. Dies gilt unter Szenario 1 in besonderem Maße für die ersten,
unter Szenario 2 verstärkt für die letzteren Variablen. Die (ungewichtete)
Schätzfunktion ist nur noch erwartungstreu für die Gesamtheit der Teilnehmer,
nicht aber für alle Elemente in der Zielpopulation. Geradezu frappierend sind
die Ergebnisse der gewichteten Mittelwertverteilungen in Szenario 1: Die
Mittelwerte liegen dort für alle Untersuchungsvariablen trotz systematischer
Ausfallverzerrungen nahezu am wahren Mittelwert von 1800 (vgl. Abb. 23a).
Dies gilt für die Gewichtung nach Geschlecht, und mehr noch, für die
Gewichtung nach Alter und Geschlecht. Unter den Voraussetzungen von
Szenario 1 stellt damit die Gewichtung eine erhebliche Verbesserung
gegenüber der Nichtgewichtung dar, da sie imstande ist, die Nonresponse-
Verzerrung adäquat auszugleichen. Der Nonresponse-Bias reduziert sich
nahezu auf Null (vgl. Abb. 23b)
In der Praxis stellt es jedoch einen Regelfall dar, dass die Verhältnisse
mehr oder weniger stark von den in Szenario 1 herrschenden, idealen
Bedingungen abweichen. Diesen Fall illustriert das zweite Szenario. Dort sind
35 Dabei wird so vorgegangen, dass jeweils eine einfache Zufallsauswahl aus der Subpopulation aller „Respondenten“ gezogen wird. Dadurch werden die Elemente automatisch nach ihrer vordefinierten Response-Wahrscheinlichkeit gezogen.
86
die Gewichtungsvariablen aufgrund des herrschenden Nonresponse-
Mechanismus gerade nicht imstande, innerhalb der Anpassungsklassen
Nullkorrelation herzustellen.
Wie die Simulationsergebnisse für Szenario 2 in Abb. 23c zu erkennen
geben, kann die Nonresponse-Verzerrung durch die Gewichtung tatsächlich
nicht ausgeglichen werden. Die simulierten Erwartungswerte sind allesamt
verzerrt. Doch eines fällt auf: Die gewichteten, und erneut insbesondere die
nach Alter und Geschlecht gewichteten Mittelwerte liegen für alle sechs
Untersuchungsvariablen im Durchschnitt näher am tatsächlichen Wert als die
ungewichteten Mittelwerte. Der Bias wird durch die Gewichtung folglich zwar
nicht ganz eliminiert, zumindest aber reduziert (vgl. Abb. 23d)
Abb. 23a: (appr.) Erwartungswerte aller sechs Untersuchungsvariablen für
Szenario 1
1700
1720
1740
1760
1780
1800
1820
Szenario 1
ungewichtet 1760,98 1765,68 1777,78 1781,86 1788,67 1791,8
gewichtet nach Geschlecht 1798,55 1797,28 1798,91 1796,84 1796,43 1793,82
gewichtet nach Alter & Geschlecht 1799,9 1800,75 1800,62 1800,92 1800,91 1800,64
1 2 3 4 5 6
Abb. 23b: Bias für alle sechs Untersuchungsvariablen - Szenario 1
87
-40
-30
-20
-10
0
10B
IAS
- Sze
nario
1
ungewichtet -39,02 -34,32 -22,22 -18,14 -11,33 -8,2
gewichtet nachGeschlecht
-1,45 -2,72 -1,09 -3,16 -3,57 -6,18
gewichtet nach Alter &Geschlecht
-0,1 0,75 0,62 0,92 0,91 0,64
1 2 3 4 5 6
Abb. 23c: (appr.) Erwartungswerte aller sechs Untersuchungsvariablen für
Szenario 2
1700
1720
1740
1760
1780
1800
1820
Szenario 2
ungewichtet 1792,58 1785,13 1770,41 1784,19 1757,22 1713,35
gewichtet nach Geschlecht 1795,94 1787,94 1772,26 1785,52 1757,85 1713,48
gewichtet nach Alter & Geschlecht 1796,65 1789,45 1772,8 1787,51 1760,33 1716,28
1 2 3 4 5 6
Abb. 23d: Bias für alle sechs Untersuchungsvariablen - Szenario 2
88
-100
-80
-60
-40
-20
0B
IAS
- Sze
nario
2
ungewichtet -7,42 -14,87 -29,59 -15,81 -42,78 -86,65
gewichtet nachGeschlecht
-4,06 -12,06 -27,74 -14,48 -42,15 -86,52
gewichtet nach Alter &Geschlecht
-3,35 -10,55 -27,2 -12,49 -39,67 -83,72
1 2 3 4 5 6
4.6.1.2 Vergleich der Varianzen
Betrachten wir nun die Streuungen der Mittelwertverteilungen – in Abb. 24a
und 24b durch die Standardfehler dargestellt - so fällt auf, dass auch hier die
Präzision der Schätzung von der Korrelationsstärke zwischen Gewichtungs-
und Untersuchungsmerkmal, d.h. also von der Güte des Modells, abhängt.
Während bei allen Untersuchungsvariablen die Varianz des ungewichteten
Schätzers konstant einem Wert folgt, gilt für beide Szenarien gleichermaßen,
dass bei hoher und mittelmäßiger Modellgüte (Variablen NR1 bis NR4) mit
einem Präzisionsgewinn im Sinne einer verringerten Varianz für die
gewichteten Schätzer zu rechnen ist.
Deutlich wird hier wiederum die Unabhängigkeit der Modellgüte von
der Verzerrung der Schätzergebnisse. Unter den Idealbedingungen von
Szenario 1 variiert der Präzisionsgewinn in Abhängigkeit der Modellgüte,
gleichzeitig ergeben sich aber für alle Untersuchungsvariablen
verzerrungsfreie, erwartungstreue mittlere Schätzer nahe dem tatsächlichen
Wert. Bei schwacher Modellgüte kommt es zwar zu einer leichten
Varianzvergrößerung für die Gewichtung nach beiden Merkmalen, der Bias
reduziert sich dennoch auf nahezu Null. Bei hoher Modellgüte liegt der
Gewinn zusätzlich zur Bias-Reduktion in einer bedeutsamen Varianzreduktion.
89
Abb. 24a: Standardabweichung der Mittelwertverteilungen (=Standardfehler)
für alle sechs Untersuchungsvariablen – Szenario 1
0
10
20
30
40
50
60
ungewichtet 50,11 49,94 50,13 49,77 50,51 50,41
gewichtet nach Geschlecht 30,86 37,65 45,4 47,82 50,41 50,82
gewichtet nach Alter & Geschlecht 33,51 40,88 49,21 51,58 54,01 54,15
1 2 3 4 5 6
Abb. 24b: Standardabweichung der Mittelwertverteilungen (=Standardfehler)
für alle sechs Untersuchungsvariablen – Szenario 2
0
10
20
30
40
50
60
ungewichtet 49,66 49,55 49,61 50,35 49,46 47,42
gewichtet nach Geschlecht 30,39 37,58 45,13 48,16 49,27 47,63
gewichtet nach Alter & Geschlecht 31,08 38,25 46,22 48,89 49,88 48,21
1 2 3 4 5 6
Sind die Bedingungen wie in Szenario 2 nicht ideal, so erhält man bei
hoher Modellgüte zwar präzise Schätzungen mit geringerer Varianz, der
Schätzer kann trotz allem nicht von seiner Verzerrung befreit werden. Dessen
90
ungeachtet stellt das Redressment im zweiten Szenario aber immer noch eine
wesentliche Verbesserung gegenüber der Nichtgewichtung dar.
4.6.1.3 Vergleich der Differenzen zum wahren Wert
In der folgenden Analyse wird wiederum für jede einzelne gezogene Stich-
probe die Differenz des ungewichteten und des nach beiden Verfahren
gewichteten Schätzers zum tatsächlichen Wert (=1800) berechnet.
Anschließend lässt sich der Prozentsatz der Stichproben ermitteln, bei denen
die Gewichtung im Vergleich zur Nichtgewichtung Schätzwerte näher am
Populationswert hervorgebracht hat. Die Ergebnisse sind in Abb. 25a und 25b
dargestellt. Es zeigt sich für beide Szenarien sehr klar, dass in Abhängigkeit
der Modellgüte die Gewichtung deutlich mehr Stichproben mit geringerer
Differenz zum wahren Wert erzeugt hat.
Abb. 25a: Prozentsatz der gewichteten Stichproben, deren Schätzer näher am
wahren Wert liegen – Szenario 1
01020304050607080
Szenario 1
gewichtet nachGeschlecht
75,29 70,14 61,27 59,42 54,3 49,82
gewichtet nachAlter & Geschlecht
73,27 66,33 55,92 52,61 47,53 46,57
1 2 3 4 5 6
Abb. 25b: Prozentsatz der gewichteten Stichproben, deren Schätzer näher am
wahren Wert liegen – Szenario 2
91
01020304050607080
Szenario 2
gewichtet nachGeschlecht
68,39 63,51 58,68 56,73 54,52 50,5
gewichtet nachAlter & Geschlecht
67,67 62,72 55,68 54,25 54,59 57,7
1 2 3 4 5 6
4.6.1.3 Vergleich der Konfidenzintervalle
Im Einzelfall, d.h. wenn nur eine einzige gezogene Stichprobe vorliegt, übt die
Varianz eines Schätzers direkten Einfluss auf die Präzision der Schätzung
dahingehend aus, dass sie die Breite eines Konfidenzintervalls vergrößert oder
verkleinert. Wir betrachten nun in unserem Experiment jede einzelne gezogene
Stichprobe und prüfen, ob das für jeden Schätzer sich ergebende 95%-
Konfidenzintervall jeweils tatsächlich in 95 Prozent der gezogenen
Stichproben den „wahren“ Populationsmittelwert von 1800 überdeckt oder
nicht. Abbildung 26a und 26b zeigt die Ergebnisse für beide Szenarien.
Abb. 26a: Überdeckungshäufigkeiten der 95%-Konfidenzintervalle –
Szenario 1
92
50556065707580859095
100
Szenario 1
ungewichtet 87,45 89,14 92,33 93,07 93,84 94,09
gewichtet nachGeschlecht
99,85 98,87 96,87 95,44 94,41 94,1
gewichtet nach Alter& Geschlecht
99,6 98,24 95,28 93,98 92,66 92,81
1 2 3 4 5 6
Abb. 26b: Überdeckungshäufigkeiten der 95%-Konfidenzintervalle –
Szenario 2
50556065707580859095
100
Szenario 2
ungewichtet 94,43 93,86 90,75 93,07 85,9 56,05
gewichtet nachGeschlecht
99,78 98,46 93,33 94,25 86,15 56,31
gewichtet nach Alter& Geschlecht
99,77 98,48 92,73 93,94 86,55 58,32
1 2 3 4 5 6
Für den ungewichteten Fall wird deutlich, dass aufgrund der Nonresponse-
Verzerrung die normative Vorgabe von 95 Prozent oft nicht eingehalten wird.
Dies gilt für diejenigen Untersuchungsvariablen, bei denen der Bias besonders
hoch ist. Unter Szenario 1 sind dies vornehmlich die ersten, unter Szenario 2
die letzten Variablen. Für den gewichteten Fall zeichnet sich nun erneut in
Abhängigkeit der Modellgüte ein enormer Genauigkeitsgewinn ab. So können
für beide Szenarien bei hoher Modellgüte (NR1 und NR2)
Überdeckungshäufigkeiten weit über der 95-Prozent-Vorgabe erzielt werden
(jeweils 98 bis 99 Prozent), wohingegen bei denselben Variablen im
ungewichteten Fall lediglich 87-89 % (Szenario 1) bzw. 93-94 % (Szenario 2)
der berechneten Intervalle den wahren Wert überdecken. Selbst unter Szenario
93
2 liefert der gewichtete Schätzer über alle Untersuchungsvariablen hinweg
durchgehend höhere Überdeckungshäufigkeiten als der ungewichtete Schätzer.
4.6.2 Zwischenfazit 4
Abschließend ist als Gesamtfehlermaß in Abb. 27a und 27b jeweils für beide
Szenarien der MSE (vgl. Formel 32) dargestellt. Deutlich wird, dass der
Gesamtfehler in beiden Szenarien durchweg für den gewichteten Schätzer
kleiner ist. Einzige Ausnahme findet sich in Szenario 1 bei den Variablen NR5
und NR6. Dort führt die Varianzvergrößerung der gewichteten Schätzung zu
einem geringfügig höherem MSE.
Abb. 27a: Mean Square Error; Szenario 1
0
1000
2000
3000
4000
5000
MSE
- Sz
enar
io 1
ungewichtet 4033,57 3671,87 3006,75 2806,11 2679,63 2608,41
gewichtet nachGeschlecht
954,44 1424,92 2062,35 2296,74 2553,91 2620,86
gewichtet nach Alter& Geschlecht
1122,93 1671,74 2422,01 2661,34 2917,91 2932,63
1 2 3 4 5 6
Abb. 27b: Mean Square Error; Szenario 2
94
0
5000
10000
15000M
SE -
Szen
ario
2
ungewichtet 2521,17 2676,32 3336,72 2785,08 4276,42 9756,88
gewichtet nachGeschlecht
940,04 1557,7 2806,22 2529,06 4204,16 9754,33
gewichtet nach Alter& Geschlecht
977,19 1574,37 2876,13 2546,23 4061,72 9333,24
1 2 3 4 5 6
Im Gesamten bleibt die bemerkenswerte Erkenntnis festzuhalten, dass die
„korrekte“ Gewichtung nach Szenario 1 zusätzlich zur Varianzreduktion auch
einen Nonresponse-Bias vollständig reduzieren kann. Die „falsche“
Gewichtung nach Szenario 2 führt im gleichen Maße zur Varianzreduktion und
produziert darüber hinaus Schätzer, die im Vergleich zur Nichtgewichtung
weniger verzerrt sind.
Damit stellt die Redressment-Gewichtung, auch bei nicht erfüllter
MAR-Annahme, immer noch eine wesentliche Verbesserung gegenüber dem
Verzicht auf Korrekturgewichtung dar.
5. Schlussfolgerungen
Die Ergebnisse dieser Arbeit sollen nun noch einmal im Gesamten
zusammengefasst werden.
Zunächst verglichen wir den nach dem Redressment-Prinzip
gewichteten Schätzer mit dem Fall der Nichtgewichtung ohne
Berücksichtigung systematischen Ausfalls. Die Stichprobe stellte dabei eine
reine, unverzerrte Zufallsauswahl aus der Gesamtheit dar. Es herrschte
gewissermaßen MCAR.
Unter diesen Bedingungen können wir folgende Ergebnisse festhalten:
Der ungewichtete Schätzer ist unverzerrt - sein Erwartungswert trifft den
tatsächlichen Populationswert. Ein Redressment ist für eine Bias-Reduktion
95
unnötig, denn es existiert kein Bias. Dennoch leistet das Redressment, unter
den Voraussetzungen einer möglichst hohen Korrelation zwischen
Gewichtungs- und Untersuchungsmerkmal, eine teilweise beachtliche
Reduktion der Schätzervarianz und trägt somit zu einem (zum Teil enormen)
Präzisionsgewinn – bei gleichzeitig weiterhin bestehender Erwartungstreue -
bei. Definieren wir also „Effizienz“ als statistische Eigenschaft eines Schätzers
mit maximaler Präzision, so muss festgestellt werden, dass bei hoher
Modellgüte der ungewichtete Schätzer – ganz im Gegensatz zum gewichteten -
diese Eigenschaft nicht besitzt. Bei schwacher Modellgüte jedoch, d.h. dann
wenn Gewichtungsmerkmal und Untersuchungsmerkmal schwach korrelieren,
kommt es - insbesondere unter Beifügung eines weiteren
Gewichtungsmerkmals – zur geringfügigen Varianzvergrößerung und damit zu
einem minimalen Verlust in der Präzision des gewichteten Schätzers.
Für die Gewichtung von Korrelationskoeffizienten können insgesamt
ähnliche Ergebnisse festgestellt werden, wobei dort der Einfluss einer
Gewichtung im Gesamten geringer zu sein scheint. Generell gilt noch einmal
darauf hinzuweisen, dass für die Überprüfung von Beziehungsstrukturen sich
die Gewichtung dann erübrigt, sofern das aufgestellte Kausalmodell alle
Effekte, also auch solche, die sonst durch Gewichtung ausgebessert werden
sollen, einschließt.
Im zweiten Simulationsmodell wurde nun versucht, den Einfluss
systematischer Ausfälle mit zu berücksichtigen. Dafür wurden zwei Szenarien
konstruiert; beim ersten war die MAR-Annahme tatsächlich erfüllt, beim
zweiten nicht.
Aus den Ergebnissen lassen sich folgende Punkte festhalten: Sofern der
Nonresponse-Mechanismus tatsächlich der MAR-Annahme folgt, führt das
Redressment zu einer vollständigen Bias-Reduktion. Der Einfluss von
Nonresponse ist dann perfekt kontrollierbar. Zusätzlich kommt es – sofern
hohe Modellgüte herrscht – zum Präzisionsgewinn im Sinne einer
Varianzreduktion. Ist die MAR-Annahme (Szenario 2) mehr oder weniger
stark verletzt, so zeigt sich, dass dann immer noch – in Abhängigkeit der
Modellgüte – die Varianz reduziert wird, eine Verzerrung jedoch nicht
ausgeglichen wird. Dennoch kommt es im Vergleich zur Nichtgewichtung im
Mittel zu einer besseren Annäherung an den wahren Wert. Der Bias wird zwar
nicht ganz behoben, aber zumindest etwas entschärft.
96
Sofern also unter dem Einfluss systematischer Ausfälle die MCAR-
Annahme nicht mehr gilt, hängt der Erfolg einer Redressment-Gewichtung
davon ab, inwieweit die Kombination der vorhandenen Gewichtungsvariablen
die MAR-Annahme erfüllen kann. Ist diese Annahme erfüllt, so ist ein
Nonresponse-Effekt perfekt kontrollierbar, ist sie verletzt, so kann – je nach
Grad der Annäherung an die MAR-Annahme - der Effekt durch die
Gewichtung zumindest gelindert werden.
Es bleibt die Frage zu diskutieren, ob die Redressment-Gewichtung ein
sinnvolles Verfahren für die Umfragepraxis ist. Dazu lässt sich folgendes
festhalten: Jedem Redressment liegt die empirisch mehr oder weniger
zutreffende Annahme zugrunde, dass innerhalb der Gewichtungsklassen
MAR-Daten vorliegen. Diese Annahme mag falsch sein. Jede
Nichtgewichtung impliziert jedoch, dass der Nonresponse gänzlich MCAR ist.
Diese Annahme mag ebenso illusorisch, wenn nicht gar naiv sein. Das Sample
wird dann so behandelt, als gäbe es keinen Nonresponse-Effekt. Man folgt
damit implizit dem deterministischen Modell, dass sich die Respondenten in
den interessierenden Merkmalen absolut nicht von den Non-Respondenten
unterscheiden. Sharon Lohr (1999: 272) warnt daher alle Skeptiker jeglicher
Korrekturgewichtung: „making no adjustments is itself a model about the
nature of the nonresponse.”
Die vorliegende Simulation erhebt nicht den Anspruch, gewissermaßen als
„experimentum crucis“, die bedingungslose Anwendung des Redressments für
die Umfragepraxis zu legitimieren. Schließlich wird ein Redressment-Modell
in concreto niemals die MAR-Annahme perfekt erfüllen können; auch ist die
Annahme utopisch, dass innerhalb der Klassen tatsächlich homogene, gar
konstante Responsemechanismen herrschen. Ferner ist nicht abzuschätzen,
welchen Einfluss diverse iterative Raking-Prozeduren auf die Qualität der
Gewichtung ausüben.
Es konnte aber die auf analytischer Ebene eindeutige Tatsache
demonstriert werden, dass – auch unter dem Einfluss systematischer
Ausfallerscheinungen - eine Redressment-Prozedur nicht modellabhängig,
sondern modellunterstützt ist, in dem Sinne, dass auch eine „falsche“
Modellannahme trotzdem keine erheblichen Verschlechterungen von
Schätzergebnissen mit sich bringt. Vielmehr besteht gegenüber dem
deterministischen Modell der Nichtgewichtung zumindest die Chance, dass es
97
zur Korrektur ausfallbedingter Einflüsse kommt, sofern die Gruppen geschickt
gewählt sind.
Es erhebt sich damit vielmehr die Frage, nicht ob, sondern wie, d.h. nach
welchen Gruppen, gewichtet werden soll. Um möglichst der MAR-Annahme
gerecht zu werden, scheint insbesondere die Gruppenbildung auf Basis der
Propensity-Scores eine aussichtsreiche Methode zu sein.
Unstrittig bleibt weiter, dass bei gravierenden Erhebungsfehlern in der
Feldphase auch die gewichtete Stichprobe nur ein mäßiges Surrogat einer
Repräsentativerhebung bleiben kann. Aus Gründen der Seriosität empfiehlt
sich daher für die wissenschaftliche Praxis, insbesondere bei kritischen
Ergebnissen, stets die ungewichteten Ergebnisse mit zu publizieren. Auch
lohnt der Vergleich der Varianzen zwecks Abschätzung der Effizienz. Im
Sinne einer wissenschaftlichen Nachvollziehbarkeit empfiehlt es sich darüber
hinaus, auf eine exakte Dokumentation der verwendeten Gewichtungs-
prozeduren nicht zu verzichten.
98
Anhang 1: SPSS Syntax-Programm zur Generierung korrelierter Daten.
Set workspace = 512000. new file. input program. SET SEED random. loop #i = 1 to 100000. do repeat response = r1 to r7. COMPUTE response = rv.normal(0,1). end repeat. end case. end loop. end file. end input program. list case. Save outfile = "c:\DataOut.sav". Factor /variables r1 to r7 /analysis r1 to r7 /print correlation extraction /criteria Factors(7) Iterate(25) /extraction pc /rotation norotate /save reg(all). Save outfile = "c:\DataOut.sav". Matrix. Get X /File = "c:\DataOut.sav" /Variables = fac1_1 to fac7_1. Compute R = {1.0, .84, .56, .40, .20, .05, -.11; .84, 1.0, .71, .63, .15, .15, -.15; .56, .71, 1.0, .22, .43, .28, -.08; .40, .63, .22, 1.0, .19, .16, -.15; .20, .15, .43, .19, 1.0, .35, -.18; .05, .15, .28, .16, .35, 1.0, -.20; -.11, -.15, -.08, -.15, -.18, -.20, 1.0}. Compute NewX = X*chol(R). Save NewX /outfile = */variables = nr1 to nr7. End matrix. Recode nr1 (-10 thru -.05=0) (-.050000000001 thru 10=1) into sex_w . recode sex_w (1=0) (0=1) into sex_m. compute nr1_1 = nr1*500 + 1800. compute nr2_1 = nr2*500 + 1800. compute nr3_1 = nr3*500 + 1800. compute nr4_1 = nr4*500 + 1800. compute nr5_1 = nr5*500 + 1800. compute nr6_1 = nr6*500 + 1800. compute nr7_1 = nr7*500 + 1800. exe. Save outfile='c:\population_01.sav' /compressed.
99
Anhang 2: SPSS Programm der Monte Carlo Simulation – unter Berücksichtigung der Gewichtungsvariablen Geschlecht
define maxiterate (). set miterate = 10000. show miterate. !enddefine. maxiterate. DEFINE repsam (). !DO !doover = 1 !TO 10000. GET FILE='F:\Mark'+' Lutter\studium\diplomarbeit\Simulation\sim01\population_01.sav'. weight off. set seed = random. FILTER OFF. USE ALL. SAMPLE 100 from 100000. title "WEIGHT OFF". DESCRIPTIVES VARIABLES= nr1_1 to nr7_1 sex_w sex_m /STATISTICS=MEAN STDDEV . sort cases by sex_w. compute newvar1=1. exe. create newvar2=csum(newvar1). exe. create newvar3=csum(sex_m). exe. compute mean_m=newvar3/newvar2. exe. rank var=newvar2 (D) /rank /print=no /ties=mean. ren var (rnewvar2 = newvar5). formats newvar5 (f8). do if (newvar5>1). recode newvar2 (else=sysmis). end if. exe. compute mmean=newvar3/newvar2. exe. RMV /valid=smean(newvar2) /mean_m=smean(mmean). compute neuvar1=1. exe. create neuvar2=csum(neuvar1). exe. sort cases by sex_m. create neuvar3=csum(sex_w). exe. compute mean_w=neuvar3/neuvar2. exe. rank var=neuvar2 (D) /rank /print=no /ties=mean. ren var (rneuvar2 = neuvar5). formats neuvar5 (f8). do if (neuvar5>1). recode neuvar2 (else=sysmis). end if. exe. compute wmean=neuvar3/neuvar2. exe. RMV /valid2=smean(neuvar2) /mean_w=smean(wmean). ***SOLL DURCH IST**** if (sex_m = 1) weisex = 0.47859/mean_m. if (sex_w = 1) weisex = 0.52141/mean_w. exe.
100
weight by weisex. title "WEIGHT ON". DESCRIPTIVES VARIABLES= nr1_1 to nr7_1 sex_w sex_m /STATISTICS=MEAN STDDEV . weight off. SAVE OUTFILE='F:\data_out_01.sav' /COMPRESSED. !DOEND. !ENDDEFINE. repsam. script 'F:\Mark Lutter\studium\ScriptSyntax\001Anmerkungen löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\002 Titel löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\003 Warnungen löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\008 Verarbeitete Fälle löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\007 Statistiken löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\004 Log löschen.sbs'.
Anhang 3: SPSS Programm der Monte Carlo Simulation – unter Berücksichtigung der Gewichtungsvariablen Alter & Geschlecht
DEFINE repsam (). !DO !doover = 1 !TO 10000. GET FILE='D:\diplomarbeit\Simulation\sim05\pop_norm_sim05_01.sav'. weight off. set seed = random. FILTER OFF. USE ALL. SAMPLE 100 from 100000. exe. title "WEIGHT OFF". DESCRIPTIVES VARIABLES= nr1_1 to nr7_1 /STATISTICS=MEAN STDDEV . corr / var = nr1_1 with nr3_1 / var = nr5_1 with nr6_1 . SAVE OUTFILE='d:\sample_out_sim_05.sav' /COMPRESSED. ****Mittelwert für Alter1 & Sex_w = 0. FILTER OFF. USE ALL. SELECT IF(sex_w=0). EXECUTE . sort cases by alter1 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter1). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100.
101
exe. RMV /m_a1sw0=smean(a1m). SAVE OUTFILE='d:\mean_a1sw0.sav' /keep = m_a1sw0 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter1 & Sex_w = 1. FILTER OFF. USE ALL. SELECT IF(sex_w=1). EXECUTE . sort cases by alter1 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter1). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a1sw1=smean(a1m). SAVE OUTFILE='d:\mean_a1sw1.sav' /keep = m_a1sw1 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter=2 & Sex_w = 0. FILTER OFF. USE ALL. SELECT IF(sex_w=0). EXECUTE . sort cases by alter2 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter2). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a2sw0=smean(a1m). SAVE OUTFILE='d:\mean_a2sw0.sav' /keep = m_a2sw0 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter=2 & Sex_w = 1. FILTER OFF. USE ALL. SELECT IF(sex_w=1). EXECUTE . sort cases by alter2 (D). compute age1=1. exe. create age2=csum(age1).
102
exe. create age3=csum(alter2). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a2sw1=smean(a1m). SAVE OUTFILE='d:\mean_a2sw1.sav' /keep = m_a2sw1 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter=3 & Sex_w = 0. FILTER OFF. USE ALL. SELECT IF(sex_w=0). EXECUTE . sort cases by alter3 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter3). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a3sw0=smean(a1m). SAVE OUTFILE='d:\mean_a3sw0.sav' /keep = m_a3sw0 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter=3 & Sex_w = 1. FILTER OFF. USE ALL. SELECT IF(sex_w=1). EXECUTE . sort cases by alter3 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter3). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a3sw1=smean(a1m). SAVE OUTFILE='d:\mean_a3sw1.sav' /keep = m_a3sw1 /COMPRESSED.
103
get file = 'd:\sample_out_sim_05.sav'. MATCH FILES /FILE=* /FILE='D:\mean_a1sw0.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a1sw1.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a2sw0.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a2sw1.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a3sw0.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a3sw1.sav'. EXECUTE. RMV /m_a1sw0 = smean(m_a1sw0) /m_a1sw1 = smean(m_a1sw1) /m_a2sw0 = smean(m_a2sw0) /m_a2sw1 = smean(m_a2sw1) /m_a3sw0 = smean(m_a3sw0) /m_a3sw1= smean(m_a3sw1). **** SOLL DURCH IST *******************. if (a3=1 & sex_w=0) w = 0.11122/m_a1sw0. if (a3=1 & sex_w=1) w = 0.15177/m_a1sw1. if (a3=2 & sex_w=0) w = 0.23779/m_a2sw0. if (a3=2 & sex_w=1) w = 0.25697/m_a2sw1. if (a3=3 & sex_w=0) w = 0.12958/m_a3sw0. if (a3=3 & sex_w=1) w = 0.11267/m_a3sw1. exe. weight by w. title "WEIGHT ON". DESCRIPTIVES VARIABLES= nr1_1 to nr7_1 /STATISTICS=MEAN STDDEV . corr / var = nr1_1 with nr3_1 / var = nr5_1 with nr6_1 . weight off. SAVE OUTFILE='d:\sample_out_sim_05_a.sav' /COMPRESSED. !DOEND. !ENDDEFINE. repsam. script 'F:\Mark Lutter\studium\ScriptSyntax\001Anmerkungen löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\002 Titel löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\003 Warnungen löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\008 Verarbeitete Fälle löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\007 Statistiken löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\004 Log löschen.sbs'.
104
Anhang 4 SPSS-Programmcode zur Response-Modellierung
Abb. A1: vordefinierte Response-Wahrscheinlichkeiten
Altersklassen
1 2 3 Geschlecht m 0,70 0,45 0,95
w 0,99 0,90 0,50 ***Die Response-Wahrscheinlichkeiten werden auf die Anpassungszellen der ***Merkmalskombination Alter (a3) und Geschlecht (sex_w) verteilt. do if (a3=1 & sex_w=0). set seed = 1234567890. compute response = rv.bernoulli(.70). else if (a3=1 & sex_w=1) . set seed = 1234567890. compute response = rv.bernoulli(.45). else if (a3=2 & sex_w=0) . set seed = 1234567890. compute response = rv.bernoulli(.95). else if (a3=2 & sex_w=1) . set seed = 1234567890. compute response = rv.bernoulli(.99). else if (a3=3 & sex_w=0) . set seed = 1234567890. compute response = rv.bernoulli(.90). else if (a3=3 & sex_w=1) . set seed = 1234567890. compute response = rv.bernoulli(.50). end if. exe. */Nur Elemente mit Response = 1 können für die Stichprobe ausgewählt werden: FILTER OFF. USE ALL. SELECT IF(response=1). EXECUTE .
Literatur
ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., ASI Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V., BVM Berufsverband Deutscher Markt- und Sozialforscher e.V., D.G.O.F. Deutsche Gesellschaft für Online-Forschung e.V. (2001): Standards zur Qualitätssicherung für Online-Befragungen, zit. nach: http://www.adm-ev.de/pdf/Onlinestandards_D.pdf (URL vom 22.09.2004). Arbeitsgemeinschaft ADM-Stichproben und Bureau Wendt (1994): Das ADM Stichprobensystem (Stand 1993), in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 188-203. Bamberg, G., Baur, F. (1998): Statistik, 10. überarb. Aufl., München. Bandilla, W., Gabler, S., Wiedenbeck, M. (1992): Methodenbericht zum DFG-Projekt ALLBUS Baseline-Studie 1991, ZUMA-Arbeitsbericht 92/04, Mannheim. Bandilla,W., Bosnjak, M., Altdorfer, P. (2003): Survey administration effects? A comparison of web-based and traditional written self-administered surveys using the ISSP environment module, Social Science Computer Review 21: 235-243. Bethlehem, J.G. (1988): Reduction of the nonresponse bias through regression estimation, Journal of Official Statistics 4, 251-260. Bethlehem, J.G. (2002): Weighting nonresponse adjustments based on auxiliary information, in: Groves, R.M., Dillman, D.A., Eltinge, J.L., Little, R.J.A. (eds.): Survey Nonresponse, New York, 275-288. Böltken, F. (1976): Auswahlverfahren, Stuttgart. Börsch-Supan, A., Elsner, D., Faßbender, H., Kiefer, R., McFadden, D., Winter, J. (2003): How to make internet surveys representative: A case study of a new two-step weighting procedure, unveröffentlichtes Konzeptpapier, Version vom 14.09.2003. Braun, M., Eilinghoff, C., Gabler, S., Wiedenbeck, M. (1993): Methodenbericht zur „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 1992, ZUMA-Arbeitsbericht 93/01, Mannheim. Cochran, W. G. (1968): The effectiveness of adjustment by subclassification in removing bias in observational studies, Biometrics 24: 205–213. Cochran, W.G. (1972): Stichprobenverfahren, Berlin. Couper, M.P. (2000): Web surveys. A review of issues and approaches, Public Opinion Quarterly 64: 464-494.
105
Couper, M. P., Traugott, M.W., Lamias, M. J. (2001): Web survey design and administration, Public Opinion Quarterly 65: 250–253. Crawford, S. D., Couper, M. P., Lamias, M. J. (2001): Web surveys: perceptions of burden, Social Science Computer Review 19(2): 146–162. Danielsson, S. (2002): The propensity score and estimation in nonrandom surveys - an overview, Research Report no 18 from the project "Modern statistical survey methods", Department of Statistics, University of Linköping, zit. nach: http://www.statistics.su.se/modernsurveys/publ/11.pdf (URL vom 22.09.2004). Deming, W.E., Stephan, F.F. (1940): On a least squares adjustment of a sampled frequency table when the expected marginal totals are known, Annals of Mathematical Statistics 11: 427-444. Diekmann, A. (1996): Empirische Sozialforschung, Grundlagen, Methoden, Anwendungen, 2. Auflage, Reinbek bei Hamburg. Diehl, J.M., Arbinger, R. (1990): Inferenzstatistik, Eschborn bei Frankfurt / Main.
Dillman, D. A. (2000): Mail and Internet Surveys. The Tailored Design Method, New York.
Ellermann, S. (2004): Die Bedeutung der Briefwähler bei der Bundestagswahl 2002, in: van Deth, J. W., Roller, E.: Die Bundestagswahl 2002: Analysen der Wahlergebnisse und des Wahlkampfes, Wiesbaden, 249-277. Esser, H. (1986): Über die Teilnahme an Befragungen, ZUMA-Nachrichten 18: 38-47. Esser, H., Grohmann, H., Müller, W., Schäffer, H.-A. (1989): Mikrozensus im Wandel, Wiesbaden. Faas, T. (2003a): Umfragen im Umfeld der Bundestagswahl 2002: Offline und Online im Vergleich, ZA-Informationen 52: 120-135. Faas, T. (2003b): Offline rekrutierte Access Panels: Königsweg der Online-Forschung?, ZUMA-Nachrichten 53: 58-76. Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.) (1994): Gewichtung in der Umfragepraxis, Opladen. Gabler, S. (1994a): ALLBUS-Baseline-Studie 1991 und ALLBUS 1992: Ost-West-Gewichtung der Daten, ZUMA-Nachrichten 35, 77-81. Gabler, S. (1994b): Eine allgemeine Formel zur Anpassung an Randtabellen, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 88-105. Gabler, S., Häder, S. (1997): Wirkung von Gewichtungen bei Face-to-Face und Telefonstichproben. Eurobarometerexperiment 1994, in: Gabler, S.,
106
Hoffmeyer-Zlotnik, J.H.P. (Hrsg.): Stichproben in der Umfragepraxis, Opladen, 221-245. Groves, R. M. (1989): Survey errors and survey costs, New York. Groves, R.M., Dillman, D.A., Eltinge, J.L., Little, R.J.A. (eds.) (2002): Survey Nonresponse, New York. Groves, R.M., Fowler, F.-J., Couper, M.P, Lepkowski, J.M., Singer, E., Tourangeau, R. (eds.) (2004): Survey Methodology, Wiley Series in Survey Methodology, Hoboken, New Jersey.
Gschwend, Th., Norpoth, H. (2001): Wenn am nächsten Sonntag …: Ein Prognosemodell für Bundestagswahlen, in: Kaase, M., Klingemann, H.-D. (Hrsg.): Wahlen und Wähler: Analysen aus Anlass der Bundestagswahl 1998, Opladen, 471-500.
Gschwend, Th., Norpoth, H. (2002): Die beste Wahlprognose. Warum eine Methode erfolgreicher war als alle anderen, Financial Times Deutschland vom 24.09.2002: 16.
Hansen, M.H., Hurvitz, W.N., Madow, W.G. (1953): Sample Survey Methods and Theory, Vol. I & II, New York. Hartmann, P.H. (1989): Der Mikrozensus als Datenquelle für die Sozialwissenschaften, ZUMA-Nachrichten 24: 6-25. Hartmann, P.H. (1990): Wie repräsentativ sind Bevölkerungsumfragen? Ein Vergleich des ALLBUS und des Mikrozensus, ZUMA-Nachrichten 26: 7-30. Hartmann, H., Schimpl-Neimanns, B. (1992): Sind Sozialstrukturanalysen mit Umfragedaten möglich? Kölner Zeitschrift für Soziologie und Sozialpsychologie 44: 315-340. Heidenreich, H.-J. (1994): Hochrechnung des Mikrozensus ab 1990, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 112-123. Horvitz, D. G. & Thompson, D. J. (1952): A generalization of sampling without replacement from a finite universe, Journal of the American Statistical Association 47: 663 – 685. Kish, L. (1965): Survey Sampling, New York. Koch, A. (1991): Zum Zusammenhang von Interviewermerkmalen und Ausschöpfungsquoten, ZUMA-Nachrichten 28: 41-53. Koch, A. (1997): ADM-Design und Einwohnermelderegister-Stichprobe. Stichprobenverfahren bei mündlichen Bevölkerungsumfragen, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P. (Hrsg.): Stichproben in der Umfragepraxis, Opladen, 99-116.
107
Koch, A., Porst, R. (eds.) (1998): Nonresponse in Survey Research, ZUMA-Nachrichten Spezial 4, Mannheim. Koch, A., Wasmer, M., Harkness, J., Scholz, E. (2001): Konzeption und Durchführung der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften” (ALLBUS) 2000, ZUMA-Methodenbericht 2001/05, Mannheim.
Kostede, N. (1990): Der unerforschte Wähler, Die Zeit 48/1990, zit. nach: Bundeszentrale für politische Bildung - Online: http://www.bpb.de/popup_grafstat.html?url_guid=0QV1CL (URL vom 17.09.2004). Liebl, F. (1995): Simulation. Problemorientierte Einführung, 2. Auflage, München. Little, R.J.A., Rubin, D.B. (1987): Statistical analysis with missing data, New York. Lohr, S. (1999): Sampling: Design and Analysis, Pacific Grove, CA. Lorenc, B. (2003). Effectiveness of weighting by stratification on the propensity score using double samples. Research report 2003: 10, Department of statistics, University of Stockholm, zit. nach: http://gauss.stat.su.se/site/modernsurveys/modern21.pdf (URL vom 22.09.2004). Lorenc, B. (2004): Propensity score weighting with double samples: a simulation study. Research Report 2004: 22, Department of statistics, University of Stockholm, zit. nach: http://gauss.stat.su.se/site/modernsurveys/modern22.pdf (URL vom 22.09.2004). Merz, J. (1983): Die konsistente Hochrechnung von Mikrodaten nach dem Prinzip des minimalen Informationsverlustes, Allgemeines Statistisches Archiv 67: 342-366. Miller, T.W., Panjikaran, K.J. (2001): Studies in comparability: The Propensity Scoring Approach, A. C. Nielsen Center for Marketing Research, University of Wisconsin–Madison, Madison, WI. Mooney, Ch.Z. (1997): Monte Carlo Simulation, Sage University Paper series on Quantitative Applications in the Social Sciences, 07-116, Thousand Oaks, CA. N-Onliner Atlas (2004): Pressemitteilung vom 23.07.2004, zit. nach: http://www.nonliner-atlas.de/pdf/pressemitteilungen/ 2004_06_23_NONLINER_Atlas_zE.pdf (URL vom 22.09.2004). Neurath, P. (1962): Grundbegriffe und Rechenmethoden der Statistik für Sozialwissenschaftler, in: König, R. (Hrsg.): Handbuch der Empirischen Sozialforschung, Erster Band, Stuttgart, 241-308.
108
Noelle-Neumann, E., Petersen, Th. (1996): Alle, nicht jeder. Einführung in die Methoden der Demoskopie, München. Pischner, R. (1994): Quer- und Längsschnittgewichtung des Sozio-oekonomischen Panels, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 166-187. Projektbroschüre Perspektive Deutschland (2004): Pressemitteilung, zit. nach: http://www.perspektive-deutschland.de/files/presse_2004/Perspektive-Deutschland_Projektbroschuere_2004.pdf (URL vom 21.09.2004). Rösch, G. (1994): Kriterien einer nationalen Bevölkerungsstichprobe, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 7-26. Rosenbaum, P. R. (2002): Observational studies, 2nd ed., New York. Rosenbaum, P.R., Rubin, D.B. (1984): Reducing bias in observational studies using subclassification on the propensity score, Journal of the American Statistical Association 79: 516-524. Rosenbaum, P.R., Rubin, D.B. (1983): The central role of the propensity score in observational studies for causal effects, Biometrika 70: 41-55. Rothe, G. (1994): Wie (un)wichtig sind Gewichtungen? Eine Untersuchung am ALLBUS 1986, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 62-87. Rothe, G., Wiedenbeck, M. (1994): Stichprobengewichtung: Ist Repräsentativität machbar?, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 46-61. Särndal, C.-E., Swensson, B., Wretman, J. (1997): Model assisted survey sampling, 4th printing, New York. Scheuch, E. (1962): Auswahlverfahren in der Sozialforschung, in: König, R. (Hrsg.): Handbuch der Empirischen Sozialforschung, Erster Band, Stuttgart, 309-347. Schnell, R. (1993): Die Homogenität sozialer Kategorien als Voraussetzung für „Repräsentativität“ und Gewichtungsverfahren, Zeitschrift für Soziologie 22: 16-32. Schnell, R. (1997): Nonresponse in Bevölkerungsumfragen, Opladen. Schonlau, M., Zapert. K., Simon, L. P., Haynes-Sanstad, K., Marcus, S. M., Adams, J., Spranca, M. Kan, H., Turner, B., Berry, S. H. (2004): A comparison between responses from a propensity-weighted web survey and an identical RDD survey, Social Science Computer Review 22: 128-138. Schräpler, J.-P. (2000): Was kann man am Beispiel des SOEP bezüglich Nonresponse lernen?, ZUMA-Nachrichten 46: 117-149.
109
SPSS Inc. (2001a): SPSS for Windows, Version 11.0.1, Computer-Software, Chicago. SPSS Inc. (2001b): SPSS 11.0 Syntax Reference Guide, Chicago. Statistisches Bundesamt (1999): Demografische Standards, 3. Auflage, Wiesbaden. Statistisches Bundesamt (2001): Das Stichprobenverfahren der Einkommens- und Verbrauchsstichprobe 1998, Methodenberichte, Heft 1/2001, Wiesbaden. Ulmer, F. (1989): Der Lotteriecharakter des repräsentativen Querschnittes. Wahlprognosen und Meinungsumfragen und der Ablasshandel mit Prozentzahlen, Zeitschrift für Markt-, Meinungs- und Zukunftsforschung, 30/31, Tübingen. Wasmer, M., Koch, A., Wiedenbeck, M. (1991): Methodenbericht zur „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 1990, ZUMA-Arbeitsbericht 91/13, Mannheim.
110