Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0607/01/06.pdf · Data...

39
Analyse von Querschnittsdaten Drittvariablenkontrolle

Transcript of Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0607/01/06.pdf · Data...

Analyse von Querschnittsdaten

Drittvariablenkontrolle

Warum geht es in den folgenden Sitzungen?

Kontinuierliche Variablen

Deskriptive Modelle

kategoriale VariablenLogistische Regression07.02.2007

Regression mit Dummy-Variablen31.01.2007

Heteroskedastizität24.01.2007

Spezifikation der Regressionsfunktion17.01.2007

Spezifikation der unabhängigen Variablen10.01.2007

Signifikanztests II20.12.2006

Signifikanztests I13.12.2006

Statistische Inferenz06.12.2006

Multiple Regression29.11.2006

Kontrolle von Drittvariablen22.11.2006

Bivariate Regression15.11.2006

Variablen08.11.2006

Daten25.10.2006

Beispiele18.10.2006

Einführung18.10.2006

VorlesungDatum

Gliederung

1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen4. Regression und Korrelation

Wie hat sich die Arbeitslosigkeit verändert?

• Nürnberg, 3. November 2004, rb/rtr/dpa: Wie die Bundesagentur für Arbeit mitteilte, waren im Oktober bundesweit rund 4,206 Millionen Erwerbslose registriert. Dies seien 50.100 weniger gewesen als im September, aber 55.300 mehr als vor einem Jahr.

1. Welcher der beiden Vergleiche ist aussagekräftiger?

2. Warum ist das ein Beispiel für die Kontrolle von Drittvariablen?

Drittvariablenkontrolle• Ausgangssituation

– Es existiert ein statistischer Zusammenhang zwischen zwei Variablen x und y.

– Es gibt eine Alternativerklärung für den Zusammenhang (eine dritte Variable z).

• Analyseproblem– Wie kann man den Zusammenhang zwischen x und y

„frei“ von Einflüssen von z untersuchen?• Lösung

– Man betrachtet den Zusammenhang zwischen x und yunter Konstanthaltung von z.

Gliederung

1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen

a. Konstanthaltung von z: Kendall-Lazarsfeld-Ansatz

3. Kontinuierliche Variablen4. Regression und Korrelation

Beispiel 1: Jugenddelinquenz

100%(981)

100%(391)

100%(590)Insgesamt

50%41%56%nein

50%59%44%ja

InsgesamtjaneinDelinquenz

Berufstätigkeit der Mutter

Beispiel 1: Jugenddelinquenz• Daten: leicht abgewandelt aus Glueck, S. /

Glueck, E. (1950): Unraveling juvenil delinquency. Cambridge, MA

• Ausgangssituation– Kinder berufstätiger Mütter werden häufiger straffällig.– Erklärung: mangelnde Betreuung durch Abwesenheit

der Mutter im Falle von Berufstätigkeit.• Alternativerklärung

– Auch eine berufstätige Mutter kann ihre Kinder angemessen betreuen, die reine zeitliche Abwesenheit ist nicht entscheidend.

– Indikator: Aussagen über das Verhältnis zur Mutter.

Kontrolliere Kontakt mit Mutter

Kontakt: schlecht

100%(375)

100%(226)

100%(149)Insg.

16%17%15%nein

84%83%85%ja

Insg.janeinDelin-quenz

Berufstätigkeit der Mutter

Kontakt: gut

100%(606)

100%(165)

100%(441)Insg.

70%73%69%nein

30%27%31%ja

Insg.janeinDelin-quenz

Berufstätigkeit der Mutter

Gliederung

1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen

a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen?

b. Auspartialisierung von z: Berechnung „zu Fuß“c. Trivariate Regression: analytische Lösung

4. Regression und Korrelation

Bivariater Zusammenhang

Ein

kom

men

Ausbildungsdauer

Beispiel 2: Einkommen• Ausgangssituation

– Mit zunehmender Ausbildungsdauer beobachtet man höhere Einkommen

– Erklärung: Humankapitaltheorie.• Alternativerklärung

– Einkommen bemessen sich an der Produktivität der Personen.

– Fähigere Personen erzielen höhere Einkommen.– Indikator: Ergebnisse eines Intelligenztestes.

• Beispiel 2 verwendet zu Demonstrations-zwecken simulierte Daten.

Wie unterscheiden sich die Personen nach Intelligenz

IQ = 130

IQ = 110

IQ = 90

IQ = 70

Ein

kom

men

Ausbildungsdauer

Bei gleicher Ausbildungsdauer (s. rote Linie) werden intelligentere Personen besser entlohnt.

Wie kann man sich die Kontrolleeiner Drittvariablen vorstellen?

IQ = 130

IQ = 110

IQ = 90

IQ = 70

Ein

kom

men

Ausbildungsdauer

Es werden getrennte Regressionsmodelle für Personen mit gleicher Intelligenz berechnet (Konstanthaltung von z).

Geringerer Ausbildungseffekt bei Kontrolle der Intelligenz

IQ = 130

IQ = 110

IQ = 90

IQ = 70

Ein

kom

men

Ausbildungsdauer

Vergleiche bivariate Regressionsgerade und Regressionsgeraden in den vier Subgruppen.

Beispiel 3: Erwerbseinkommen männlicher Arbeitnehmer

010

0020

0030

00M

onth

ly E

arni

ngs

8 10 12 14 16 18years of education

600

800

1000

1200

1400

Fitte

d va

lues

of m

onth

ly e

arni

ngs

8 10 12 14 16 18years of education

reale Daten, n=935, wage2.dtawage: Monatliches Nettoeinkommen in Dollar

educ: Ausbildungsdauer in JahrenIQ: Intelligenztestpunkte

vier Subgruppen: Quartile von IQ

Ausbildungseffekt geringer bei Kontrolle der Intelligenz

Variable Koeffizient KoeffizientAusbildung 60.21 42.06Intelligenz 5.14Konstante 146.95 -128.89R² 0.11 0.13n 935 935

600

800

1000

1200

1400

Fitte

d va

lues

of m

onth

ly e

arni

ngs

8 10 12 14 16 18years of education

Zum Vergleich: bivariate Regression

Zerlegung in Subgruppen ist ein Denkmodell!• Verwendung aus didaktischen Gründen• Wenn die dritte Variable kontinuierlich ist, hat sie

viele Ausprägungen und nicht nur vier.• Beispiel 3: Warum nur vier Gruppen (Quartile),

warum nicht zehn (Perzentile) oder mehr?• Je mehr Gruppen, desto weniger Fälle pro

Gruppe und desto weniger sinnvoll, pro Subgruppe ein Regressionsmodell zu rechnen.

Effizientere Kontrolle der Drittvariablen gesucht.

Gliederung

1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen

a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen?

b. Auspartialisierung von z: Berechnung „zu Fuß“c. Trivariate Regression: analytische Lösung

4. Regression und Korrelation

Einkommen hängt mit Ausbildung und mit Intelligenz zusammen

68

1012

1416

Ein

kom

men

6 8 10 12 14Ausbildung

68

1012

1416

Ein

kom

men

60 80 100 120 140Intelligenz

Problem: Ausbildungsdauer und Intelligenz sind korreliert

IQ = 130

IQ = 110

IQ = 90

IQ = 70

Ein

kom

men

Ausbildungsdauer

Bivariater Effekt der Ausbildung misst Effekt der Intelligenz mit. Gesucht: Über-bzw. unterdurchschnittliche Ausbildungsdauer für ein gegebenes Intelligenzniveau

Regression von Ausbildung auf Intelligenz

68

1012

14A

usbi

ldun

gsda

uer

60 80 100 120 140Intelligenz

Residuen dieser Regression zeigen, welche Ausbildungsdauer bei einem gegebenen Intelligenzniveau über- bzw. unterdurchschnittlich ist.

Regression der Einkommen auf die Residuen der Ausbildungsdauer

68

1012

1416

Ein

kom

men

-2 -1 0 1 2Bereinigte Ausbildungsdauer

Durch Verwendung der Residuen wird der Effekt der Intelligenz „auspartialisiert“.

Zusammenfassung1. reg x z

2. predict rx, residuals

3. reg y rx

4. reg y x z

intelleducgeaw

rgeawry

ucdeeducr

intellucde

zx

educ

x

educ

⋅+⋅+−=

⋅+=

−=

⋅+=

065,07,015,2ˆRegression triviate:Vergleich Zum4.

ˆ7,011ˆˆ auf von Regression 3.

ˆˆ

Residuender n Abspeicher undBerechnen 2.5,05,4ˆ

auf von Regression 1.

Auf beiden Wegen erhält man den gleichen Regressionskoeffizienten für x (educ).

Formeln

)~~(ˆˆ

: auf von Regressionder Residuum

)(

))((~

ˆ

)(ˆˆ

bivariat :Vergleich zumtrivariat

2101111

21

1

2

11

1

21

11

1

11022110

iiiii

n

ii

n

iii

n

ii

n

iii

iiiii

xxxxr

xx

xx

yyxx

r

yyr

rxyrxxy

δδ

ββ

βββββ

+−=−=

−−=

−=

++=+++=

=

=

=

=

Gliederung

1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen

a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen?

b. Auspartialisierung von z: Berechnung „zu Fuß“c. Trivariate Regression: analytische Lösung

4. Regression und Korrelation

Kleinste-Quadrate Methode

0)ˆˆˆ(

0)ˆˆˆ(

0)ˆˆˆ(1

:nAbleitunge partielle Bilde

)ˆˆˆ( Minimiere

ˆˆˆˆ :Regression Trivariate

)ˆ( minimiere :Allgemein

1221102

1221101

122110

1

222110

22110

1

2

=−−−⋅

=−−−⋅

=−−−⋅

−−−=

++=

−=

=

=

=

=

=

n

iiiii

n

iiiii

n

iiii

n

iiii

iii

n

iii

xxyx

xxyx

xxy

xxySSR

xxy

yySSR

βββ

βββ

βββ

βββ

βββ

Die sogenanntenNormalgleichungen bilden ein Gleichungssystem mit drei Unbekannten:

210ˆ,ˆ,ˆ βββ

Gliederung

1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen4. Regression und Korrelation

Korrelation und Regression

⎟⎟⎠

⎞⎜⎜⎝

⎛⋅=⎟

⎟⎠

⎞⎜⎜⎝

⎛⋅+⎟

⎟⎠

⎞⎜⎜⎝

⎛⋅=

=−

−+=

⋅=⋅−

−=

y

xyxxy

y

xyx

y

xyxxxy

yxxyxx

xxyxyxyxyxxxy

x

yyx

x

y

xx

xxyxyx

yxxxyxyx

ss

rRss

rss

rR

rRr

rrrrrR

ss

rss

rrrr

rrrr

1

11

2

2

1

121

11

21

212121

21

1

1

121

2121

12121

12.21

2.

22.2

222.

121

~ˆˆ

12

~1

ˆ

,,

bivariat :Vergleich zumtrivariat

βββ

ββ

Wann ist der bivariate gleich dem trivariaten Regressionskoeffizienten?

1

1

121

2121121

~1

ˆ

bivariat :Vergleich zumtrivariat

x

yyx

x

y

xx

xxyxyx

ss

rss

rrrr

⋅=⋅−

−= ββ

• Die beiden unabhängigen Variablen x1 und x2korrelieren nicht miteinander.

• Beispiel: Einkommen als Funktion von Ausbildung und Körpergröße (Korrelation Ausbildung-Größenull).

Kann der bivariate Koeffizient positiv und der trivariate negativ sein?

1

1

121

2121121

~1

ˆ

bivariat :Vergleich zumtrivariat

x

yyx

x

y

xx

xxyxyx

ss

rss

rrrr

⋅=⋅−

−= ββ

• Das Produkt dieser Korrelationen ist positiv und betragsmäßig größer als die bivariate Korrelation.

• Frage: Was müsste man an Beispiel 1 ändern?

Ein

kom

men

Ausbildungsdauer

Determinationskoeffizient entspricht nicht der Summe der R²-Werte

Variable Koeffizient Koeffizient KoeffizientAusbildung 60.21 42.06Intelligenz 8.30 5.14Konstante 146.95 116.99 -128.89R² 0.11 0.10 0.13n 935 935 935

13,052,01

52,031,033,0231,033,0

12

2

222.

2

222.

21

21

212121

21

≈−

⋅⋅⋅−+=

−+=

xxy

xx

xxyxyxyxyxxxy

R

rrrrrr

R

Einzeln und gemeinsam erklärte Varianz

Gesamtvarianz von y

von x2 erklärte Varianz

von x1 erklärte Varianz

von x1 und x2

erklärte Varianz

y

x1 x2

Konsequenzen

• Der Determinationskoeffizient des trivariaten Modells entspricht nur dann der Summe der bivariaten R², wenn x1 und x2unabhängig sind.

• Im allgemeinen Fall hängt die Zunahme des R²–Wertes vom bivariaten zum trivariaten Modell davon ab, welche Variable (x1 oder x2) zuerst betrachtet und welche dann hinzugefügt wird.

Zum Schluss

Literatur• Wooldridge, J. (2003): Introductory econometrics: a

modern approach. South Western College Publishing.– Kapitel 3 diskutiert sowohl das trivariate als auch das allgemeine

multiple Regressionsmodell. Lesen Sie nur die Passagen (WO 68-84), die sich auf den deskriptiven Teil der Regressionsanalyse beziehen.

• Bohrnstedt, G.W. / Knoke, D. (1994): Statistics for SocialData Analysis. 3rd edition. Itasca, Ill: Peacock– Der Zusammenhang zwischen Korrelation und multipler

Regression lässt sich am besten bei BK (Kapitel 8) nachlesen.• Kühnel, S.M. / Krebs, D. (2001): Statistik für die

Sozialwissenschaften. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt– Kapitel 15 demonstriert die Kontrolle von Drittvariablen bei

kategorialen Daten mit dem Kendall-Lazarsfeld-Ansatz.

Zusammenfassung

Bivariater und trivariater Regressionskoeffizient können voneinander abweichen.

Achtung I

Konstanthaltung von Drittvariablen funktioniert als Denkmodell, praktisch werden Drittvariablen jedoch durch Auspartialisierung kontrolliert.

Kontinuierliche Variablen

Betrachtung von Subgruppen, innerhalb derer die Drittvariable konstant ist.

Kategoriale Variablen

Überprüfung von Alternativerklärungen durch Konstanthaltung dieser Variablen

Kontrolle von Drittvariablen

Bereinigung einer unabhängigen Variablen xk um die Einflüsse der anderen unabhängigen Variablen.

Auspartialisierung

Trivariater Determinationskoeffizient ergibt sich nicht einfach aus der Summe der bivariatenDeterminationskoeffizienten.

Achtung II

Wichtige Fachausdrücke

partialling outAus-partialisierung

EnglischDeutschEnglischDeutsch

Stata-Befehle

Nach dem Regressionskommando kann man mit dem predict-Befehl verschiedene interne Regressionsergebnisse abrufen.

Berechnung der Residuen und Abspeichern in neuer Variablen yres

predict yres, residuals

Berechnung der Prognosen und Abspeichern in neuer Variablen yhat

predict yhat, xb

Regression von y auf x und z(Kleinste-Quadrate Methode)

reg y x z

Korrelation von y, x und zcorr y x z