Analyse von Querschnittsdaten -...

37
Analyse von Querschnittsdaten Bivariate Regression

Transcript of Analyse von Querschnittsdaten -...

Page 1: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Analyse von Querschnittsdaten

Bivariate Regression

Page 2: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Warum geht es in den folgenden Sitzungen?

Kontinuierliche Variablen

Deskriptive Modelle

kategoriale VariablenLogistische Regression02.02.2005

Regression mit Dummy-Variablen26.01.2005

Heteroskedastizität19.01.2005

Spezifikation der Regressionsfunktion12.01.2005

Spezifikation der unabhängigen Variablen22.12.2004

Signifikanztests II15.12.2004

Signifikanztests I08.12.2004

Statistische Inferenz01.12.2004

Multiple Regression24.11.2004

Kontrolle von Drittvariablen17.11.2004

Bivariate Regression10.11.2004

Variablen03.11.2004

Daten27.10.2004

Beispiele20.10.2004

Einführung13.10.2004

VorlesungDatum

Page 3: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Gliederung

1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate

Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation

Page 4: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Gliederung

1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate

Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation

Page 5: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Zielsetzung• Finde eine Statistik, die das Typische der

vorliegenden Daten beschreibt, so dass die einzelnen Daten möglichst wenig von dieser Statistik abweichen.

• einzelne Zielvariable y (unbedingte Verteilung)– y = typisch + Rest

• Zusammenhang mit einer anderen Variablen x(bedingte Verteilung)– y = typisch|x + Rest

• Die Reste werden auch als Residuen r bezeichnet, die typischen Werte auch als Prognosen y

Page 6: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Beispiel 1: Was ist das Typische der folgenden Stimmenanteile der CDU?

• Sie betragen im Durchschnitt 43,96%.

• Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal.

• Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist.

• Definition Abweichung: quadrierte Differenz (xi – 43,96)².

• Statistik: arithmetisches Mittel

Neuwied 44.21Ahrweiler 50.13Koblenz 46.60Cochem 50.94Bad Kreuznach 39.10Bitburg 52.68Trier 44.82Montabaur 43.42Mainz 40.86Worms 37.99Frankenthal 39.71Ludwigshafen 40.86Neustadt-Speyer 46.48Kaiserslautern 37.68Pirmasens 42.79Südpfalz 45.09

Page 7: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Beispiel 2: Was ist das Typische der folgenden Stimmenanteile der CDU?

• Die Hälfte der Wahlkreise hat einen Stimmenanteil unter 44,21%

• Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal.

• Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist.

• Definition Abweichung: absolute Differenz |xi – 44,21|.

• Statistik: Median

Kaiserslautern 37.68Worms 37.99Bad Kreuznach 39.10Frankenthal 39.71Mainz 40.86Ludwigshafen 40.86Pirmasens 42.79Montabaur 43.42Neuwied 44.21Trier 44.82Südpfalz 45.09Neustadt-Speyer 46.48Koblenz 46.60Ahrweiler 50.13Cochem 50.94Bitburg 52.68

Page 8: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Beispiel 3: Was ist je nach Katholiken-anteil das Typische?

3540

4550

55C

DU

-Ant

eil i

n %

20 40 60 80 100Katholikenanteil in %

Wahlkreis Katholiken CDUNeuwied 55.55 44.21Ahrweiler 81.99 50.13Koblenz 73.14 46.60Cochem 70.78 50.94Bad Kreuznach 32.60 39.10Bitburg 91.40 52.68Trier 87.97 44.82Montabaur 50.76 43.42Mainz 51.36 40.86Worms 32.81 37.99Frankenthal 31.98 39.71Ludwigshafen 38.01 40.86Neustadt-Speyer 45.61 46.48Kaiserslautern 34.89 37.68Pirmasens 45.98 42.79Südpfalz 55.07 45.09

Page 9: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Gliederung1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate Regression)

a. Annahmenb. Minimierungsfunktion

• Kleinste-Quadrate Methode• Kleinste-Absolutwerte Methode

c. Regressionskoeffizientend. Determinationskoeffiziente. Interpretation

3. Nicht-lineare Beziehungen4. Regression und Korrelation

Page 10: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Annahmen

• y und x sind kontinuierliche Variablen im mathematischen Sinne– Wertebereich von -∞ bis +∞– Zwischen zwei Werten a<b ist auch jeder

Zwischenwert im Intervall [a, b] möglich, sei dieses Intervall auch noch so klein.

• Linearer Zusammenhang–

– β0 und β1 heißen RegressionskoeffizientenrxryRestxtypischy ++=+=+= 10ˆ| ββ

Page 11: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Minimierungsfunktion

• Berechne die typischen Werte als lineare Funktion von x; und zwar so, dass

• Möglichkeit A:– die Summe der quadrierten Reste minimal ist

(Kleinste-Quadrate Methode)• Möglichkeit B:

– die Summe der Absolutwerte der Reste minimal ist (Kleinste-Absolutwerte Methode)

Page 12: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Kleinste-Quadrate Methode (1)

• Regressionskoeffizienten, Prognosen und Residuen errechnen sich wie folgt:

iii

ii

x

yxn

ii

n

iii

yyrxy

xy

SAQSAP

xx

yyxx

ˆ

ˆˆˆ

ˆˆ

)(

))((ˆ

10

10

1

2

11

−=+=

−=

=−

−−=

=

=

ββ

ββ

β

Page 13: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Beispiel 3: Arbeitstabelle

3,3399,54194,096,43ˆ

194,072,613607,1189ˆ

0

1

=⋅−=

==

β

β

Page 14: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Kleinste-Quadrate Methode (2)

• Der Determinations-koeffizient errechnet sich wie folgt:SST total sum of squaresSSE explained sum of squaresSSR residual sum of squares

SSTSSR

SSTSSER

SSRSSESST

ryySSR

yySSE

yySST

n

ii

n

iii

n

ii

n

ii

−==

+=

=−=

−=

−=

∑∑

==

=

=

1

)ˆ(

)ˆ(

)(

2

1

2

1

2

1

2

1

2

Page 15: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Beispiel 3: Arbeitstabelle

73,096,31596,230.2 ====

y

y

SAQSAQE

SSTSSER

Page 16: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Output eines Statistik-Programms

. reg cdu kathol

Source | SS df MS Number of obs = 16-------------+------------------------------ F( 1, 14) = 37.75

Model | 230.42425 1 230.42425 Prob > F = 0.0000Residual | 85.4443289 14 6.10316635 R-squared = 0.7295

-------------+------------------------------ Adj R-squared = 0.7102Total | 315.868579 15 21.0579053 Root MSE = 2.4705

------------------------------------------------------------------------------cdu | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------kathol | .1937741 .0315362 6.14 0.000 .1261357 .2614125_cons | 33.30363 1.840984 18.09 0.000 29.35512 37.25215

------------------------------------------------------------------------------

10ˆˆ ββ

SSESSRSST 2R

Page 17: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Interpretation•

• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet.

• 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden.

• Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.

• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.

729,0,16194,03,33ˆ 2 ==⋅+= RnKatholikenUDC

Page 18: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Das Typische der Daten•

• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet.

• 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden.

• Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.

• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.

729,0,16194,03,33ˆ 2 ==⋅+= RnKatholikenUDC

Page 19: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Passung (Fit) der Beschreibung•

• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet.

• 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden.

• Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.

• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.

729,0,16194,03,33ˆ 2 ==⋅+= RnKatholikenUDC

Page 20: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Nachtrag Kleinste Absolutwerte•

• Eine andere Minimierungsfunktion liefert einen leicht veränderten Zusammenhang.

• Kleinste-Quadrate Methode wird üblicherweise vorgezogen, weil die Kleinste-AbsolutwerteMethode Nachteile hat:– keine analytische Lösung (iterative Berechnung

notwendig)– inferenzstatistische Eigenschaften nicht so gut

5724,0,16215,05,32ˆ 2 ==⋅+= RnKatholikenUDC

Page 21: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Was erklärt die Unterschiede?35

4045

5055

CD

U-A

ntei

l in

%

20 40 60 80 100Katholikenanteil in %

Kleinste Quadrate

Kleinste Absolutwerte

Page 22: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Gliederung

1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate

Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation

Page 23: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Linearität

• Der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.

Unabhängigkeit von der Größe von x

05

1015

20y

0 1 2 3 4 5x

0.5

11.

52

2.5

y

0 1 2 3 4 5x

nicht-linear: y = √(x)

linear: y = 2 + 3*x

Page 24: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Beispiel 4: Absentismus

• Es werden insgesamt 12 Beschäftigte untersucht. Folgende Variablen wurden erhoben:y: Anzahl der Tage, an denen die Person fehlte. x1: (Negative) Einstellung gegenüber dem Betrieb

(1=sehr positiv, 13=sehr negativ). x2: Beschäftigungsdauer in dem Betrieb in Jahren. x3: Nettoeinkommen in DM. x4: Anforderungen der ausgeübten Tätigkeit (1=niedrig,

2=schwierig).

Page 25: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Überblick über die Daten

AnzahlFehltage

NegativeEinstellungzu Betrieb

Beschaeftigungsdauerin Jahren

Nettoeinkommenin Euro

Anforderungender

Taetigkeit

0

5

10

15

0 5 10 15

0

5

10

0 5 10

0

5

10

0 5 10

2000

3000

4000

5000

2000 3000 4000 5000

0

5

10

0 5 10

Page 26: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Lineare Einfachregressionen

Regression R2 Konstante Steigung Variable x

y mit x1 0,90 -2,31 1,37 NEGATIVy mit x2 0,79 -1,72 1,62 DAUERy mit x3 0,92 25,20 -0,0053 EINKOMMy mit x4 0,001 6,71 -0,08 ANFORD

Page 27: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Nicht-linearer Zusammenhang

05

1015

Anz

ahl F

ehlta

ge

2 4 6 8 10Anforderungen der Taetigkeit

Page 28: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Gliederung

1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate

Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation

Page 29: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Kovarianz

1

))((),Cov( 1

−−=∑=

n

yyxxyx

n

iii

Page 30: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Korrelationskoeffizient• Kovarianz ist um so größer, je mehr die beiden Variablen

x und y streuen.• Korrelationskoeffizient (nach Pearson) ist eine

standardisierte Kovarianz

yx

xy

n

i

n

iii

n

iii

n

ii

n

ii

n

iii

yx SAQSAQSAP

yyxx

yyxx

n

yy

n

xx

n

yyxx

ssyxr

⋅=

−−

−−=

−−

=⋅

=

∑ ∑

∑∑

= =

=

==

=

1 1

22

1

1

2

1

2

1

)()(

))((

1

)(

1

)(

1

))((

),Cov(

Page 31: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Korrelation und bivariate Regression

x

y

x

y

yx

yx

y

y

xx

yx

x

yx

yx

xy

ss

r

nSAQnSAQ

SAQSAQSAP

SAQ

SAQ

SAQSAQSAP

SAQSAP

SAQSAQSAP

r

=

−⋅=

⋅==

⋅=

1

ˆ

1

1

β

β

Page 32: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Korrelation und bivariate Regression

22

giltzienten ionskoeffiDeterminatden Für rR =

Page 33: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Zum Schluss

Page 34: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Literatur• Wooldridge, J. (2003): Introductory econometrics: a

modern approach. South Western College Publishing.

– Kapitel 2 gibt eine Einführung in die lineare Einfachregression. Allerdings beginnt Wooldridge sofort mit inferenzstatistischen Überlegungen und unterscheidet zwischen Grundgesamtheit und Stichprobe. Das werden wir erst in späteren Sitzungen behandeln. Wir betrachten Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen. Dies erklärt auch unsere leicht abweichende Notation (z.B. Residuum r statt Fehlerterm u). Bitte die entsprechenden Passagen (vor allem Abschnitt 2.5) zunächst ignorieren. Es genügt, die Abschnitte bis einschließlich 2.3 zu lesen (WO 22-41).

Page 35: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Zusammenfassung

ergibt sich aus Regressionskoeffizient durch Multiplikation mit den Standardabweichungen von xund y

Korrelation

überprüfe Annahme der Linearität durch Streudiagramm

Annahmen

mache eine möglichst gute Prognose von y für unterschiedliche Werte von x

BivariateAnalyse

• Summe der Quadrate der Abweichungen• Summe der Absolutwerte der Abweichungen

Minimierungs-funktion

finde eine Statistik, die die Daten gut beschreibt, d.h., von der die Einzelwerte möglichst wenig abweichen.

Analyseziel

der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.

Lineare Funktion

Regressionskoeffizienten, DeterminationskoeffizientRegression

Page 36: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Wichtige Fachausdrücke

coefficient of determination

Determinations-koeffizient

regressioncoefficient

Regressions-koeffizient

least absolute values (LAV)

Kleinste Absolutwerte

correlationcoefficient

Korrelations-koeffizient

(ordinary) least squares(OLS)

Kleinste Quadrate

EnglischDeutschEnglischDeutsch

Page 37: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen.

Stata-Befehle

Graphik linearer Regressiongraph twoway lfit y x

Regression von y auf x (Kleinste-Absolutwerte Methode)

qreg y x

Matrix von Streudiagrammen (jede Variable mit jeder anderen)

graph matrix x1-x5

Streudiagramm graph twoway scatter y x

Regression von y auf x (Kleinste-Quadrate Methode)

reg y x

Korrelation von y und xcorr y x

beides in einer Graphikgraph twoway scatter y x || lfit y x