Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable:...

45
Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West-Zugehörigkeit etc. Wir können jetzt nicht sagen „Wenn X um eine Einheit steigt, dann steigt/sinkt Y um die Steigung b“. Lösung „Konstruktion einer Dummyvariablen“. Diese weist eine Dummykodierung (0/1-Kodierung) auf z.B. der Form: Geschlecht: 0 = weiblich, 1 = männlich oder Geschlecht: 0 = männlich, 1 = weiblich Kategorie 0 = Referenzgruppe X 1 Y b

Transcript of Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable:...

Page 1: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen

bull Kategoriale X-Variable Geschlecht (maumlnnlich weiblich) Ost-West-Zugehoumlrigkeit etc

bull Wir koumlnnen jetzt nicht sagen bdquoWenn X um eine Einheit steigt dann steigtsinkt Y um die Steigung bldquo

bull Loumlsung bdquoKonstruktion einer Dummyvariablenldquo Diese weist eine Dummykodierung (01-Kodierung) aufzB der Form Geschlecht 0 = weiblich 1 = maumlnnlich

oder Geschlecht 0 = maumlnnlich 1 = weiblich

Kategorie 0 = Referenzgruppe

X1 Y b

PersonGeschlecht (xi)

original dummysiertMonatl Einkommen

(in 100 Euro) (yi)A 1 0 12B 1 0 24C 2 1 14D 1 0 26E 2 1 18F 1 0 28G 2 1 32H 2 1 16I 1 0 30J 2 1 20

Ein Beispiel X = Geschlecht Y = Einkommen (in 100 Euro)

1 bzw 0 = weiblich (Referenzgruppe) 2 bzw 1 = maumlnnlich

Das Streudiagramm X = Geschlecht

0 = weiblich (Referenzgruppe) 1 = maumlnnlich

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 0 12 -05 025 -10 -05 middot (-10) = 5B 0 24 -05 025 2 -05 middot 2 = -1C 1 14 05 025 -8 05 middot (-8) = -4D 0 26 -05 025 4 -05 middot 4 = -2E 1 18 05 025 -4 05 middot (-4) = -2F 0 28 -05 025 6 -05 middot 6 = -3G 1 32 05 025 10 05 middot 10 = 5H 1 16 05 025 -6 05 middot (-6) = -3I 0 30 -05 025 8 -05 middot 8 = -4J 1 20 05 025 -2 05 middot (-2) = -1

sum 5 220 0 250 0 -10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

Interpretation

bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf

bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)

Ergo iii x424xbay

Das Streudiagramm im umgekehrten Fall

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

0 = maumlnnlich (Referenzgruppe) 1 = weiblich

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1

sum 5 220 0 250 0 10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

Interpretation

bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf

bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)

Ergo iii x402xbay

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 2: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

PersonGeschlecht (xi)

original dummysiertMonatl Einkommen

(in 100 Euro) (yi)A 1 0 12B 1 0 24C 2 1 14D 1 0 26E 2 1 18F 1 0 28G 2 1 32H 2 1 16I 1 0 30J 2 1 20

Ein Beispiel X = Geschlecht Y = Einkommen (in 100 Euro)

1 bzw 0 = weiblich (Referenzgruppe) 2 bzw 1 = maumlnnlich

Das Streudiagramm X = Geschlecht

0 = weiblich (Referenzgruppe) 1 = maumlnnlich

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 0 12 -05 025 -10 -05 middot (-10) = 5B 0 24 -05 025 2 -05 middot 2 = -1C 1 14 05 025 -8 05 middot (-8) = -4D 0 26 -05 025 4 -05 middot 4 = -2E 1 18 05 025 -4 05 middot (-4) = -2F 0 28 -05 025 6 -05 middot 6 = -3G 1 32 05 025 10 05 middot 10 = 5H 1 16 05 025 -6 05 middot (-6) = -3I 0 30 -05 025 8 -05 middot 8 = -4J 1 20 05 025 -2 05 middot (-2) = -1

sum 5 220 0 250 0 -10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

Interpretation

bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf

bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)

Ergo iii x424xbay

Das Streudiagramm im umgekehrten Fall

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

0 = maumlnnlich (Referenzgruppe) 1 = weiblich

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1

sum 5 220 0 250 0 10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

Interpretation

bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf

bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)

Ergo iii x402xbay

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 3: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Das Streudiagramm X = Geschlecht

0 = weiblich (Referenzgruppe) 1 = maumlnnlich

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 0 12 -05 025 -10 -05 middot (-10) = 5B 0 24 -05 025 2 -05 middot 2 = -1C 1 14 05 025 -8 05 middot (-8) = -4D 0 26 -05 025 4 -05 middot 4 = -2E 1 18 05 025 -4 05 middot (-4) = -2F 0 28 -05 025 6 -05 middot 6 = -3G 1 32 05 025 10 05 middot 10 = 5H 1 16 05 025 -6 05 middot (-6) = -3I 0 30 -05 025 8 -05 middot 8 = -4J 1 20 05 025 -2 05 middot (-2) = -1

sum 5 220 0 250 0 -10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

Interpretation

bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf

bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)

Ergo iii x424xbay

Das Streudiagramm im umgekehrten Fall

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

0 = maumlnnlich (Referenzgruppe) 1 = weiblich

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1

sum 5 220 0 250 0 10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

Interpretation

bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf

bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)

Ergo iii x402xbay

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 4: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 0 12 -05 025 -10 -05 middot (-10) = 5B 0 24 -05 025 2 -05 middot 2 = -1C 1 14 05 025 -8 05 middot (-8) = -4D 0 26 -05 025 4 -05 middot 4 = -2E 1 18 05 025 -4 05 middot (-4) = -2F 0 28 -05 025 6 -05 middot 6 = -3G 1 32 05 025 10 05 middot 10 = 5H 1 16 05 025 -6 05 middot (-6) = -3I 0 30 -05 025 8 -05 middot 8 = -4J 1 20 05 025 -2 05 middot (-2) = -1

sum 5 220 0 250 0 -10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

Interpretation

bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf

bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)

Ergo iii x424xbay

Das Streudiagramm im umgekehrten Fall

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

0 = maumlnnlich (Referenzgruppe) 1 = weiblich

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1

sum 5 220 0 250 0 10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

Interpretation

bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf

bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)

Ergo iii x402xbay

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 5: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Interpretation

bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf

bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)

Ergo iii x424xbay

Das Streudiagramm im umgekehrten Fall

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

0 = maumlnnlich (Referenzgruppe) 1 = weiblich

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1

sum 5 220 0 250 0 10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

Interpretation

bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf

bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)

Ergo iii x402xbay

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 6: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Das Streudiagramm im umgekehrten Fall

1080604020

Geschlecht (dummysiert)

35

30

25

20

15

10

Ein

kom

men

(in

100

Eu

ro)

R-Quadrat linear = 0091

0 = maumlnnlich (Referenzgruppe) 1 = weiblich

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1

sum 5 220 0 250 0 10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

Interpretation

bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf

bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)

Ergo iii x402xbay

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 7: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Berechnung von a und b

Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )

A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1

sum 5 220 0 250 0 10

2210220y

y

50015x

x x y x

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

Interpretation

bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf

bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)

Ergo iii x402xbay

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 8: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Interpretation

bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf

bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)

Ergo iii x402xbay

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 9: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Wie sieht das Ganze in SPSS aus

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313

a Abhaumlngige Variable Einkommen (in 100 Euro)

Referenzgruppe = maumlnnlich

Referenzgruppe = weiblich

Koeffizienten (a)

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 10: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Wir fassen zusammen

004502

01

)x(x

)y)(yx(xb

2i

ii

24500)004(22xbya

004502

01

)x(x

)y)(yx(xb

2i

ii

2050000422xbya

bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau

bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau

Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau

Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo

yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x

50)yy(yya FrauMannGesamtFrau

FrauMann yyb

)yy(yy FrauMannFrauMann

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 11: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf

bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)

bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form

Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert

bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn

ndash wenn D2 oder D3 = 1 dann Unterschicht = 0

ndash wenn D2 und D3 = 0 dann Unterschicht = 1

1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 12: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Ein Beispiel X = Schichtzugehoumlrigkeit

Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)

PersonSchichtzuge-houmlrigkeit (xi)

original

Schichtzuge-houmlrigkeit (xi)dummysiert

Monatl Einkommen

(in 100 Euro)D1 D2 D3

A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 13: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Wir fassen zusammen

a Abhaumlngige Variable Einkommen (in 100 Euro)

Koeffizienten (a)

Modell

Nicht standardisierte Koeffizienten

Standardi-sierte

Koeffizien-ten T

Signifi-kanz

95-Konfidenz-intervall fuumlr B

BStandard-fehler Beta

Unter-grenze

Ober-grenze

1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-

schicht (D2)8333 1972 576 4226 004 3670 12996

Ober-schicht (D3)

15000 1972 1036 7606 000 10337 19663

yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2

150450252203015030833322xbxbya 2211

Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht

30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter

Referenzgruppe = Unterschicht

bzw

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 14: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz

Ergo a + bj = Mittelwert der Gruppe j

UnterMittel1 yyb

UnterOber2 yyb

)yy(yy UnterMittelUnterMittel

)yy(yy UnterOberUnterOber

Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch

kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 15: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Unterschied - Erweiterung des einfachen Regressionsmodell

Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1

ei = yi - yrsquoi

yi = b0 + b1 ∙ xi + ei

Streudiagramm Gerade im zweidimensionalen Raum

r2 (Determinationskoeffizient)r2

korr (hier nicht relevant)

r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint

Multiple RegressionYX1 X2 hellip Xn

Stichprobe b0 bzw aStichprobe b1 b2 hellip bj

Grundgesamtheit β0 β1 β2 hellip βj

ei = yi - yrsquoi

yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei

Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar

R2 (Multipler Determinationskoeffizient)R2

korr (hier relevant)

R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)

Standardfehler fuumlr a und bj

F-Test T-Test Konfidenzintervall

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 16: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Das Streudiagramm - Eine Ebene

yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2

Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird

2ie

In verkuumlrzter Schreibweise bzwXby

i eXby

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 17: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Matrizennotation der multiplen Regression

In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind

BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem

nnmmnjj2n21n10n

iimmijj2i21i10i

2m2mj2j22221102

1m1mj1j12211101

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

exbxbxbxbby

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 18: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Darstellbar als (Regressionsgleichung der Stichprobe)

mit

y = (n x 1)-Spaltenvektor

X = (n x m)-Beobachtungs- Messwertmatrix

b = (m x 1)-Spaltenvektor der Koeffizienten

e = (m x 1)-Spaltenvektor der Residuen

Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit

eXby

n

i

2

1

m

j

2

1

0

nm

m2

m1

nj1n

j221

j111

n

i

2

1

e

e

e

e

e

b

b

b

b

b

b

x

x

x

xx1

xx1

xx1

X

y

y

y

y

y

eXβy

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 19: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Was ist eine Matrix

Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX

333231

232221

131211

aaa

aaa

aaa

A

Ein Beispiel fuumlr eine Matrix

Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht

bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix

bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet

Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 20: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Was ist eine Matrix

Ein weiteres Beispiel fuumlr eine Matrix

Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip

Was ist ein Vektor

bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor

bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor

bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo

405

213A

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 21: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Was ist ein Vektor

Ein Beispiel fuumlr ein Vektor

Zeilenvektor (Matrix der Ordnung 1 x 3)

Spaltenvektor (Matrix der Ordnung 4 x 1)

987a

11

8

5

2

a

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 22: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Spezielle Matrizen

Quadratische Matrix(zB Korrelationsmatrix)

987

654

321

A

4764

7353

6522

4321

A

Symmetrische Matrix (zB Kovarianzmatrix)

4000

0300

0020

0001

A

Diagonalmatrix daalle Nicht-Diagonalelemente

gleich Null sind

1000

0100

0010

0001

I

Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente

gleich Null sind (zB sieht man oft (I-B-1))

1000

0100

0010

0001

3

3000

0300

0030

0003

A

Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente

gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar

3442

0351

0032

0003

A

Dreiecksmatrix da alle Elemente entweder uumlber (Obere

Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null

sind

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 23: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Wir kommen zur multiplen Regression zuruumlck

bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)

Xby

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)

Parameter-Matrix

iyy Anmerkung

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 24: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also

eXby

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 25: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Multiplikation von Matrizen

bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht

bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)

A B C

45

45

45

45

1

1

1

8492746

32644442

8734

0682

8216

514

632

(2 x 3) (3 x 4) (2 x 4)

a brsquo C

c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8

c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4

(3 x 1) (1 x 2) (3 x 2)

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 26: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

arsquo B crsquo

1215

75

47

13

111

(1 x 3) (3 x 2) (1 x 2)

c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12

3X2X1X

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

Die Gleichung der ersten Zeile lautet ausge-schrieben

Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor

31321211101 bxbxbxb1y

A b c

(3 x 4) (4 x 1) (3 x 1)

1

24

26

2

1

2

1

8734

0682

8216

c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 27: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Addition und Subtraktion von Matrizen

bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B

21

21

45

12

43

22

13

24

23

05

67

01

12

43

22

13

24

23

A B C A B C

(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)

n

i

2

1

3

2

1

0

3n2n1n

3i2i1i

232221

131211

n

i

2

1

e

e

e

e

b

b

bb

xxx

xxx

xxx

xxx

1

1

1

1

y

y

y

y

(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby

n

i

2

1

0

0

0

0

n

i

2

1

e

e

e

e

b)x(b

b)x(b

b)x(b

b)x(b

y

y

y

y

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 28: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Zum Abschluss noch weiteres Grundlegendes

Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so

entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist

121110

987

654

321

B

12963

11852

10741

B

Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1

- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 29: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Wir schauen und nun die Kennwerte der multiplen Regression an

bull R2 (Multipler Determinationskoeffizient)bull R2

korr (hier relevant) Diesen kennen wir bereits

bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a

bull Betaj ne r (standardisierter partieller b)

bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen

Regression Das wissen wir bereits bull Konfidenzintervall

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 30: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Multipler Determinationskoeffizient R2

Der Wertebereich ist [0 +1]

Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren

1JK

)R(1JRR

222

korr

Der korrigierte R2-Wert berechnet sich unveraumlndert

bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)

yxj

2 rsPearsonBetaationGesamtvari

VariationErklaumlrteR

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 31: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Multipler Korrelationskoeffizient R

yxj2 rsPearsonBetaRR

Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist

bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)

bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation

bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 32: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)

2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG

aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)

bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben

bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable

3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X

22x1x

22yx

2x1x2yx1yx2x1yx

r1r1

rrrr

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 33: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-

flusses aller anderen Variablen (hier X2) an

22x1x

2x1x2yx1yx2x1yx r1

rrrBeta

Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)

Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet

Partieller Regressionskoeffizient bj

x

yjj s

sBetab

y

xjj s

sbBeta

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 34: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

2211 xbxbya

Regressionskonstante a bzw b0

44332211 xbxbxbxbya

Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen

Bei 2 unabhaumlngigen Variablen

Bei 4 unabhaumlngigen Variablen

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)

bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)

xbya a in der einfachen Regression

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 35: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Beispiel metrische und kategoriale X-Variablen Y = Einkommen

bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)

bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 36: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Der Standardfehler von bj (sbj) =

Standardfehler

)r(1ns1JK

)y(y

bvonVarianz2

2X1X2x

2ii

neu

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 37: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Zur Erinnerung F-Test

F-Test in der multiplen Regressionsanalyse

bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0

bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)

Unveraumlnderte Formel

1)J(KVariationerklaumlrteNicht

JVariationErklaumlrteFempirisch

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 38: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Zur Erinnerung T-Test

T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-

parameter im Modell (b0 und bj) vorhanden sind

bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0

bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0

Unveraumlnderte Formel

bempirisch s

bt

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 39: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Zudem

Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind

Unveraumlnderte Formel

bb stbβstb

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 40: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Darstellung der Ergebnisse in der Praxis

- Ein paar Beispiele -

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 41: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 42: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 43: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 44: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse
Page 45: Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen Kategoriale X-Variable: Geschlecht (männlich, weiblich), Ost-/West- Zugehörigkeit.

Tabellarische Aufbereitung der Ergebnisse

bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR

Erlaumluterung unterhalb der Tabelle platziert

bull R2 bzw korrigiertes (adjusted) R2

bull N (in Tabelle oder Text)

bull Bei Dummyvariablen Referenzkategorie ausgewiesen

Signifikanzniveau Bedeutung Symbolisierung

p gt 005 nicht signifikant ns ns

p le 005 signifikant

p le 001 hoch signifikant

p le 0001 houmlchst signifikant

  • Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
  • Folie 2
  • Das Streudiagramm X = Geschlecht
  • Berechnung von a und b
  • Interpretation
  • Das Streudiagramm im umgekehrten Fall
  • Slide 7
  • Slide 8
  • Wie sieht das Ganze in SPSS aus
  • Folie 10
  • Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
  • Folie 12
  • Wir fassen zusammen
  • Folie 14
  • Unterschied - Erweiterung des einfachen Regressionsmodell
  • Das Streudiagramm - Eine Ebene
  • Matrizennotation der multiplen Regression
  • Folie 18
  • Was ist eine Matrix Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
  • Was ist eine Matrix
  • Was ist ein Vektor
  • Spezielle Matrizen
  • Wir kommen zur multiplen Regression zuruumlck
  • Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
  • Wir schauen und nun die Kennwerte der multiplen Regression an
  • Folie 30
  • Folie 31
  • Folie 32
  • Folie 33
  • Folie 34
  • Folie 35
  • Folie 36
  • Zur Erinnerung F-Test
  • Zur Erinnerung T-Test
  • Zudem
  • Darstellung der Ergebnisse in der Praxis - Ein paar Beispiele -
  • Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
  • Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
  • Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
  • Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
  • Tabellarische Aufbereitung der Ergebnisse