LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische...

Post on 05-Apr-2015

117 views 3 download

Transcript of LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische...

LOGISTISCHE REGRESSIONDatenauswertung

Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler. SISS No. 3/2010. Stuttgart (http://elib.uni-stuttgart.de/opus/volltexte/2011/6018/)

Wahrscheinlichkeiten Pi

0,01

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0,99

𝑃 (𝑌 𝑖 )

Wahrscheinlichkeiten und Gegenwahrscheinlichkeiten

iP

eitcheinlichkGegenwahrs

1

Pi 1-Pi

0,01 0,99

0,1 0,9

0,2 0,8

0,3 0,7

0,4 0,6

0,5 0,5

0,6 0,4

0,7 0,3

0,8 0,2

0,9 0,1

0,99 0,01

Wahrscheinlichkeit P → Odds (Chancen)

𝑂𝑑𝑑𝑠 (𝑌 )= 𝑃(1−𝑃)

Wahrscheinlichkeiten, Gegenwahrscheinlichkeiten

und Odds

Pi 1-Pi Odds

0,01 0,99 0,010

0,1 0,9 0,111

0,2 0,8 0,250

0,3 0,7 0,429

0,4 0,6 0,667

0,5 0,5 1,000

0,6 0,4 1,500

0,7 0,3 2,333

0,8 0,2 4,000

0,9 0,1 9,000

0,99 0,01 99,000

Odds

Wahrscheinlichkeit P → Odds (Chancen)

Odds → Logits (logged odds)

𝑂𝑑𝑑𝑠 (𝑌 )= 𝑃(1−𝑃)

𝑙𝑜𝑔𝑖𝑡 (𝑌 )=ln𝑂𝑑𝑑𝑠 (𝑌 )

𝑙𝑜𝑔𝑖𝑡 (𝑌 )=ln( 𝑃(1− 𝑃) )

Pi 1-Pi Odds Logit

0,01 0,99 0,010 -4,595

0,1 0,9 0,111 -2,197

0,2 0,8 0,250 -1,386

0,3 0,7 0,429 -0,847

0,4 0,6 0,667 -0,405

0,5 0,5 1,000 0,000

0,6 0,4 1,500 0,405

0,7 0,3 2,333 0,847

0,8 0,2 4,000 1,386

0,9 0,1 9,000 2,197

0,99 0,01 99,000 4,595

Wahrscheinlichkeiten, Gegenwahrscheinlich-

keiten, Odds und logged Odds (logits)

= ln ()

Wahrscheinlichkeit p0 ≤ p ≤ 1

Odds p/(1-p)0 ≤ p/(1-p) ≤ + ∞

Logit ln(odds) = ln(p/(1-p))− ∞ ≤ ln(p/(1-p)) ≤ + ∞

Wahrscheinlichkeit p0 ≤ p ≤ 1

Odds p/(1-p)0 ≤ p/(1-p) ≤ + ∞

Logit ln(odds) = ln(p/(1-p))− ∞ ≤ ln(p/(1-p)) ≤ + ∞

Eigenschaften von Logarithmen (logged odds = logits)

Wahrschein-Lichkeit p Odds p(1-p) Logits ln(p/(1-p))

Ereignis P ist unwahr-scheinlicher als das Gegenereignis ¬P

0 < p < 0.5 0 < odds < 1 - ∞ < logit < 0

Gleichwahrschein-lichkeit von P und ¬P

p = 0.5 odds = 1 logit = 0

Ereignis P ist wahr-scheinlicher als das Gegenereignis ¬P

0.5 < p < 1 1 < odds < + ∞ 0 < logit < + ∞

i

i

P

P

Oddslogit

1ln

ln

Pi Δ(Pi+0.1) Logit Δ(logit)

0,1 -2,197

0,2 0,1 -1,386 -0,811

0,3 0,1 -0,847 -0,539

0,4 0,1 -0,405 -0,442

0,5 0,1 0,000 -0,405

0,6 0,1 0,405 -0,405

0,7 0,1 0,847 -0,442

0,8 0,1 1,386 -0,539

0,9 0,1 2,197 -0,811

Wahrscheinlichkeiten, Gegenwahrscheinlich-

keiten, Odds und logged Odds (logits)

Die logits sind eine lineare Funktion der Prädiktoren (unabhängigen Variablen).

Veränderung von X um eine Einheit der logit(Y) verändert sich um b

KKxbxbxbcY 2211)(logit

Pointe:

Logistische Regressionsmodelle schätzen die lineare Wirkung der Prädiktoren auf logits (logarithmierten Odds) an Stelle der nichtlinearen Wirkung der Prädiktoren auf die Wahrscheinlichkeit eines Ereignisses.

Aus den logits können wieder (vorhergesagte) Odds berechnet werden

KK xbxbxbc

Y

eY

eY

22111

1

)(odds

)(odds )(logit

Interpretation der Regressionskoeffizienten in der logistischen Regression:Wenn die unabhängige Variablen x um eine Einheit steigt, verändert sich der Logit-Wert der abhängigen Variable y um b. Die Chance für (Y=1) verändert sich um den Faktor eb

Eb wird auch Effektkoeffizient genannt und ist eine odds ratio (Verhältnis der odds für x und x+1)

Aus den logits können auch wieder (vorhergesagte) Wahrscheinlichkeiten berechnet werden

)1(

)()1(

2211

2211

KK

KK

xbxbxbc

xbxbxbc

e

eYP

Logits, Odds und Wahrscheinlichkeiten

e iixbc

i

i

P

P 1

)1(

)(ii

ii

xbc

xbc

i e

eP

)(

)(i

i

logit

logit

e

eP i

1

„It is important to understand that the probability, the odds, and the logit are three different ways of expressing exactly the same thing. … Of the three measures, the probability or the odds is probably the most easily understood. Mathematically, however, the logit form of the probability is the one that best helps us to analyze dichotomous dependent variables. (Menard 2010, p. 15)

Menard, Scott (2010). Logistic Regression. From Introductory to Advanced Concepts and Applications. Los Angeles, CA: Sage.

Logit eLogit 1+eLogit Pi

-4,595 0,010 1,010 0,010

-2,197 0,111 1,111 0,100

-1,386 0,250 1,250 0,200

-0,847 0,429 1,429 0,300

-0,405 0,667 1,667 0,400

0,000 1,000 2,000 0,500

0,405 1,500 2,500 0,600

0,847 2,333 3,333 0,700

1,386 4,000 5,000 0,800

2,197 9,000 10,000 0,900

4,595 99,000 100,000 0,990

Logits und Wahrscheinlichkeiten

e ixbc

i

i

P

P 1

1

)1(

)(1

1

i

i

xbc

xbc

i e

eP

)1(

)(i

i

L

L

i e

eP

Pointe:

Logistische Regressionsmodelle schätzen die lineare Wirkung der Prädiktoren auf logits (logarithmierten Odds) an Stelle der nichtlinearen Wirkung der Prädiktoren auf die Wahrscheinlichkeit eines Ereignisses.

Die Beziehungen zwischen Prädiktoren und Logits, Odds und Wahrscheinlichkeiten

Logits linear additiv nicht intuitiv interpretierbarOdds linear multiplikativ intuitiv interpretierbarWahrscheinlichkeiten nicht linear multiplikativ intuitiv interpretierbar

Von logits zu Odds im multivariaten Modell

22111ln xbxbc

P

P

eexbxbc

P

P22111

ln

eeexbxbc

P

P 2211

1

-10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1 Logistische Regression: Effekte unterschiedlicher Konstanten

-4-2024

P(y=

1)

-10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Logistische Regression: Effekte unterschiedlicher Koeffizienten

0,250,5124

-10

-9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Logistische Regression: Effekte des Vorzeichens der Koeffizienten bei unterschiedlichen Konstanten

c=0 und b=0

c=-1 und b=0,5

c=1 und b=-0,25

c=0 und b=-0,5

c=0 und b=0,25

Der exponenzierte Koeffizient minus 1 und mit 100 multipliziert gibt an, um wie viel Prozent sich die Chancen (odds) verändern, wenn sich die unabhängige Variable um eine Einheit ändert.

1001

1001

*odds%

*%

be