Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression...

34
09.07.2010 1 Logistische Regression und Diskriminanzanalyse Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer Referenten: Nicole Jungbauer, Stephan Klewe, Daniela Kämpfer Gliederung 1) Logistische Regression 1.1 Der logistische Regressionsansatz 1.2 Vorgehensweise Modellformulierung Schätzung der logistischen Regressionsfunktion Interpretation der Regressionskoeffizienten Prüfung des Gesamtmodells Prüfung der Merkmalsvariablen Prüfung der Merkmalsvariablen 1.3 Fazit 2) Exkurs: Diskriminanzanalyse 3) Fallbeispiel

Transcript of Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression...

Page 1: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

1

Logistische Regression und

DiskriminanzanalyseDiskriminanzanalyse

Seminar: multivariate VerfahrenSeminarleiter: Dr. Thomas SchäferReferenten: Nicole Jungbauer, Stephan Klewe, Daniela Kämpfer

Gliederung

1) Logistische Regression

1.1 Der logistische Regressionsansatz1.2 Vorgehensweise

ModellformulierungSchätzung der logistischen Regressionsfunktion Interpretation der Regressionskoeffizienten Prüfung des Gesamtmodells Prüfung der Merkmalsvariablen Prüfung der Merkmalsvariablen

1.3 Fazit

2) Exkurs: Diskriminanzanalyse

3) Fallbeispiel

Page 2: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

2

Lernziele

1 Wann ist es sinnvoll die logistische Regression 1. Wann ist es sinnvoll, die logistische Regression zu benutzen und warum?

2. Welche Gütekriterien gibt es?

3. Welche Unterschiede gibt es zur Diskriminanz-analyse?

1) Die logistische Regression

Page 3: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

3

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Wiederholung: Prinzip einer Regression

Vorhersage von Y-Werten aus X-Werten

X-Werte Y-Werte

UV AVUV AV

Prädiktor(en) Kriterium

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

bisher:

lineare vs. nicht-lineare Regressionlinear multiple vs. nicht-linear multiple Regression

heute:

logistische Regression

Page 4: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

4

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Merkmale der Daten

AVUV

metrisch nominal/ kategorial

dichotom multinominal

nominal

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Beispiele

UV AV

Preis, Haltbarkeit, Streichfähigkeit, Geschmack etc.

Kauf vs. Nicht-Kauf einer Magarinesorte

Alter, Gewicht, Ernährung der normales Gewicht vs. h b bMutter etc. Untergewicht bei Geburt

eines Babys

Persönlichkeitsmerkmale Musikpräferenz für Klassik oder nicht

KodierungY = 0

(z.B. nicht Klassik)Y = 1

(z.B. Klassik)

Page 5: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

5

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Ziel

Ermitteln der Wahrscheinlichkeit des Eintretens einer bestimmten Ausprägung der AV (bzw. Zugehörigkeit zu einer Kategorie) in Abhängigkeit von den UVs

Beachte:Beachte:Wahrscheinlichkeit wird für die Ausprägung Y = 1 berechnet (z.B. Klassik)es gilt:

P(y = 0) + P(y = 1) = 1P(y = 0) = 1- P(y = 1)

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Gemeinsamkeiten mit der linearen Regressionsanalyse

gleiches Prinzip: Vorhersage einer AV mittels einer oder mehrerer UVs

Unterschiede zur linearen Regressionsanalyse

AV nicht metrisch, sondern nominal

keine Vorhersage tatsächlicher Werte bzw. Ausprägungen der AV, sondern deren Eintrittswahrscheinlichkeit

Page 6: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

6

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Bestimmung der Wahrscheinlichkeit

Annahme einer latenten Variablen Z als Linearkombination der UV (= aggregierte Einflussstärke, Logits)

Einflussgewichte der UV

Konstante Fehler

Z erzeugt die Ausprägung der AV nach folgender Vorschrift

Beobachtungsdaten einer Person

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Bestimmung der Wahrscheinlichkeit

um zu Wahrscheinlichkeitsaussagen zu gelangen, benötigt man eine Wahrscheinlichkeitsfunktion

(= logistische Funktion)

Page 7: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

7

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Verlauf der logistischen Funktion

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Ei h ft d l i ti h F ktiEigenschaften der logistischen Funktion

s-förmiger Verlauf

Wahrscheinlichkeit für Y = 1 liegt im Intervall [0,1]

symmetrisch um Wendepunkt P(y = 1) = 0,5

Page 8: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

8

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

W k i Li R i ?Warum nun keine Lineare Regression?

dichotome Ausprägung der AV

Verletzung der Normalverteilungsannahme der linearen Regression

unplausible Werte bei den Schätzergebnissen

1. Logistische Regression

1.1 Der Logistische Regressionsansatz

Anforderungen an die Daten

Fallzahl pro Gruppe > 25

je mehr UVs, desto mehr Beobachtungszahlen pro Gruppe erforderlich

Unkorreliertheit der UVs

ordinalskalierte UVs metrisieren od. auf Nominalskalen-niveau reduzieren

Page 9: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

9

1. Logistische Regression

1.2 Vorgehensweise

Modellformulierung

Schätzung der Logistischen Regressionsfunktion

Interpretation der Regressionskoeffizienten

Prüfung des Gesamtmodells

Prüfung der Merkmalsvariablen

1. Logistische Regression

1.2 Vorgehensweise

Modellformulierung

sachlogische Entscheidung über:

mögliche Ereignisse/Ausprägungen/Kategorien der AVEinflussgrößen (UV) auf Eintrittswahrscheinlichkeit der AV

Hypothesenformulierung:

keine „Je-desto-Hypothesen“ zwischen AV und UVsondern: zwischen UV und Eintrittswahrscheinlichkeit für die Ausprägung Y = 1 der AVAchtung: Wirkbeziehungen sind nicht-linear

Page 10: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

10

1. Logistische Regression

1.2 Vorgehensweise

Schätzung der Logistischen Regressionsfunktion

Parameter bj so bestimmen, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten, maximiert wird

Maximum-Likelihood-Methode (hier: Log-Likelihood-Funk-tion):

(Produkte der Likelihoods aller Fälle des Datensatzes, logarithmiert)

1. Logistische Regression

1.2 Vorgehensweise

S hät d L i ti h R i f ktiSchätzung der Logistischen Regressionsfunktion

Einsetzen der Einflussgewichte

Ei t d

Ziel:• Einordnung der Fälle in die jeweilige Kategorie der AV

Einsetzen des Z-Wertes • Konvention:

pk > 0,5 Zuordnung zu Y = 1pk < 0,5 Zuordnung zu Y = 0

Page 11: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

11

1.2 Vorgehensweise

1. Logistische Regression

Interpretation der Regressionskoeffizienten

Inhaltliche Interpretation schwierig, da kein linearer Zusammenhang zwischen UV und der Eintrittswkt.

Konsequenz:

- Regressionskoeffizienten untereinander nicht gvergleichbar

- Wirkung der UV über gesamte Breite ihrer Ausprägungen nicht konstant

1.2 Vorgehensweise

1. Logistische Regression

Interpretation der Schätzergebnisse: wenn X sich um eine Einheit erhöht, erhöht sich die Wkt. für Y auch, ist NICHT möglich!

linearer Zusammenhang nur für aggregierte Einflussstärke (z-Wert)

Sättigungseffekt bei logistischer RegressionSättigungseffekt bei logistischer Regression

Änderungen in Extrembereichen der latenten Variable Z führt nicht zu wesentlichen Änderungen der Eintrittswkt.

Page 12: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

12

1.2 Vorgehensweise

1. Logistische Regression

Effekte der Einflussgewichte:

b0 bewirkt horizontalverschiebung- pos. b: Verschiebung nach links- neg. b: Verschiebung nach rechts

bj beeinflussen Verlauf der log Funktionbj beeinflussen Verlauf der log. Funktion- sehr große bj: Wkt.werte schieben sich schnell in den

Randbereich der Funktion- kleine bj: Wahrscheinlichkeitswerte steigen sehr

langsam an- bj=0: Wahrscheinlichkeiten liegen für alle

Beobachtungen der UV bei 0,5

1.2 Vorgehensweise

1. Logistische Regression

pos. Regressionskoeffizienten bj

Wkt. steigt mit größer werdenden Beobachtungswerten der UV

neg. Regressionskoeffizienten bj

Absinken der Wkt. mit steigenden Beobachtungswerten der UV

Fazit: Fazit: - Schätzungen der Parameter bj kann NICHT als globales

Maß für die Einflussstärke von X auf die Eintrittswkt betrachtet werden (nicht linear!)

- nur die Richtung des Einflusses der UV ist erkennbar

Page 13: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

13

1.2 Vorgehensweise

1. Logistische Regression

Interpretationserleichterung

Verhältnis zur Gegenwahrscheinlichkeit betrachten: 1-P(y=1)Chance, Ereignis y=1 im Vergleich zum Ereignis y=0 zu erhalten OddsLogits: logarithmieren der OddsLogits stellen Linearkombination der UV darErlauben Interpretation analog der lin. RegressionAusdehnung des Wertebereiches von - ∞ bis + ∞Logits und Odds beschreiben Eintrittswkt. von y=1

Z = Logit = ln(Odds)

1.2 Vorgehensweise

1. Logistische Regression

Prüfung des Gesamtmodells

1. Wie gut können die Parameterschätzungen in ihrer Gesamtheit das definierte Regressionsmodell abbilden?

2. Gibt es extreme Beobachtungsfälle (Ausreißer), die l d d f d deliminiert werden müssen oder muss aufgrund des

gehäuften Auftretens das Modell verändert werden?

Page 14: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

14

1.2 Vorgehensweise

1. Logistische Regression

Gütemaße für den Regressionsansatz

Wie gut tragen die UVs in ihrer Gesamtheit zur Trennung der Ausprägekategorien von Y bei?

1) Gütekriterien auf Basis der LogLikelihood-Funktion (LL-Funktion)

2) Pseudo-R-Quadrat-Statistiken

3) Beurteilung der Klassifikationsergebnisse

4) Ausreißerdiagnostik

1.2 Vorgehensweise

1. Logistische Regression

1) Gütekriterien auf Basis der LogLikelihood-Funktion

Güte der Anpassung

a. Analyse der Devianz

• Devianz Abweichung vom Idealwert

• H0: Modell besitzt perfekte Anpassung

• H1: Modell besitzt keine perfekte Anpassung

• perfekt: Likelihodd von 1, Devianz 0 (-2 LL-Wert)

geringer Wert bei Devianz: H0 nicht ablehnen gute Anpassung

Page 15: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

15

1.2 Vorgehensweise

1. Logistische Regression

• als Gütemaß umstritten keine Berücksichtigung der Verteilung der Beobachtungen auf die Gruppen

• Einflüsse des Abstands des LL-Wertes von 0

- Wert wird von Trennfähigkeit der Variablen bestimmt

- Wert wird auch von der Verteilung der Beobachtungen auf der Kategorie der AV beeinflusst

F l h hi f V t il i h d G• Folge: wenn sehr schiefe Verteilung zwischen den Gruppen

Modell wird besser bewertet als ein Modell mit gleich großer Gruppenstärke

Devianz reagiert nicht ausschließlich auf Trennfähigkeit der UVs

1.2 Vorgehensweise

1. Logistische Regression

a. Likelihood Ratio-Test (LR-Test)

• versucht Probleme der Devianz zu beheben

• vergleicht LL-Wert nicht mit 0 sondern mit dem Null-Modell

• Devianz des Null-Modells dann mit der des vollständigen Modells vergleicheng

• Testgröße: absolute Devianz

• akzeptabler Wertebereich:

- möglichst hoher Chi-Quadrat Wert

- Sign.niveau < 5%

Page 16: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

16

1.2 Vorgehensweise

1. Logistische Regression

2) Pseudo-R-Quadrat-Statistiken

Güte des Gesamtmodells

versucht Anteil der erklärten Variation zu quantifizierenvergleichbar mit R²Gütebeurteilung: Verhältnis zwischen Null Modell und Gütebeurteilung: Verhältnis zwischen Null-Modell und vollständigem Modell

1.2 Vorgehensweise

1. Logistische Regression

a. McFaddens R²

• Gegenüberstellung des Null-Modells und des vollständigen Modells (wie LR-Test)

• stellt Trennkraft der UVs dar• Werte ab 0,2 als gut zu interpretieren

Werte > 0 5 als sehr gut zu interpretieren• Werte > 0,5 als sehr gut zu interpretieren

Page 17: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

17

1.2 Vorgehensweise

1. Logistische Regression

b. Cox & Snell-R²• kann nur Werte <1 annehmen• akzeptabel ab Werte > 0,2• gut ab Werten von 0,4• Gewichtung über SP-Umfang

Nagelkerke R²c. Nagelkerke-R²• Anteil Varianzerklärung der AV durch die UV• Maximalwert von 1 kann erreicht werden• eindeutige inhaltliche Interpretation möglich• dem Cox & Snell-R² vorziehen• Werte von >0,5 noch als sehr gut zu interpretieren

1.2 Vorgehensweise

1. Logistische Regression

3) Beurteilung der Klassifikationsergebnisse

Güte der Anpassung

Vergleich von emp. beobachteten Gruppenzuordnungen mit den durch die Regressionsgleichung erzeugten Wkt.

Trennwert für die Zuordnung: p(y) = 0,5

Beurteilung: Trefferquote der log. Regression muss höher sein als zufällige Trefferquote

Page 18: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

18

1.2 Vorgehensweise

1. Logistische Regression

a. Press‘s Q-Test

• zur Klassifikationsprüfung

• möglichst hoher Chi-Quadrat Wert

• Sign.niveau > 5%

b Hosmer Lomeshow Testb. Hosmer-Lomeshow-Test

• prüft Nullhypothese: Differenz zwischen den vorhergesagten und den beobachteten Werten ist 0

• möglichst kleiner Chi-Quadrat Wert

• Sign.niveau > 70%

1.2 Vorgehensweise

1. Logistische Regression

4) Ausreißerdiagnostik

welchen Effekt haben einzelne Beobachtungen für die Gesamtgüte?

Gründe für schlechte Anpassung

- Modell ist unpassend die UVs beeinflussen das Zustandekommen der y-Ausprägung nichty p g gggf. Neuformulierung des Modells

- wenn große Diskrepanz zwischen emp. Beobachtungen und den geschätzten Wkt.die Beobachtungen weisen den Zusammenhang , der vom Modell beschrieben wird nicht auf und verzerren das Ergebnis deutlich

Page 19: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

19

1.2 Vorgehensweise

1. Logistische Regression

Ausreißerauskunft: individuelle Residuen Resid

Werte liegen zwischen -1 und +1

Residuen weisen dann auf Ausreißer hin, wenn der absolute Wert > 0,5

standardisierte Residuen um Ausreißer besser erkennen zu können

Ursachen für Ausreißer

- tatsächlich atypisches Antwortverhalten

Ausschluss aus der Analyse

- hohe Residuen schlechte Spezifikation des Modells

Modifikation des Modells notwendig

Page 20: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

20

1.2 Vorgehensweise

1. Logistische Regression

Prüfung der MerkmalsvariablenModell-Overfitting (zu viele erklärende UV´s) soll vermieden werden

Likelihood-Quotienten-TestTestet das Null-Modell gegen das vollständige Modell (Dm) bzw. Vergleich reduzierter Modelle (DR)Bilden unterschiedlicher reduzierter Modelle (D ) mit Bilden unterschiedlicher reduzierter Modelle (DR) mit jeweils einem Regressionskoeffizient auf NullSignifikanztest der Differenz von DR – DM durch X²-Verteilung möglichDf ergeben sich aus Differenz der Parameter beider Modelle

1.2 Vorgehensweise

1. Logistische Regression

Wald-StatistikEng an Signifikanz-Überprüfung einzelner Koeffizienten der linearen Regression angelegt (t-Test)Prüfung der Null-Hypothese bj ist Null damit hat zugehörige UV keinen Einfluss auf die Trennung der GruppenGruppen

Page 21: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

21

1.3 Fazit

1. Logistische Regression

Log. Regression bei nominalskalierter AVErmitteln der Wahrscheinlichkeit des Eintretens eines bestimmten Ereignisses in Abhängigkeit der UVsInterpretation der Regressionskoeffizienten: Odds und Logits (linearer Zusammenhang der UVs)Kriterien zur Anpassung des Modells: LR-TestKriterien für Güte des Gesamtmodells: Pseudo-R-Q d S i ik M F dd R² C & S ll R² Quadrat-Statistiken: McFaddens R², Cox & Snell-R², Nagelkerke-R²Beurteilung Klassifikationsergebnisse: Press‘s Q-Test, Hosmer-Lomeshow-TestPrüfung der Merkmalsvariablen: Likelihood-Quotien-ten-Test, Wald-Statistik

2) Exkurs: Diskriminanzanalyse

Page 22: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

22

2. Exkurs: Diskriminanzanalyse

gehört zu den struktur-prüfenden Verfahreng p

multivariates Verfahren zur Analyse von Gruppenunterschieden

• Merkmalsvariablen müssen metrisch skaliert sein

• Gruppenzugehörigkeit ist nominalskaliert

Untersucht wird die Abhängigkeit einer nominalskalierten

Variable auf eine metrisch skalierte Variable

2. Exkurs: Diskriminanzanalyse

Der einfachste Fall ist, wenn die kategoriale Variable dichotom ausgelegt ist

Untersucht werden vorgegebene GruppenUnterschied zu taxonomischen (gruppierenden)

Verfahren

Page 23: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

23

2. Exkurs: Diskriminanzanalyse

Unterschiedlichkeit von zwei oder mehrerenGruppen, hinsichtlich einer Mehrzahl von Variablen zu untersuchen.

Analysierende Diskriminanznalyse„Welche Variablen sind zur Unterscheidung zwischen den Gruppen geeignet bzw. ungeeignet?“

Klassifizierende Diskriminanzanalyse„Unterscheiden sich die Gruppen signifikant voneinander hinsichtlich der Variablen?“

2. Exkurs: Diskriminanzanalyse

Gemeinsamkeiten mit logistischer RegressionGemeinsamkeiten mit logistischer Regression0/1 Ergebnisse können auch als Zwei-Gruppen-Fall interpretiert werden

Unterschiede zur logistischen RegressionBei Regressionsanalyse ist auch AV metrisch skaliert Diskriminanzanalyse ist an stärkere Prämissen Diskriminanzanalyse ist an stärkere Prämissen gebunden

Multinormalverteilte UV´s, Varianz-Kovarianzmatrizen

Page 24: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

24

2. Exkurs: Diskriminanzanalyse

Anwendungsgebiete

Analyse von Gruppenunterschieden (wissenschaftlich)

Ziel: Eine Gruppenvariable auf Basis einer oder mehrerer intervalskalierter Prädiktoren vorherzusagen → multiple Regression mit kategorialer AV

Bestimmung oder Prognose der Gruppenzugehörigkeit von Elementen (Klassifizierung)

2. Exkurs: Diskriminanzanalyse

Bestimmung oder Prognose der Gruppenzugehörigkeit von Elementen (Klassifizierung)

„In welche Gruppe ist ein „neues“ Element, dessen Gruppenzugehörigkeit nicht bekannt ist, auf Grund seiner Merkmalsausprägungen einzuordnen?“

Prüfung der Kreditwürdigkeit → UV= „gute Kunden“ vs. „schlechte Kunden“ (auch bei Neukunden),

AV= Alter Familienstand Einkommen Dauer des AV= Alter, Familienstand, Einkommen, Dauer des gegenwärtigen Beschäftigungsverhältnisses, Anzahl bereits bestehender Kredite)

→ wodurch lassen sich Gruppen signifikant unterscheiden →

relevante Merkmale (diskriminatorisch bedeutsam)

Page 25: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

25

2. Exkurs: Diskriminanzanalyse

Neuerdings durch neuronale Netzwerke ersetztg

3) Fallbeispiel -Persönlichkeitseigenschaften und Musikpräferenz -

Page 26: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

26

Modellformulierung

Fallbeispiel -Persönlichkeitseigenschaften und Musikpräferenz-

Modellformulierung

Schätzung der Logistischen Regressionsfunktion

Interpretation der Regressionskoeffizienten

Prüfung des Gesamtmodells

Prüfung der Merkmalsvariablen

Modellformulierung

Fallbeispiel -Persönlichkeitseigenschaften und Musikpräferenz-

Kann eine Person anhand ihrer Persönlichkeitseigenschaften in eine Gruppe eingeordnet werden?

Klassik oder nicht Klassik?

Stichprobe n=52

UV= Big Five

AV= Klassik vs. nicht Klassik

Page 27: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

27

Hypothese 1:Hohe Werte in Offenheit für Erfahrungen erhöht die Wahr-

Fallbeispiel -Persönlichkeitseigenschaften und Musikpräferenz-

scheinlichkeit dafür, dass Klassik präferiert wird.Hypothese 2:Verträglichkeit beeinflusst die Wahrscheinlichkeit dafür, dass Klassik präferiert wird, nicht.Hypothese 3:Extraversion beeinflusst die Wahrscheinlichkeit dafür, dass Klassik präferiert wird, nicht.p ,Hypothese 4:Neurotizismus beeinflusst die Wahrscheinlichkeit dafür, dass Klassik präferiert wird, nicht.Hypothese 5:Gewissenhaftigkeit beeinflusst die Wahrscheinlichkeit dafür, dass Klassik präferiert wird, nicht.

3. Fallbeispiel

Page 28: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

28

3. Fallbeispiel

3. Fallbeispiel

12

3

Page 29: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

29

3. Fallbeispiel

1

23

Die drei Maße sind äquivalent zu den entsprechenden Maßen der linearen Regression

4

3. Fallbeispiel

Page 30: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

30

3. Fallbeispiel

Wurde automatisch von SPSS in 0 und 1 Dummykodiert

3. Fallbeispiel Tabelle anhand des 0-Modells enthält ausschließlich

Regressionskonstante und gibt die Fälle an, die durch das Modell richtig oder falsch klassifiziert wurden

Anzahl der richtig zugeordneten Fälle

Page 31: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

31

3. FallbeispielTest ist Signifikant bei einem Alpha-Fehlerniveau von 0,05

Cox & Snell der durch das Modell erklärte Varianzanteil, der allerdings den Wert

„1“

nicht erreichen kann!

•Korrigiertes Maß das „1“

erreichen kann•Die Varianzaufklärung unseres Modells liegt bei unseres Modells liegt bei 40,7 % eher schlecht!

3. Fallbeispiel

Beim Hosmer-Lemmshow-Test werden analog zum

Null-Hypothese = Die Abweichung von den

Test werden analog zum Chi-Quadrat-Test erwartete und beobachtete Häufigkeiten verglichen

erwarteten zu den beobachteten Häufigkeiten ist Null gute Modellanpassung bzw. Schätzung

Alpha bei 0,05 ist nicht signifikant gute ModellschätzungModellschätzung

Page 32: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

32

3. Fallbeispiel

Kontingenztabelle mit beobachteten und erwarteten Zellenbesetzungen für Homer-Lemmshow-Test

3. Fallbeispiel

Vollständiges Modell mit Regressionskoeffizient

Im Vergleich zum Null-Modell steigt der Prozentsatz der auf Grund der Schätzung richtig Schätzung richtig klassifizierten Fälle auf 88,5% an Anstieg um 5,8% ist ein schlechtes Ergebnis

Page 33: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

33

4. FallbeispielStellen Chancenverhältnisse = Odds Ratio dar, das ein Prädiktor die Wahrscheinlichkeit für Klassik erhöht

Erhöht die jeweilige UV den Logit-Wert? Verträglichkeit ist der stärkste Prädiktor für klassische Musik

Äquivivalent zum t-Test Sig. Der einzelnen

Koeffizienten bei lin. Regression

Zeigt an ob ein Koeffizient signifikant ist oder nicht

nicht sig. wenn Wert = 1 enthalten

5. Was haben wir heute gelernt?

1 Wann ist es sinnvoll die logistische Regression 1. Wann ist es sinnvoll die logistische Regression zu benutzen und warum?

2. Welche Gütekriterien gibt es?

3. Unterschiede zur Diskriminanzanalyse?

Page 34: Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

09.07.2010

34

Quellen

Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2006). Multivariate Analysemethoden. Berlin: Springer.

http://user.unifrankfurt.de/~moosbrug/lehre/kap0506/Logistische_Regression.ppt

http://blogometry.org/material/re020610.pdf

http://gruener userpage fuberlin de/tutorials/logistische regrehttp://gruener.userpage.fuberlin.de/tutorials/logistische_regression.htm