Regression – ein kleiner Rückblick

38
Regression – ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009

Transcript of Regression – ein kleiner Rückblick

Page 1: Regression – ein kleiner Rückblick

Regression – ein kleiner Rückblick

MethodenseminarDozent: Uwe AltmannAlexandra Kuhn, Melanie Spate05.11.2009

Page 2: Regression – ein kleiner Rückblick

Gliederung1. Stochastische Abhängigkeit2. Definition Zufallsvariable3. Kennwerte 3.1 für 1 Zufallsvariable 3.2 für 2 Zufallsvariablen

4. Regression4.1 Anwendung und Ziele4.2 Residuum4.3 wichtige Kennwerte4.4 Arten von Regressionen

- Einfache, Zweifache und Multiple Lineare RegressionAndere Parametrisierung

- Bedingte lineare Regression5. Determinationskoeffizient6. Populations- und Stichprobenschreibweise7. Wer gewinnt die goldene Regressionsnadel? ☺

Page 3: Regression – ein kleiner Rückblick

1.Stochastische Abhängigkeit

Stochastische Abhängigkeit

Regressive Abhängigkeit

Lineare Abhängigkeit

Page 4: Regression – ein kleiner Rückblick

1.Stochastische Abhängigkeit

Warum könnten solche Abhängigkeiten wichtig sein?

Page 5: Regression – ein kleiner Rückblick

2. Zufallsvariablenordnen jedem Ereignis des Zufallsexperiments einen Wert zuWerte: Zahlen, Mengenkönnen stochastisch abhängig oder unabhängig sein

- Kennwerte: 1.) Erwartungswert 2.) Varianz3.) Standardabweichung4.) Kovarianz5.) Korrelation

Page 6: Regression – ein kleiner Rückblick

3. Kennwerte

Kovarianz…

Varianz…

Korrelation…

Erwartungswert…

Page 7: Regression – ein kleiner Rückblick

3.1 Kennwerte für 1 Zufallsvariable

Erwartungswert E(X):

= „theoretischer Mittel- oder Durchschnittswert“Charakterisiert Lage einer ZufallsvariableMit Wahrscheinlichkeiten gewichtete Summe der Werte xi der Zufallsvariable X

Formel:

Page 8: Regression – ein kleiner Rückblick

3.1 Kennwerte für 1 Zufallsvariable

Varianz Var(X):Kennzahl für die Streubreite der Verteilung einer ZufallsvariableErwartungswert der quadrierten Abweichungsvariable X – E(X) Kann nur positiv sein

Standardabweichung Std(X):= Positive Quadratwurzel der Varianz≈ „mittlerer absoluter Abweichung“

Page 9: Regression – ein kleiner Rückblick

3.2 Kennwerte für 2 Zufallsvariablen

Kovarianz Cov(X,Y):Kennwert über Stärke des Zusammenhangs 2er ZufallsvariablenErwartungswert des Produktes der beiden AbweichungsvariablenFormel: Positive Kovariation

Bei positiver Abweichung X von E(X), erfolgt positive Abweichung Y von E(Y)

Negative KovariationBei positiver Abweichung X von E(X), erfolgt negative Abweichung Y von E(Y)

Unkorreliertheit wenn Cov(X,Y) = 0Spezialfall: X = Y entspricht Varianz

Page 10: Regression – ein kleiner Rückblick

3.2 Kennwerte für 2 Zufallsvariablen

Korrelation Kor (X,Y):

Kennwert für Stärke des Zusammenhangs 2er ZufallsvariablenEntspricht standardisierter Kovarianz

Formel: Wertebereich: 1 bis -1

Page 11: Regression – ein kleiner Rückblick

4. Regression4.1 Anwendung und Ziele

Regression E(Y|X)des Regressanden Y (interessierende Variable)auf den Regressor X (erklärende Variable)= eine Zufallsvariable, deren Werte

die bedingten Erwartungswerte E (Y|X =x) sind

Page 12: Regression – ein kleiner Rückblick

4. Regression4.1 Anwendung und Ziele

Aussagen über Regressionen sind der Kern von:

einfachen Regressionsanalysenmultiplen RegressionsanalysenVarianzanalysenStrukturgleichungsmodellenFaktoranalysen

Page 13: Regression – ein kleiner Rückblick

4. Regression4.1 Anwendung und Ziele

Ziele

Aussagen über den Zusammenhang von den bedingten Erwartungswerten E(Y|X = x) einer Variablen Y

- und den Werten einer anderen Variablen(einfache Regression)

- oder von mehreren Variablen(multiple Regression)

Aussagen über Stärke der regressiven Abhängigkeit(z.B. durch Determinationskoeffizienten)

Page 14: Regression – ein kleiner Rückblick

4. Regression4.2 Das Residuum

nicht durch die Regression determinierte Komponente von YAbweichung der Zufallsvariablen Y von der Regression E (Y|X)

Residuum =Y − E(Y|X)

Page 15: Regression – ein kleiner Rückblick

4. Regression4.2 Eigenschaften des Residuums

Page 16: Regression – ein kleiner Rückblick

4.3. Wichtige Kennwerte für Regressionen

Bedingter Erwartungswert E(Y|X = x):

= theoretischer Mittelwert der Zufallsvariablen Y unter der Bedingung, dass die Zufallsvariable X den Wert x annimmtGewichtung erfolgt mit bedingten Wahrscheinlichkeiten

Formel:

Page 17: Regression – ein kleiner Rückblick

4.3. Wichtige Kennwerte für Regressionen

Bedingte Varianz/ Standardabweichung:Kennwert für die Streuung der Verteilung einer Zufallsvariablen, gegeben einer BedingungFormel:

Bedingte Varianzfunktion Var(Y|X), deren Werte ist die bedingte Varianz Var(Y|X = x)

Page 18: Regression – ein kleiner Rückblick

4.3. Wichtige Kennwerte für Regressionen

Bedingte Kovarianz:= Maß für die Stärke des Zusammenhangs 2er

Zufallsvariablen, gegeben einer BedingungBsp.: Wie hängen Gewicht (Y1) und Körpergröße (Y2) zusammen, vorausgesetzt man ist ein Mann (X)?

Bedingte Korrelation:Bedingte standardisierte KovarianzBedingte Korrelationsfunktion Kor(Y1,Y2 |X), deren Werte ist die bedingte Korrelation Kor(Y1,Y2|X = x)

Page 19: Regression – ein kleiner Rückblick

4.4. Arten von Regressionen

Page 20: Regression – ein kleiner Rückblick

Einfache lineare Regression

Y linear regressiv abhängig von XDie bedingten Erwartungswerte von Y lägen für jeden Wert X = x auf dieser Graden

α0 = Ordinatenabschnittα1 = Steigung der RegressionsgradenSpezialfall α1 = 0 regressive Unabhängigkeit X = dichotom immer lineare Regression

Page 21: Regression – ein kleiner Rückblick

Bsp.: Erwartungswert der Körpergröße für Männer und Frauen

Page 22: Regression – ein kleiner Rückblick

Zweifache lineare Regression

Hinzunahme eines zweiten Regressors ZVorhersage von Y durch 2 PrädiktorenBsp.: IQ (Y) hängt linear ab von IQ der Eltern (X) und deren Einkommen (Z) abBesonders von Interesse: verschwindet ein Zusammenhang unter Berücksichtigung eines 2. Prädiktors?

Page 23: Regression – ein kleiner Rückblick

Zweifache lineare Regression

β1, β2 = partielle Regressionskoeffizienten

Partiell regressive Abhängigkeit/ UnabhängigkeitY ist partiell regressiv unabhängig von X gegeben Z, wenn der Regressionskoeffizient für X in der Regression E(Y|X,Z) = 0 bei vorher bestehender linearen Abhängigkeit in der Regression E(Y|X)

Bsp.: Zusammenhang zwischen Anzahl Schuhe (Y) und Größe (X), unter Berücksichtigung eines 2. Prädiktors Geschlecht (Z) verschwindet linearer Zusammenhang zwischen Y und X

Y ist partiell regressiv unabhängig von X gegeben ZY ist partiell regressiv abhängig von Z gegeben X

Page 24: Regression – ein kleiner Rückblick

Multiple lineare Regression

Verallgemeinerung Zweifache Regression für mPrädiktoren

Regressionsparameter geben regressive Abhängigkeit von Y und Xm bei konstanter Ausprägung der anderen Prädiktoren

Page 25: Regression – ein kleiner Rückblick

ParametrisierungVielfältige Darstellungen von Regressionen möglichParametrisierung = Wahl der Gleichung

Interpretation der Regressionskoeffizienten können sich ändernWerte der Regression ändern sich nicht!!!

Saturierte Parametrisierung= Regressionsgleichung, deren Werte immer die

bedingten Erwartungswerte sindAnzahl geschätzter Parameter = Anzahl bedingten Erwartungswerte

Page 26: Regression – ein kleiner Rückblick

Bsp. für mögliche Parametrisierung:Zellenmittelwertemodell

Voraussetzung: Regressor X kann nur n verschiedene Werte x1,…,xn annehmen

Einführung Indikatorvariablen Ii

= Dummy - VariableGeben mit dem Wert 1 an, ob X den Wert xiannimmt, alle anderen Indikatorvariablen I nehmen dann den Wert 0 anSind Funktionen von XEnthalten alle zusammen selbe Information wie X

E(Y|X) = E(Y|I1,…,In)

Page 27: Regression – ein kleiner Rückblick

Bsp. für mögliche Parametrisierung:Zellenmittelwertemodell

Saturiertes Zellenmittelwertemodell:

α entspricht bedingten Erwartungswerten, d.h. α1 = E(Y|X = x1) Zellenmittelwerte

Bsp.: 4 Indikatorvariablen I1, I2 ,I3 ,I4

I1 = IQ junge Männer, im Mittel 112I2 = IQ ältere Männer, im Mittel 105I3 = IQ junge Frauen, im Mittel 115I4 = IQ ältere Frauen, im Mittel 102

E(Y|X) := α1 I1 + α2 I2 + α3 I3 + α4 I4

E(Y|X = x1) = 112 x 1 + 105 x 0 + 115 x 0 + 102 x 0

Page 28: Regression – ein kleiner Rückblick

4. Regression4.4 Bedingte Lineare Regression

Was ist eine Kovariate?

Variable Z, die sowohl mit X als auch mit Y in Zusammenhang stehtKann Zusammenhang zwischen X und Y verfälschen

Page 29: Regression – ein kleiner Rückblick

4. Regression4.4 Bedingte Lineare Regression

Modifikation des Zusammenhangs zwischen X und Y durch Z?

Z als Kovariate?

Konstanthaltung von Zschauen uns die bedingten

Regressionen von Y auf X bei gegebenen Wert z von Z an

wie ist nun der Zusammenhang zwischen X und Y ?

Page 30: Regression – ein kleiner Rückblick

4. Regression4.4 Bedingte Lineare Regression

Ordinatenabschnittsfunktion Modifikatorfunktion

Page 31: Regression – ein kleiner Rückblick

4. Regression4.4 Bedingte Lineare Regression

Page 32: Regression – ein kleiner Rückblick

4. Regression4.4 Bedingte Lineare Regression

ANOVAGruppenvergleiche

ANCOVAHinzufügen einer KovariatenZiel: Einflüsse dieser Kovariaten

auszublenden und Effekt der Kovariaten statistisch nachweisen

Page 33: Regression – ein kleiner Rückblick

5.Determinationskoeffizient

Entspricht dem durch X erklärten Varianzanteil von Y

Bsp. Wie viel Varianz des Berufserfolgs (Y) wird durch die Körpergröße (X) erklärt?

Page 34: Regression – ein kleiner Rückblick

5.Determinationskoeffizient

Wertebereich zwischen 0 und 1Bei Annehmen des Werts 0

keine Varianz von Y durch X erklärt

Y ist regressiv unabhängig von X

Bei Annehmen des Werts 1Varianz von Y völlig durch X erklärt

Page 35: Regression – ein kleiner Rückblick

5.Determinationskoeffizient

addiert sich mit der Fehlervarianz zu eins auf

Page 36: Regression – ein kleiner Rückblick

6. Populations- vs. Stichprobenschreibweise- können Regression in Stichprobe berechnen- Regression in Population eher von Interesse- Ziel: von Regressionsgleichung der Stichprobe auf

Regressionsgleichung/ regressiven Zusammenhang in der Population zu schließen

Populationsmodell„wahre“ Regression von Y auf XE(Y|X):= α0+ α1 X

StichprobenmodellBei N aus Population: Abweichung der Regressionsparameterŷ = a + b X

Page 37: Regression – ein kleiner Rückblick

7. Quiz- Wer gewinnt die goldene Regressionsnadel? ☺

1. Welche Arten der Abhängigkeit gibt es?2. Wenn etwas linear abhängig ist, ist es dann auch

regressiv abhängig? Und umgekehrt?3. Wie definiert man Regression?4. Was ist eine saturierte Parametrisierung?5. Was ist Ziel der Regression?6. In welchen Anwendungen sind Regressionen

enthalten? 7. Wie funktioniert das Prinzip der

Indikatorvariablen?8. Bei welcher Art von Regression(en) kommt eine

dritte Variable hinzu und warum?9. Wie lautet die Moderatorfunktion? Was ist eine

Kovariate?10. Was ist der Determinationskoeffizient? Wie ist er

definiert?

Page 38: Regression – ein kleiner Rückblick

Quelle

R. Steyer: Wahrscheinlichkeit und Regression, Kap. 4 – 7, 9, 10, 12, 14www.wikipedia.dewww.metheval.uni-jena.de