Regression – ein kleiner Rückblick

Post on 22-Nov-2021

4 views 0 download

Transcript of Regression – ein kleiner Rückblick

Regression – ein kleiner Rückblick

MethodenseminarDozent: Uwe AltmannAlexandra Kuhn, Melanie Spate05.11.2009

Gliederung1. Stochastische Abhängigkeit2. Definition Zufallsvariable3. Kennwerte 3.1 für 1 Zufallsvariable 3.2 für 2 Zufallsvariablen

4. Regression4.1 Anwendung und Ziele4.2 Residuum4.3 wichtige Kennwerte4.4 Arten von Regressionen

- Einfache, Zweifache und Multiple Lineare RegressionAndere Parametrisierung

- Bedingte lineare Regression5. Determinationskoeffizient6. Populations- und Stichprobenschreibweise7. Wer gewinnt die goldene Regressionsnadel? ☺

1.Stochastische Abhängigkeit

Stochastische Abhängigkeit

Regressive Abhängigkeit

Lineare Abhängigkeit

1.Stochastische Abhängigkeit

Warum könnten solche Abhängigkeiten wichtig sein?

2. Zufallsvariablenordnen jedem Ereignis des Zufallsexperiments einen Wert zuWerte: Zahlen, Mengenkönnen stochastisch abhängig oder unabhängig sein

- Kennwerte: 1.) Erwartungswert 2.) Varianz3.) Standardabweichung4.) Kovarianz5.) Korrelation

3. Kennwerte

Kovarianz…

Varianz…

Korrelation…

Erwartungswert…

3.1 Kennwerte für 1 Zufallsvariable

Erwartungswert E(X):

= „theoretischer Mittel- oder Durchschnittswert“Charakterisiert Lage einer ZufallsvariableMit Wahrscheinlichkeiten gewichtete Summe der Werte xi der Zufallsvariable X

Formel:

3.1 Kennwerte für 1 Zufallsvariable

Varianz Var(X):Kennzahl für die Streubreite der Verteilung einer ZufallsvariableErwartungswert der quadrierten Abweichungsvariable X – E(X) Kann nur positiv sein

Standardabweichung Std(X):= Positive Quadratwurzel der Varianz≈ „mittlerer absoluter Abweichung“

3.2 Kennwerte für 2 Zufallsvariablen

Kovarianz Cov(X,Y):Kennwert über Stärke des Zusammenhangs 2er ZufallsvariablenErwartungswert des Produktes der beiden AbweichungsvariablenFormel: Positive Kovariation

Bei positiver Abweichung X von E(X), erfolgt positive Abweichung Y von E(Y)

Negative KovariationBei positiver Abweichung X von E(X), erfolgt negative Abweichung Y von E(Y)

Unkorreliertheit wenn Cov(X,Y) = 0Spezialfall: X = Y entspricht Varianz

3.2 Kennwerte für 2 Zufallsvariablen

Korrelation Kor (X,Y):

Kennwert für Stärke des Zusammenhangs 2er ZufallsvariablenEntspricht standardisierter Kovarianz

Formel: Wertebereich: 1 bis -1

4. Regression4.1 Anwendung und Ziele

Regression E(Y|X)des Regressanden Y (interessierende Variable)auf den Regressor X (erklärende Variable)= eine Zufallsvariable, deren Werte

die bedingten Erwartungswerte E (Y|X =x) sind

4. Regression4.1 Anwendung und Ziele

Aussagen über Regressionen sind der Kern von:

einfachen Regressionsanalysenmultiplen RegressionsanalysenVarianzanalysenStrukturgleichungsmodellenFaktoranalysen

4. Regression4.1 Anwendung und Ziele

Ziele

Aussagen über den Zusammenhang von den bedingten Erwartungswerten E(Y|X = x) einer Variablen Y

- und den Werten einer anderen Variablen(einfache Regression)

- oder von mehreren Variablen(multiple Regression)

Aussagen über Stärke der regressiven Abhängigkeit(z.B. durch Determinationskoeffizienten)

4. Regression4.2 Das Residuum

nicht durch die Regression determinierte Komponente von YAbweichung der Zufallsvariablen Y von der Regression E (Y|X)

Residuum =Y − E(Y|X)

4. Regression4.2 Eigenschaften des Residuums

4.3. Wichtige Kennwerte für Regressionen

Bedingter Erwartungswert E(Y|X = x):

= theoretischer Mittelwert der Zufallsvariablen Y unter der Bedingung, dass die Zufallsvariable X den Wert x annimmtGewichtung erfolgt mit bedingten Wahrscheinlichkeiten

Formel:

4.3. Wichtige Kennwerte für Regressionen

Bedingte Varianz/ Standardabweichung:Kennwert für die Streuung der Verteilung einer Zufallsvariablen, gegeben einer BedingungFormel:

Bedingte Varianzfunktion Var(Y|X), deren Werte ist die bedingte Varianz Var(Y|X = x)

4.3. Wichtige Kennwerte für Regressionen

Bedingte Kovarianz:= Maß für die Stärke des Zusammenhangs 2er

Zufallsvariablen, gegeben einer BedingungBsp.: Wie hängen Gewicht (Y1) und Körpergröße (Y2) zusammen, vorausgesetzt man ist ein Mann (X)?

Bedingte Korrelation:Bedingte standardisierte KovarianzBedingte Korrelationsfunktion Kor(Y1,Y2 |X), deren Werte ist die bedingte Korrelation Kor(Y1,Y2|X = x)

4.4. Arten von Regressionen

Einfache lineare Regression

Y linear regressiv abhängig von XDie bedingten Erwartungswerte von Y lägen für jeden Wert X = x auf dieser Graden

α0 = Ordinatenabschnittα1 = Steigung der RegressionsgradenSpezialfall α1 = 0 regressive Unabhängigkeit X = dichotom immer lineare Regression

Bsp.: Erwartungswert der Körpergröße für Männer und Frauen

Zweifache lineare Regression

Hinzunahme eines zweiten Regressors ZVorhersage von Y durch 2 PrädiktorenBsp.: IQ (Y) hängt linear ab von IQ der Eltern (X) und deren Einkommen (Z) abBesonders von Interesse: verschwindet ein Zusammenhang unter Berücksichtigung eines 2. Prädiktors?

Zweifache lineare Regression

β1, β2 = partielle Regressionskoeffizienten

Partiell regressive Abhängigkeit/ UnabhängigkeitY ist partiell regressiv unabhängig von X gegeben Z, wenn der Regressionskoeffizient für X in der Regression E(Y|X,Z) = 0 bei vorher bestehender linearen Abhängigkeit in der Regression E(Y|X)

Bsp.: Zusammenhang zwischen Anzahl Schuhe (Y) und Größe (X), unter Berücksichtigung eines 2. Prädiktors Geschlecht (Z) verschwindet linearer Zusammenhang zwischen Y und X

Y ist partiell regressiv unabhängig von X gegeben ZY ist partiell regressiv abhängig von Z gegeben X

Multiple lineare Regression

Verallgemeinerung Zweifache Regression für mPrädiktoren

Regressionsparameter geben regressive Abhängigkeit von Y und Xm bei konstanter Ausprägung der anderen Prädiktoren

ParametrisierungVielfältige Darstellungen von Regressionen möglichParametrisierung = Wahl der Gleichung

Interpretation der Regressionskoeffizienten können sich ändernWerte der Regression ändern sich nicht!!!

Saturierte Parametrisierung= Regressionsgleichung, deren Werte immer die

bedingten Erwartungswerte sindAnzahl geschätzter Parameter = Anzahl bedingten Erwartungswerte

Bsp. für mögliche Parametrisierung:Zellenmittelwertemodell

Voraussetzung: Regressor X kann nur n verschiedene Werte x1,…,xn annehmen

Einführung Indikatorvariablen Ii

= Dummy - VariableGeben mit dem Wert 1 an, ob X den Wert xiannimmt, alle anderen Indikatorvariablen I nehmen dann den Wert 0 anSind Funktionen von XEnthalten alle zusammen selbe Information wie X

E(Y|X) = E(Y|I1,…,In)

Bsp. für mögliche Parametrisierung:Zellenmittelwertemodell

Saturiertes Zellenmittelwertemodell:

α entspricht bedingten Erwartungswerten, d.h. α1 = E(Y|X = x1) Zellenmittelwerte

Bsp.: 4 Indikatorvariablen I1, I2 ,I3 ,I4

I1 = IQ junge Männer, im Mittel 112I2 = IQ ältere Männer, im Mittel 105I3 = IQ junge Frauen, im Mittel 115I4 = IQ ältere Frauen, im Mittel 102

E(Y|X) := α1 I1 + α2 I2 + α3 I3 + α4 I4

E(Y|X = x1) = 112 x 1 + 105 x 0 + 115 x 0 + 102 x 0

4. Regression4.4 Bedingte Lineare Regression

Was ist eine Kovariate?

Variable Z, die sowohl mit X als auch mit Y in Zusammenhang stehtKann Zusammenhang zwischen X und Y verfälschen

4. Regression4.4 Bedingte Lineare Regression

Modifikation des Zusammenhangs zwischen X und Y durch Z?

Z als Kovariate?

Konstanthaltung von Zschauen uns die bedingten

Regressionen von Y auf X bei gegebenen Wert z von Z an

wie ist nun der Zusammenhang zwischen X und Y ?

4. Regression4.4 Bedingte Lineare Regression

Ordinatenabschnittsfunktion Modifikatorfunktion

4. Regression4.4 Bedingte Lineare Regression

4. Regression4.4 Bedingte Lineare Regression

ANOVAGruppenvergleiche

ANCOVAHinzufügen einer KovariatenZiel: Einflüsse dieser Kovariaten

auszublenden und Effekt der Kovariaten statistisch nachweisen

5.Determinationskoeffizient

Entspricht dem durch X erklärten Varianzanteil von Y

Bsp. Wie viel Varianz des Berufserfolgs (Y) wird durch die Körpergröße (X) erklärt?

5.Determinationskoeffizient

Wertebereich zwischen 0 und 1Bei Annehmen des Werts 0

keine Varianz von Y durch X erklärt

Y ist regressiv unabhängig von X

Bei Annehmen des Werts 1Varianz von Y völlig durch X erklärt

5.Determinationskoeffizient

addiert sich mit der Fehlervarianz zu eins auf

6. Populations- vs. Stichprobenschreibweise- können Regression in Stichprobe berechnen- Regression in Population eher von Interesse- Ziel: von Regressionsgleichung der Stichprobe auf

Regressionsgleichung/ regressiven Zusammenhang in der Population zu schließen

Populationsmodell„wahre“ Regression von Y auf XE(Y|X):= α0+ α1 X

StichprobenmodellBei N aus Population: Abweichung der Regressionsparameterŷ = a + b X

7. Quiz- Wer gewinnt die goldene Regressionsnadel? ☺

1. Welche Arten der Abhängigkeit gibt es?2. Wenn etwas linear abhängig ist, ist es dann auch

regressiv abhängig? Und umgekehrt?3. Wie definiert man Regression?4. Was ist eine saturierte Parametrisierung?5. Was ist Ziel der Regression?6. In welchen Anwendungen sind Regressionen

enthalten? 7. Wie funktioniert das Prinzip der

Indikatorvariablen?8. Bei welcher Art von Regression(en) kommt eine

dritte Variable hinzu und warum?9. Wie lautet die Moderatorfunktion? Was ist eine

Kovariate?10. Was ist der Determinationskoeffizient? Wie ist er

definiert?

Quelle

R. Steyer: Wahrscheinlichkeit und Regression, Kap. 4 – 7, 9, 10, 12, 14www.wikipedia.dewww.metheval.uni-jena.de