Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

22
Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen

Transcript of Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

Page 1: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

Statistik: 8.3.04

Relationen zwischen metrischen Merkmalen

Page 2: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 2

Beispiel: Wohnungsmarkt

Fläche 122 71 125 45 100 63 194 85

Preis 530 410 480 170 315 455 885 400

Fläche 164 119 140 109 40 62 84 65

Preis 900 550 790 810 390 440 300 385

Für 16 Angebote von Eigentumswohnungen wurden registriert: Fläche der Wohnung (m2) Angebotspreis (1000 EUR)

Page 3: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 3

Wohnungsmarkt

Punkte- oder Streudiagramm(scatterplot)

0100

200300

400500

600700

800900

1000

0 50 100 150 200 250Fläche (m2)

Pre

is (

1000

EU

R)

Page 4: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 4

Randverteilungen

0

1

2

3

4

5

6

50 90 130 170 210 250H

äufi

gke

it

0

1

2

3

4

5

6

300 400 500 600 700 800 900 1000

Häu

fig

keit

Fläche der Wohnung (m2)

Preis (1000 EUR)

Page 5: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 5

RandverteilungenFläche Preis

Mittelwert 99,3 513,1

Standardfehler 10,8 54,8

Median 92,5 447,5

Standardabweichung 43,3 219,3

Stichprobenvarianz 1870,6 48109,6

Kurtosis -0,049 -0,547

Schiefe 0,651 0,663

Wertebereich 154 730

Minimum 40 170

Maximum 194 900

Anzahl 16 16

Kenngrößen

Page 6: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 6

Standardisieren

ii

x

x xz

s

, xx sMerkmal X : x1, …, xn Stichprobenkennzahlen:

Standardisieren:

Standardisierte Daten: z1, …, zn

Stichprobenkennzahlen: 0, 1zz s

Page 7: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 7

Beispiel: Wohnungsmarkt

-2

-2

-1

-1

0

1

1

2

2

-2 -2 -1 -1 0 1 1 2 2 3

Standardisierte Daten:

,i i

i ix y

x y

x x y yz z

s s

Page 8: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 8

Korrelationskoeffizient

Produkt-Moment Korrelationskoeffizient:

oder

mit der Kovarianz

Beispiel: Fläche (X) und Preis (Y) von angebotenen Wohnungen: sxy = 7342.34, sx= 43.3, sy= 219.3

r = 0.826

1 1

1 1i i

n ni i

x yi ix y

x x y yr z zn s s n

xy

x y

srs s

1

1( )( )

n

xy i ii

s x x y yn

Page 9: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 9

KorrelationskoeffizientKorrelationskoeffizient ist ein (durch das Standardisieren)

normiertes Maß für den linearen Zusammenhang

Eigenschaften:-1 ≤ r ≤ 1|r| ist Maß für die Stärke des linearen Zusammenhanges

|r|=1: perfekte lineare Abhängigkeit |r|<1: Punkte streuen stark (|r|~0) oder schwach (|r|~1)

um GeradeSign(r) ist Maß für Richtung des linearen Zusammenhanges

Sign(r)=1: steigende Gerade Sign(r)=-1: fallende Gerade

Page 10: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 10

Beziehungen: Beispiele

0.997

-0.977

-0.289-0.067

Page 11: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 11

Rang Korrelationskoeffizient

nach SpearmanKorrelationsmaß für ordinale MerkmaleAuch anwendbar auf Rangzahlen für metrische MerkmaleDefinition wie Produkt-Moment Korrelationskoeffizient rxy, angewendet auf die Ränge der Beobachtungen

( ), ( )spxy rg x rg yr r

Page 12: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 12

Berechnung von r sp

1. Sortieren der Stichprobenpaare (xi, yi) nach steigenden Werten von X

2. Ersetzen der Beobachtungen (xi, yi) durch die Rangzahlen (i, Ri)

3. Einsetzen in Formel für Produkt-Moment Korrelationskoeffizient r :

4. Alternative Schreibweise:

1 12 2

2 21 12 2

n nisp i

n nii i

i Rr

i R

22

61 ( )

( 1)sp

iir i R

n n

Page 13: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 13

Beispiel: Schulnoten

Math Engl

3 3

4 3

1 3

3 4

3 1

2 3

2 1

1 2

4 4

2 2

0

1

2

3

4

5

0 1 2 3 4 5

Math-Note

Engl

-Not

e

Math Engl

1 1 2 1,5 3,5

2 1 3 1,5 6,5

3 2 1 4 1,5

4 2 2 4 3,5

5 2 3 4 6,5

6 3 1 7 1,5

7 3 3 7 6,5

8 3 4 7 9,5

9 4 3 9,5 6,5

10 4 4 9,5 9,5

r sp = 0.430

Page 14: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 14

Typen von Beziehungen

zwischen MerkmalenKausaler Zusammenhang

Wenn es kalt ist, steigen die Heizkosten Rauchen macht Lungenkrebs

Gemeinsame Response Die fleißige Studentin bekommt viele gute Noten Zahl der Babys und der Störche wird weniger

Vermengung (confounding) Sloppy lifestyle Hypothese und Lungenkrebs

Page 15: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 15

Typen von Beziehungen

yx

x ist kausal für y

x, y sind gemeinsame Response auf z

y: Effekte von x und z sind vermengt

x y

z

x y

z

zwischen zwei Merkmalen x und y

Page 16: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 16

Vorsicht!

Die Interpretation von Korrelation als kausale Beziehung ist oft eine Fehlinterpretation!

Zahl der Babys und der Störche sind hoch positiv korreliert!?

Einkommen und Konsum sind hoch positiv korreliert

Ausreißer haben großen Effekt auf den Wert des KorrelationskoeffizientenNicht-lineare Beziehungen!

Page 17: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 17

Lineare Regression

0

200

400

600

800

1000

0 50 100 150 200 250Fläche (m2)

Pre

is (

1000

EU

R)

Gerade, die die Datenwolke im Streudiagramm bzw.die Beziehung zwischen den dargestellten Merkmalen möglichst gut repräsentiertWohnungsmarkt:

Daten und Regressionsgerade

Page 18: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 18

Lineare Regression, Forts.

Abhängiges Merkmal: YUnabhängiges Merkmal: XRegressionsgerade: Y = a + b X a, b: Regressionskoeffizienten (b: Anstieg, a: Interzept)Methode der kleinsten Quadrate: Wähle die Koeffizienten

so, dass die Summe der quadrierten Abstände zwischen Beobachtungen und der Geraden minimiert werden

Schätzer:

2

,

1( , ) ( ) min

n a bi ii

S a b y a bx

,y

x

sb r a y bx

s

Page 19: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 19

Wohnungsmarkt, Forts.

0

200

400

600

800

1000

0 50 100 150 200 250Fläche (m2)

Pre

is (

1000

EU

R)

97.59 4.19x

Geschätzte Regressionsgerade

Page 20: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 20

Wohnungsmarkt

ˆ 97.59 4.19y x Geschätzte Regressionsgerade

• Je m2 muss man im Durchschnitt mit Kosten von 4.190 Euro rechnen;• dazu kommt ein fixer Betrag von im Durchschnitt 97.590 Euro

• Residuen: • zur Beurteilung der Qualität der Erklärung der Daten durch die Regressionsgerade, insb. des Effekts von einzelnen Beobachtungen

( )i iy a bx

Page 21: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 21

Regression in EXCEL

Analysefunktion „Regression“Statistische Funktionen

RGP: liefert die Koeffizienten der linearen Regression SCHÄTZER: Liefert einen Y-Wert zu einem X-Wert

nach Anpassen der linearen Regression Und andere

Page 22: Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen.

8.3.04 PI Statistik, SS 2004 (5) 22

Regression in EXCEL: Ausgabe: Zusammenfassung

Regressions-Statistik

Multipler Korrela-tionskoeffizient 0,826

Bestimmtheitsmaß 0,682

Adj. Bestimmt-heitsmaß 0,659

Standardfehler 128,12

Beobachtungen 16

 Koeffizienten

Standard fehler t-Statistik P-Wert

Schnittpunkt 97,59 82,39 1,18 0,256

X Variable 1 4,19 0,76 5,47 8,2E-05