Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen.

Post on 06-Apr-2015

110 views 4 download

Transcript of Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen.

Statistik: 3.3.04

Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 2

Beispiel: UnfälleFür 165 Unfälle wurden registriert:

Ort des Unfalls: (innner-/außerhalb) Stadtgebiet Personenschaden: ja/nein

P-Schaden

Stadt

Land Summe

ja 17 35 52

nein 65 48 113

Summe 82 83 165

3.3.04 PI Statistik, SS 2004 (4) 3

Unfälle: Häufigkeitsverteilung

Unfallhäufigkeiten und Personenschaden

0

10

20

30

40

50

60

70

Stadt Land

ja

nein

StadtLand

ja

nein0

1020

30

40

50

60

70

Unfälle und Personenschaden

ja

nein

Gruppiertes Säulendiagramm

3D-Säulen

3.3.04 PI Statistik, SS 2004 (4) 4

Kontingenztafel

Tabellierung von gemeinsamen Häufigkeiten zweier (oder mehrerer) qualitativer Merkmale, Häufigkeitsverteilung Auch Kreuztabellen oder Kreuzklassifikation genannt

X Y y1 … ysSumm

e

x1 n11 … n1s n1.

… … … … …

xr nr1 … nrs nr.

Summe

n.1 … n.r nZelle Randverteilung

en

3.3.04 PI Statistik, SS 2004 (4) 5

Unfälle: Häufigkeitsverteilungen

StadtLand

ja

nein010

20

30

40

50

60

70

Unfälle und Personenschaden

0

10

20

30

40

50

60

70

80

90

Stadt Land

0

20

40

60

80

100

120

ja nein

Randverteilung nach • Personenschaden• Stadt/Land

(bedingte) Verteilung nach Personen-schäden von Unfällen in der Stadt

3.3.04 PI Statistik, SS 2004 (4) 6

Rand- und bedingte Verteilungen

ni., i =1,…,r: (Rand)Verteilung des (Zeilen-) Merkmals X

n.j, j =1,…,s: (Rand)Verteilung des (Spalten-) Merkmals Y

„.“ gibt an, dass über alle möglichen Werte des Index summiert wurde

ni. = j nij

ni|j, i =1,…,r : bedingte Verteilung des (Zeilen-) Merkmals X für Y =yj

nj|i, j =1,…,s : bedingte Verteilung des (Spalten-) MerkmalsY für X =xi

3.3.04 PI Statistik, SS 2004 (4) 7

Unfälle: Häufigkeitsverteilungen

P-Schaden

Stadt

Land Summe

ja 17 35 52

nein 65 48 113

Summe 82 83 165

Randverteilung nach • Personenschaden• Stadt/Land

(bedingte) Verteilung nach Personen-schäden von (82!) Unfällen in der Stadt

Gemeinsame Verteilung

3.3.04 PI Statistik, SS 2004 (4) 8

Relative Häufigkeiten

Gemeinsame relative Häufigkeiten

, 1,..., , 1,...,ijij

np i r j s

n

z.B.: Anteil der (65) Unfälle ohne Personenschaden in der Stadt an allen (165) Unfällen

Bedingte relative Häufigkeiten

z.B.: Anteil der (65) Unfälle ohne Personenschaden (in der Stadt) an den (82) Unfällen in der Stadt

sjn

npri

n

np

i

ijij

j

ijji ,,1,,,,1,

.|

.|

3.3.04 PI Statistik, SS 2004 (4) 9

Unfälle: Relative Häufigkeiten

P-Schaden

Stadt

Land Summe

ja 10.3 21.2 31.5

nein 39.4 29.1 68.5

Summe 49.7 50.3 100.0

Randverteilung nach • Stadt/Land• Personenschaden

Gemeinsame Verteilung

3.3.04 PI Statistik, SS 2004 (4) 10

Unfälle: Bedingte relative Häufigkeiten

P-Schaden

Stadt

Land Summe

ja 32.7 67.3 100.0

nein 57.5 42.5 100.0

Summe 49.7 50.3 100.0

Bedingte Verteilungen für Unfälle • mit• ohne

Personenschaden

Analog bedingte Verteilungen für Unfälle in Stadt und Land

nach Personenschaden

3.3.04 PI Statistik, SS 2004 (4) 11

Bedingte Verteilungen

Unfälle mit und ohne Personenschäden

20,7%42,2%

79,3%57,8%

0,0%

20,0%

40,0%

60,0%

80,0%

100,0%

120,0%

Stadt Land

Bedingte Verteilung für Unfälle in Stadt und Land nach Personenschaden

Gestapeltes Säulendiagramm

3.3.04 PI Statistik, SS 2004 (4) 12

Beziehung zwischen Merkmalen

Das Wissen über die Ausprägung eines Merkmals hilft, die Ausprägung des anderen Merkmals vorherzusagen

Beispiel: Unfall passierte auf Autobahn; Personenschäden sind wahrscheinlicher als wenn der Unfall im Stadtgebiet stattgefunden hätte

3.3.04 PI Statistik, SS 2004 (4) 13

Merkmale: Unabhängigkeit Zwei Merkmale X und Y werden als unabhängig bezeichnet, wenn die bedingten Verteilungen pi|j, i =1, …, r, für alle (j =1,… ,s) Merkmalsausprägungen von Y übereinstimmen

3.3.04 PI Statistik, SS 2004 (4) 14

Sind Ort und Personenschäden bei Unfällen unabhängig?

Was sagen uns: bedingte Verteilungen für Unfälle mit und ohne

Personenschäden bedingte Verteilungen für Unfälle in Stadt und Land nach

Personenschaden

P-Schaden Stadt Land Summe

ja 32.7 67.3 100.0

nein 57.5 42.5 100.0

Summe 49.7 50.3 100.0

3.3.04 PI Statistik, SS 2004 (4) 15

Erwartete Häufigkeiten

Sind X und Y unabhängige Merkmale, so erwarten wir die Häufigkeiten

n

nnn jiij

..ˆ

Die erwarteten Häufigkeiten sind durch die Randverteilungen bestimmt

3.3.04 PI Statistik, SS 2004 (4) 16

Unfälle: Erwartete Häufigkeiten

P-Schaden

Stadt LandSumm

e

ja 25,8 26,2 52

nein 56,2 56,8 113

Summe 82 83 165

P-Schaden

Stadt

Land Summe

ja 17 35 52

nein 65 48 113

Summe 82 83 165

Beobachtet:

Bei Unabhängig-keit erwartet:

3.3.04 PI Statistik, SS 2004 (4) 17

Chiquadrat-Statistik

Assoziationsmaß, d.h. Maß für Abhängigkeit zwischen Merkmalen

2

1

2

1

2

ˆ

)ˆ(

i j ij

ijij

n

nnT

Bei Unabhängigkeit der Merkmale: T = 0Bei Abhängigkeit: T ist wesentlich größer als 0

Bei Unabhängigkeit folgt die Chiquadrat-Statistik derChiquadrat-Verteilung

3.3.04 PI Statistik, SS 2004 (4) 18

Unfälle

Chiquadrat-Statistik:T = 8.78

p-Wert (Wahrscheinlichkeit, dass T ≥ 8.78, wenn Unabhängigkeit der Merkmale zutrifft): 0.003Unabhängigkeit der Merkmale ist unplausibel

3.3.04 PI Statistik, SS 2004 (4) 19

(r x s) - Kontingenztafel

Verallgemeinerung der 2x2-TafelChiquadrat-Statistik:

Bei Unabhängigkeit folgt die Chiquadrat-Statistik der Chiquadrat-Verteilung mit (r-1)(s-1) Freiheitsgraden

r

i

s

j ij

ijij

n

nnT

1 1

2

ˆ

)ˆ(

)1)(1(2 srT

3.3.04 PI Statistik, SS 2004 (4) 20

Homogenität

Das Merkmal Y charakterisiert die PopulationHomogenität: die bedingten Verteilungen

pi|j, i =1, …, r

sind für alle j Populationen gleichZum Überprüfen der Homogenität: Chiquadrat-Statistik

3.3.04 PI Statistik, SS 2004 (4) 21

Kontingentzkoeffizienten

Von der Chiquadrat -Statistik abgeleitete Assoziationsmaße:Pearson´scher Kontingenzkoeffizient

Cramér´scher Kontingenzkoeffizient

bei Unabhängigkeit: P = 0, C = 0 Maximalwert: P < 1, C ≤ 0

Tn

TP

)1,1min(

srn

TC

3.3.04 PI Statistik, SS 2004 (4) 22

Unfälle

8.78 8.780.225, 0.231

165 8.78 165P C

Für die Kontingenzkoeffizienten erhalten wir

3.3.04 PI Statistik, SS 2004 (4) 23

Beispiel: Nochmals UnfälleFür 165 Unfälle wurden registriert:

Ort des Unfalls: Ortsgebiet, Landstraße, Autobahn Personenschaden: ja/nein

P-Schaden Orts-Geb.

Land-Staße

A-Bahn

Summe

ja 17 23 12 52

nein 65 44 4 113

Summe 82 67 16 165

2x3 Kontingenztafel

3.3.04 PI Statistik, SS 2004 (4) 24

Beispiel, Forts.

Chiquadrat-Statistik: T = 18.68

Bei Unabhängigkeit folgt T der Chiquadrat-Verteilung mit (r-1)(s-1) = 2 FreiheitsgradenDer p-Wert beträgt 0.000088 !Pearson´scher Kontingenzkoeffizient:

P = 0.319Cramér'scher Kontingenzkoeffizient:

C = 0.336