Statistik 1 für SoziologInnen - marcushudec.at Diskrete Zufallsvariable.pdf · In der...

37
Konzept diskreter Zufallsvariablen Univ.Prof. Dr. Marcus Hudec Statistik 1 für SoziologInnen

Transcript of Statistik 1 für SoziologInnen - marcushudec.at Diskrete Zufallsvariable.pdf · In der...

Konzept diskreter Zufallsvariablen

Univ.Prof. Dr. Marcus Hudec

Statistik 1 für SoziologInnen

Beispiel: Zufallsvariable

3 Münzen werden unabhängig voneinander geworfen. Jede Münze

kann entweder Kopf oder Zahl zeigen. Man ist nur an der Zahl der

Köpfe interessiert.

Elementar-ereignis

Wahrschein- lichkeit

KKK 1/8

KKZ 1/8

KZK 1/8

ZKK 1/8

KZZ 1/8

ZKZ 1/8

ZZK 1/8

ZZZ 1/8

2 Statistik 1 - Diskrete Zufallsvariable

Beispiel: Zufallsvariable

3 Münzen werden unabhängig voneinander geworfen. Jede Münze

kann entweder Kopf oder Zahl zeigen. Man ist nur an der Zahl der

Köpfe interessiert.

Elementar-ereignis

AnzahlKopf

Wahrschein-lichkeit

KKK 3 1/8

KKZ 2 1/8

KZK 2 1/8

ZKK 2 1/8

KZZ 1 1/8

ZKZ 1 1/8

ZZK 1 1/8

ZZZ 0 1/8

3 Statistik 1 - Diskrete Zufallsvariable

Beispiel: Zufallsvariable

Jedem Elementarereignis wird eine Zahl zugeordnet

(Anzahl der beobachteten Köpfe)

Die Wahrscheinlichkeit für das Auftreten einer Zahl

ergibt sich durch Summation der

Wahrscheinlichkeiten der Elementarereignisse, die

mit dieser Zahl verknüpft sind:

AnzahlKopf 0 1 2 3

Wahrschein-lichkeit

1/8 3/8 3/8 1/8

4 Statistik 1 - Diskrete Zufallsvariable

Diskrete Zufallsvariable (Random Variable)

Eine Variable X, die jedem möglichen Ereignis

e E eines Zufallsexperimentes eine Zahl X(e)

zuordnet, wird als Zufallsvariable bezeichnet.

Die Wahrscheinlichkeitsverteilung einer Zufalls-

variablen X ergibt sich durch die Zuordnung der

Wahrscheinlichkeiten von allen durch X definierten

Ereignissen.

5 Statistik 1 - Diskrete Zufallsvariable

Beispiel aus Buch von Agresti

General Social Survey

Question: „What do you think is the ideal number of

children for a family to have?“

Statistik 1 - Diskrete Zufallsvariable6

Ideal Number 0 1 2 3 4 5

Relative

Frequency

0,01 0,03 0,60 0,23 0,12 0,01

Beispiel aus Buch von Agresti

If you randomly pick out a person from the US-

population the probability of each allowed answer

will follow the above table.

Statistik 1 - Diskrete Zufallsvariable7

Ideal Number 0 1 2 3 4 5

Probability 0,01 0,03 0,60 0,23 0,12 0,01

Wahrscheinlichkeitsfunktion

Die Funktion f(x), die jeder Zahl x die Wahrschein-

lichkeit P(X=x) zuordnet, heißt Wahrscheinlichkeits-

funktion der diskreten Zufallsvariablen X:

f(x) = P(X = x)

Seien x1, x2, ..., xi, ... die Realisationsmöglichkeiten

der diskreten Zufallsvariablen X, so wird die

Wahrscheinlichkeitsfunktion oft kurz als pi

geschrieben:

f(xi) = P(X = xi) = pi i=1, 2, ... 8 Statistik 1 - Diskrete Zufallsvariable

Beispiel: Zufallsvariable

Jedem Elementarereignis wird eine Zahl zugeordnet

(Anzahl der beobachteten Köpfe)

P{X=2} = 3/8

P{X 2} = 1 - P{X > 2} = 1/8 + 3/8 + 3/8 = 1-1/8 =7/8

P{0 < X 1} = 3/8

P{X > 1} = 1 - P{X 1} = 3/8 + 1/8 = 1 - 1/8 - 3/8 = 4/8

AnzahlKopf 0 1 2 3

Wahrschein-lichkeit

1/8 3/8 3/8 1/8

9 Statistik 1 - Diskrete Zufallsvariable

Verteilungsfunktion

Um die Wahrscheinlichkeitsverteilung einer

Zufallsvariablen X zu definieren, genügt es Ereignissen

des Typs

{X x}

Wahrscheinlichkeiten zuzuordnen.

Daraus lassen sich bereits für alle anderen durch X

definierten Ereignisse die Wahrscheinlichkeiten

ermitteln.

Die Funktion F(x), die jedem x die Wahrscheinlichkeit

P(X x) zuordnet nennt man die theoretische

Verteilungsfunktion der Zufallsvariablen X:

F(x) = P(X x)

10 Statistik 1 - Diskrete Zufallsvariable

Beispiel: Münzwurf

F(0) = P{X 0} = 1/8

F(1) = P{X 1} = 4/8

F(2) = P{X 2} = 7/8

F(3) = P{X 3} = 8/8

Anzahl Kopf X 0 1 2 3

Wahrscheinlichkeits-

funktion P(X=x) 1/8 3/8 3/8 1/8

Verteilungsfunktion

F(x) = P(X≤x) 1/8 4/8 7/8 8/8

Verteilungsfunktion

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5

11 Statistik 1 - Diskrete Zufallsvariable

Beispiel

Statistik 1 - Diskrete Zufallsvariable12

Ideal Number of

Children X

Probability

P(X = x)

Cumulative

Probability

F(x) = P(X ≤ x)

0 0,01 0,01

1 0,03 0,04

2 0,60 0,64

3 0,23 0,87

4 0,12 0,99

5 0,01 1,00

P(2 ≤ X ≤ 3) = 0,60 + 0,23 = 0,83

P(X ≤ 3) = 0,87 P(X ≤ 1) = 0,04

P(2 ≤ X ≤ 3) = P(X ≤ 3) - P(X ≤ 1) = 0,87 - 0,04 = 0,83

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0 1 2 3 4 5

Pro

ba

bili

ty P

(X =

x)

Ideal Number of Children

Wir können aus der

theoretischen

Verteilungsfunktion die

Wahrscheinlichkeit für

beliebige Ereignisse

berechnen.

Sprachliche Formulierungen

Für eine diskrete Zufallsvariable, die nur ganzzahlige

Werte annehmen kann, sind folgende Aussagen

äquivalent:

X größer 2 X>2 bzw. X≥3

X zumindest 3 X≥3

X ist 3 oder mehr X≥3

X ist nicht kleiner als 3 Nicht(X<3)= X≥3

Ebenfalls äquivalent sind die folgenden Aussagen:

X ist kleiner als 2 X<2 bzw. X ≤ 1

X ist höchstens 1 X≤1

X ist 1 oder kleiner X≤1

X ist nicht größer als 1 Nicht(X>1)= X ≤ 1

Statistik 1 - Diskrete Zufallsvariable13

Eigenschaften der theor. Verteilungsfunktion

F(x) nimmt nur Werte zwischen 0 und 1 an, d.h. es

gilt:

0 ≤ F(x) ≤ 1

bzw. da F(x) = P(X ≤ x)

0 ≤ P(X ≤ x) ≤ 1

F(x) steigt für wachsendes x monoton an

x1< x2 F(x1) F(x2)

F(x) 1 für x

F(x) 0 für x -

14 Statistik 1 - Diskrete Zufallsvariable

f(x) F(x) im diskreten Fall

Zwischen der Wahrscheinlichkeitsfunktion f(x) und

der Verteilungsfunktion F(x) gelten im Fall der

diskreten Zufallsvariable X mit den

Realisationsmöglichkeiten x1, x2, ..., xi, ...:

F(xi) - F(xi-1) = f(xi)

F(xi) = P(X xi) =

= P(X < xi) + P(X = xi) =

= F(xi-1) + P(X = xi)

F x) f xi

x xi

( ( )

15 Statistik 1 - Diskrete Zufallsvariable

Die Differenz zweier

aufeinanderfolgender Werte

der Verteilungsfunktion ist die

Wahrscheinlichkeit des

größeren Wertes bestimmt

Erwartungswert

Sei X eine diskrete Zufallsvariable mit den

Realisationsmöglichkeiten xi und der zugehörigen

Wahrscheinlichkeitsfunktion pi=P(X=xi), i=1,2,...

Dann heißt E(X) der Erwartungswert von X.

Gewichtete Summe der Merkmalsausprägungen,

wobei die Gewichte die Wahrscheinlichkeiten sind.

16 Statistik 1 - Diskrete Zufallsvariable

E X x pi i

i

( )

Varianz einer ZV

i i

i

V(X) E(X²) E(X)²

V(X) [x E(X)]²p(x )

17 Statistik 1 - Diskrete Zufallsvariable

Misst die theoretisch zu erwartende Schwankung

eines zufälligen Phänomens

Y a bX V(Y) b²V(X)

Analoge Eigenschaften wie bei der empirischen

Varianz

Beispiel aus Buch von Agresti

Statistik 1 - Diskrete Zufallsvariable18

( ) i i

i

E X x p

V(X) E(X²) E(X)²

Ideal Number of

Children X

Probability

P(X = x) E(X) E(X²)

0 0,01 0,00 0,00

1 0,03 0,03 0,03

2 0,60 1,20 2,40

3 0,23 0,69 2,07

4 0,12 0,48 1,92

5 0,01 0,05 0,25

2,45 6,67

Erwartungswert E(X): 2,45

Varianz V(X): = 6,67 - 2,45² = 0,6675

Standardabweichung: 0,8170

Varianz beim Roulette (Varianz.XLS)

19 Statistik 1 - Diskrete Zufallsvariable

Unterschiedliche Strategien haben den selben

Erwartungswert aber eine verschiedene Varianz !

Varianz beim Roulette (Varianz.XLS)

20 Statistik 1 - Diskrete Zufallsvariable

-250

-150

-50

50

150

250

0 100 200 300 400 500

Simulation Spiel auf Dutzend

Simulation Spiel auf 1 Zahl

Theorie

Drücken Sie F9

Beispiel Würfelwurf

Wir betrachten einen idealen (unverfälschten) Würfel,

welcher folgende Wahrscheinlichkeitsfunktion besitzt:

21 Statistik 1 - Diskrete Zufallsvariable

Augenzahl Probability E(X) E(X²)

1 0,1667 0,1667 0,1667

2 0,1667 0,3333 0,6667

3 0,1667 0,5000 1,5000

4 0,1667 0,6667 2,6667

5 0,1667 0,8333 4,1667

6 0,1667 1,0000 6,0000

1,0000 3,5 15,1667

Erwartungswert 3,5

Varianz 2,9167

Standardabweichung 1,7078

( ) i i

i

E X x p

V(X) E(X²) E(X)²

Arithm. Mittel versus Erwartungswert

22 Statistik 1 - Diskrete Zufallsvariable

Inferenzstatistisches Prinzip

In der Inferenzstatistik (schließenden Statistik)

versucht man durch den systematischen Vergleich

von empirischen Häufigkeitsverteilungen mit

hypothetischen theoretischen Modellen

Schlussfolgerungen über den datengenerierenden

Prozess ziehen zu können.

Dieser Vergleich kann auf verschiedenen Ebenen

erfolgen:

Vergleich der theoretischen und der empirischen

Verteilung (z.B. Säulendiagramm empirischer

Häufigkeiten versus Wahrscheinlichkeitsfunktion)

Vergleich von Maßzahlen (z.B. Mittelwert versus

Erwartungswert)

23 Statistik 1 - Diskrete Zufallsvariable

Beispiel: Diskrete Zufallsvariable

Bei einem Wissenstest muss ein Kandidat bei jeder Frage ein Zuordnungsproblem der folgenden Art lösen:

1) Erste Türkenbelagerung

2) Schlacht von Hastings

3) Entdeckung Amerikas

a) 1066 b) 1492 c) 1529

Der Ereignisraum kann wie folgt dargestellt werden:a b c a c b b a cb c a c a b c b a

Die Anzahl der richtigen Antworten bei dieser Frage ist,da die korrekte Lösung (c a b) lautet, wie folgt:0 1 10 3 1

24 Statistik 1 - Diskrete Zufallsvariable

Beispiel: Diskrete Zufallsvariable

Geht man davon aus, dass ein Kandidat die Fragen rein

nach dem Zufallsprinzip beantwortet (jede der 6

möglichen Antwortmuster mit gleicher Wahrscheinlichkeit

wählt), ergibt sich für die Wahrscheinlichkeitsfunktion der

Anzahl richtigen Antworten folgende Tabelle:

AnzahlrichtigeAntworten

0 1 2 3

Wahrschein-lichkeit

2/6 3/6 0 1/6

25 Statistik 1 - Diskrete Zufallsvariable

Beispiel: Diskrete Zufallsvariable

Stellt man den Kandidaten wiederholt eine

Problemstellung des obigen Typs, kann man wohl davon

ausgehen, dass der Kandidat im Mittel pro Problem eine

richtige Antwort treffen wird:

xi pi xipi

0 2/6 0

1 3/6 3/6

2 0 0

3 1/6 3/6

Summe 1 1

Dieses gewogene Mittel ist der Erwartungswert der

Zufallsvariable.

26 Statistik 1 - Diskrete Zufallsvariable

E X x pi i

i

( ) E X x pi i

i

( )

Anwendung beim Zuordnungstest

In 3 Schulklassen (A, B, C) mit je 30 Schülern wird der zuvor beschriebene Zuordnungstest durchgeführt:

Korrekt Prob Theorie A B C

0 2/6 10 24 11 4

1 3/6 15 4 15 6

2 0 0 0 0 0

3 1/6 5 2 4 20

Erwartungswert bei zufälligem Antwortverhalten (Theorie) 1 richtige Lösung pro Schüler

Berechnung der empirischen Mittelwerte pro Klasse:

Mittelwert in Klasse(A): 10/30 = 1/3

Mittelwert in Klasse B: 27/30 = 9/10

Mittelwert in Klasse C: 66/30 = 2,2

27 Statistik 1 - Diskrete Zufallsvariable

Theorie:

Verteilung beim

Raten nach dem

reinen

Zufallsprinzip

k

i

ii

k

i

ii xhxnn

x11

1

Vergleich empirische – theoretische Verteilung

0

5

10

15

20

25

30

0 1 2 3

Theorie

A

0

5

10

15

20

25

0 1 2 3

Theorie

B

0

5

10

15

20

25

0 1 2 3

Theorie

C

28 Statistik 1 - Diskrete Zufallsvariable

Gruppe A: deutlich

schlechter als blindes Raten

Gruppe B: entspricht

blindem Raten

Gruppe C: deutlich besser

als blindes Raten

Eigenschaften des Erwartungswertes

Der Erwartungswert einer Summe ist die Summe der

Erwartungswerte

Statistik 1 - Diskrete Zufallsvariable29

E(X Y) E(X) E(Y)

E(aX b) aE(X) b

Linearität:

Additivität:

Beachte :

E(X X) E(2X)

aber

X X 2X

Zufallsvariable Augenzahl beim Würfelwurf

Augen-

zahl (X) P(X=x) x.P(X=x)

1 0,167 0,167

2 0,167 0,333

3 0,167 0,500

4 0,167 0,667

5 0,167 0,833

6 0,167 1,000

3,5

30 Statistik 1 - Diskrete Zufallsvariable

E(X) = 3,5

Zufallsvariable Doppelte Augenzahl (2X)

Augen-

zahl

(2X) P(X=x) x.P(X=x)

2 0,167 0,333

4 0,167 0,667

6 0,167 1,000

8 0,167 1,333

10 0,167 1,667

12 0,167 2,000

7

31 Statistik 1 - Diskrete Zufallsvariable

E(2X) = 2*3,5=7

E(X) = 3,5

Ergebnis Augen Augen Augen Augen Augen Augen Möglich-

keiten

2 1

3 2

4 3

5 4

6 5

7 6

8 5

9 4

10 3

11 2

12 1

Summe Augenzahl von 2 Würfen

32 Statistik 1 - Diskrete Zufallsvariable

Zufallsvariable X+X

1 2 3 4 5 6

1 0,028 0,028 0,028 0,028 0,028 0,028

2 0,028 0,028 0,028 0,028 0,028 0,028

3 0,028 0,028 0,028 0,028 0,028 0,028

4 0,028 0,028 0,028 0,028 0,028 0,028

5 0,028 0,028 0,028 0,028 0,028 0,028

6 0,028 0,028 0,028 0,028 0,028 0,028

33 Statistik 1 - Diskrete Zufallsvariable

Summe Augenzahl von 2 Würfen

z.B.: P(X+X=7)=6/36 1/36 = 0,02777778

Zufallsvariable X+X

Augen-

zahl

Y=X+X P(Y=y) y.P(Y=y)

2 0,028 0,056

3 0,056 0,167

4 0,083 0,333

5 0,111 0,556

6 0,139 0,833

7 0,167 1,167

8 0,139 1,111

9 0,111 1,000

10 0,083 0,833

11 0,056 0,611

12 0,028 0,333

7,000

0,000

0,020

0,040

0,060

0,080

0,100

0,120

0,140

0,160

0,180

2 3 4 5 6 7 8 9 10 11 12

P(Y=y)

34 Statistik 1 - Diskrete Zufallsvariable

E(2X) = 2*3,5 = 7E(X) = 3,5 E(X+X) = E(2X) = 7

Eigenschaften der Varianz einer ZV

V(X) E(X²) E(X)²

35 Statistik 1 - Diskrete Zufallsvariable

Y a bX V(Y) b²V(X)

In Bezug auf lineare Transformationen gilt analog wie bei

der empirischen Varianz:

In Bezug auf die Summe/Differenz gilt, für zwei

unabhängige Zufallsvariablen X und Y:

Allgemein gilt:

V(X Y) V(X) V(Y)

V(X Y) V(X) V(Y)

V(X Y) V(X) V(Y) 2Cov(X,Y)

Anwendungsbeispiel

Im Zuge einer Erhebung wurden Haushalte in einer Stadt nach der

Anzahl der im Haushalt benutzten KFZ befragt.

Sie wählen aus der obigen Population rein zufällig einen Haushalt aus

und X sei die Zufallsvariable Anzahl der KFZ in einem zufällig

ausgewählten Haushalt.

Berechne Erwartungswert und Varianz für die diskrete Zufallsvariable X!

Angenommen Sie ziehen aus der obigen Population eine

Zufallsstichprobe von 5 unabhängigen Haushalten.

Wie groß sind der Erwartungswert und die Varianz für die

Gesamtsumme der Anzahl der KFZ, die von den 5 ausgewählten

Haushalten genutzt werden?

Statistik 1 - Diskrete Zufallsvariable36

Anzahl der benutzten KFZ

0 1 2 3

Relative Häufigkeit

30% 40% 20% 10%

Lösung

Statistik 1 - Diskrete Zufallsvariable37

Anzahl KFZ rel Häufigkeit E(X) X² E(X²)

0 30% 0 0 0

1 40% 0,4 1 0,4

2 20% 0,4 4 0,8

3 10% 0,3 9 0,9

100% 1,1 2,1

Varianz 0,89

Erwartungswert bei 1 Person 1,1

Varianz bei einer Person 0,89

Erwartungswert bei 5 Personen 5,5

Varianz bei 5 Personen 4,45 wegen Unabhängigkeit

Vorgehen:

zuerst berechnen wir E(X) und V(X); dann wenden wir an, dass der Erwartungswert

einer Summe gleich der Summe der Erwartungswerte ist. Bei der Varianz gilt das nur,

wenn die Beobachtungen statistisch unabhängig sind!