Statistik Lektion 3

35
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

description

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen. Repetition. En stokastisk variabel X er en funktion defineret på S (udfaldsrummet), der antager værdier på R . Diskret stokastisk variabel: Tælleligt antal værdier - PowerPoint PPT Presentation

Transcript of Statistik Lektion 3

Page 1: Statistik Lektion 3

StatistikLektion 3

Simultan fordelte stokastiske variableKontinuerte stokastiske variableNormalfordelingen

Page 2: Statistik Lektion 3

Repetition En stokastisk variabel X er en funktion defineret på S

(udfaldsrummet), der antager værdier på R. Diskret stokastisk variabel: Tælleligt antal værdier Sandsynlighedsfordeling: Tabel med ssh. for hvert x,

P(X = x) = P(x) ≥ 0. Kumulativ fordelingsfunktion Middelværdi

Varians Standard afvigelse

Lineær transformation:

xi

iPxXPxF )( )()(

x

xxPxE )()(

2222 )]([)(])[()( XEXEXEXV

)()( XVXSD

bXaEbaXE ][][ ][][ 2 XVabaXV

Page 3: Statistik Lektion 3

Middelværdi for Lineær transformation: Bevis

bXaE

xPbxxPa

xbPxaxP

xbPxaxP

xPbaxbaXE

xx

xx

x

x

][

Page 4: Statistik Lektion 3

Varians for Lineær transformation: Bevis

XVa

XEXaE

XEXaE

XaEaXE

bXaEbaXE

baXEbaXEbaXV

2

22

2

2

2

2][

Page 5: Statistik Lektion 3

Simultan Sandsynlighedsfordeling

1.

2.

. og af værdier alle for yxyxP 0),( 1),(

yxyxP

og alle

y

yxPxPxXP alle

),()()(

x

yxPyPyXP alle

),()()(

(joint probability function)

Definition: Hvis X og Y er to diskrete stokastiske variable, så er P(x,y) =P(X=x,Y=y) en simultan sandsynligheds-funktion for X og Y, hvis

Definition: Den Marginale sandsynlighedsfordeling for hhv. X og Y er

Page 6: Statistik Lektion 3

Eksempel: Alder og Salg

Sammenhæng mellem aldersgruppe (X) og købsmønster (Y):

Aldergruppe (X)

Købs-mønster (Y)

1(16 til 25)

2(26 til 45)

3(46 til 65) P(y)

1 (køb) 0.10 0.20 0.10 0.402 (ej køb) 0.25 0.25 0.10 0.60P(x) 0.35 0.45 0.20 1.00

Marginale fordeling af Y

Marginale fordeling af X

Page 7: Statistik Lektion 3

Betinget Sandsynligheder for SV For to diskrete stokastiske variable er den betingede

sandsynligheden for X=x givet Y=y givet ved

Eksempel: Betingede sandsynlighed for køb (Eksempel: Betingede sandsynlighed for køb (Y=1) givet kunde i aldergruppen 26 til 45 (X = 2).

Svar: P(X=2,Y=1) = P(2,1) = 0.20 og P(X=2) = 0.45

)(),()|(

yPyxPyYxXP

44.045.020.0)2|1( XYP

Page 8: Statistik Lektion 3

Uafhængighed

Eksempel: Er aldersgruppe og købsmønster uafhængige?

Svar:

Dvs. der er ikke uafhængighed.

Definition: To diskrete stokastiske variable X og Y er uafhængige hvis og kun hvis

for alle x og y, hvor P(x) og P(y) er de marginale sandsynligheds-funktioner.

)()(),( yPxPyxP

)2,3(10.012.060.020.0)2()3( YXPYPXP

Page 9: Statistik Lektion 3

Kovarians X stokastisk variabel med forventet værdi μX

Y stokastisk variabel med forventet værdi μY

Kovariansen mellem X og Y er givet ved

Bemærk: Hvis X og Y er uafhængige så er Cov(X,Y) = 0.

Hvis X og Y har diskrete stokastiske variable med simultan sandsynlighedsfunktion P(x,y), så er kovariansen givet ved

))((),( YX YXEYXCov

x y

YX yxPyxYXCov ),())((),(

Page 10: Statistik Lektion 3

Middelværdi og Varians for Par af Stokastiske Variable Lad X være SV med forventet værdi x og varians 2

X

Lad Y være SV med forventet værdi Y og varians 2Y

Da gælder

Eksempler: E[ X + Y ] = X + Y

E[ X – Y ] = X - Y

cbacbYaXE YX

),(22222 YXCovabbacbYaXV YX

),(222 YXCovYXV YX ),(222 YXCovYXV YX

Page 11: Statistik Lektion 3

Regneregler for middelværdi og varians

)()()()()()()()(

22112211

2121

kkkk

kk

XEaXEaXEaXaXaXaEXEXEXEXXXE

Middelværdien af en linearkombination af stokastiske variable X1, X2,…, Xk.

)()()()(

)()()()(2

2221

212211

2121

kkkk

kk

XVaXVaXVaXaXaXaV

XVXVXVXXXV

Hvis X1, X2,… ,Xk er indbyrdes uafhængige, så:

Disse regler gælder for både diskrete og kontinuerte stokastiske variable

Page 12: Statistik Lektion 3

Bernoulli fordelingen Hvis et eksperiment består af et enkelt forsøg og forsøget

enten kan være en succes eller en fiasko, så kaldes forsøget for et Bernoulli forsøg

En binær stokastisk variabel X er en Bernoulli variabel med sandsynligheds-parameter p, hvis

Middelværdi og varians for en Bernoulli variabel: E(X) = V(X) =

Hvis for eksempel p = 0,7: E(X) = V(X) =

E(X2) =

P(Succes) = P(X=1) = p og P(Fiasko) = P(X=0) = 1-p.

Page 13: Statistik Lektion 3

Mange forsøg…

Lad X1, X2,…, Xn være n uafhængige Bernoulli variable, alle med samme sandsynligheds-parameter p.

Husk: E(Xi) = p og V(Xi) = p(1-p)

Definer: X = X1+X2+…+Xn

Da gælder X ~ B(n,p) (X følger en binomial fordeling)

Middelværdi og varians for X E(X ) = E(X1+X2+…+Xn) = V(X ) =V(X1+X2+…+Xn) =

(X = ”Antal successer”)

Page 14: Statistik Lektion 3

• Diskret stokastisk variabel: Tæller hændelser Har et tællelig antal af mulige værdier Har diskrete hop mellem

efterfølgende værdier Har målelige sandsynligheder for

hver enkelt værdi Sandsynlighed er højde

• En kontinuert stokastisk variabel: Måler (højde, vægt, hastighed, løn) Har et uendelig antal af mulige

værdier Går kontinuert fra værdi til værdi Har ingen målelig sandsynlighed

til hver individuel værdi Sandsynlighed er areal

For eksempel: Binomial n=3 p=.5

x P(x)0 0.1251 0.3752 0.3753 0.125

1.000

For eksempel:Det skraverede område angiver sandsynligheden for mellem 2 og 3 minutter.

Diskrete og kontinuerte stokastiske

Page 15: Statistik Lektion 3

Kontinuert Stokastisk Variabel og Sandsynlighedstæthedsfunktion

Tæthedsfunktionen f(x)

Arealet under kurven f(x) er 1

Sandsynligheden for X mindre end 3 er det røde areal

Page 16: Statistik Lektion 3

Kontinuert Stokastisk Variabel og Sandsynlighedstæthedsfunktion Definition: Lad X → R være en kontinuert stokastisk

variabel. f(x) er (sandsynligheds)tæthedsfunktionen for X hvis

xxf alle for 0)(

1)(

dxxf

adxxfaXP )()(

Dvs. arealet under kurven f(x) er 1

Dvs. sandsynligheden for X er mindre end a svarer til arealet under kurven til venstre for a

Dvs. kurven f(x) er aldring under x-aksen

Page 17: Statistik Lektion 3

Tæthedsfunktion og Kumulerede Fordelingsfunktion

F(3)

F(2)

Kumulerede fordelingsfunktion:

Bemærk: F(x) →0, når x → -∞F(x) →1, når x → ∞

P(X = x) = 0

)2()3()2()3(

)()32(3

2

FFXPXP

dxxfXP

xdttfxXPxF )()()(

Page 18: Statistik Lektion 3

Middelværdi og Varians

Stok. Var: Diskret Kontinuert Regel Regel Middelværdi: E[ h(X) ] E[X2] Varians:

Bemærk: Integralerne kan typisk ikke ”udregnes”.

x

xxPXE )()(

dxxxfXE )()(

222 ][][])[()( XEXEXEXV

x

xPxhXhE )()())((

dxxfxhXhE )()())((

0)( xP

1)( x

xP 1)(

dxxf

0)( xf

x

xPxXE )()( 22

dxxfxXE )()( 22

Page 19: Statistik Lektion 3

Flere Regneregler Regneregler for middelværdi og varians er præcist som for

diskrete stokastiske variable. Antag at X er en kontinuert stokastisk variabel med

middelværdi og varians 2. Da gælder

Eksempel: Standardisering:

babXaEbaXE ][][22 ][][ aXVabaXV

XE

XV

Page 20: Statistik Lektion 3

Uniform fordelinguniform [a,b] tæthed:

1/(b – a) for a x b f(x)= 0 ellers

E(X) = (a + b)/2; V(X) = (b – a)2/12

bb1x

Hele arealet under f(x) = 1/(b – a) * (b – a) = 1.00

Arealet under f(x) fra a1 til b1 = P(a1X b1) = (b1 – a1)/(b – a)

a1

Uniform [a, b] fordeling

f(x)

a

1/(b-a)

Page 21: Statistik Lektion 3

Uniform fordeling - Eksempeluniform [0,5] tæthed:

1/5 for 0 x 5 f(x)= 0 ellers

E(X) = (0 + 5)/2; V(X) = (5 – 0)2/12

3x

Hele arealet under f(x) = 1/(5-0) * (5 – 0) = 1.00

Arealet under f(x) fra 1 til 3 = P(1X 3) = (3 – 1)/(5 –0)

= 2/5 = 0,41

Uniform [a, b] fordeling

f(x)

1/5

50

Page 22: Statistik Lektion 3

Normal-fordelingen

Normal-fordelingen er en vigtig fordeling, blandt andet fordi mange andre fordelingen, kan approksimeres til den.

Desuden er mange teststørrelser normal-fordelte – kommer senere i kurset

Bland andre Carl F. Gauss (1777-1855) fandt frem til den, derfor kaldes den også den Gaussiske fordeling.

-4 -2 0 2 4

0.0

0.2

0.4

x

func

tion(

x) d

norm

(x) (

x)

GaussGaussfordeling

Må ikke printes ;-)

Page 23: Statistik Lektion 3

Normalfordelingen Dens kendetegn er:

Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi = median = toppunkt Den er karakteriseret ved en middelværdi og varians 2

(eller standardafvigelsen σ). Notation: X~N,2 betyder, at X følger en normal

fordeling med middelværdi μ og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den

samme for enhver normal fordeling - uanset middelværdi og standardafvigelse.

Er uanset parametre værdier, defineret for alle x (dvs x kan antage værdier fra minus uendelig til plus uendelig)

Page 24: Statistik Lektion 3

Tæthedsfunktionen for normal-fordelingen:

50-5

0.4

0.3

0.2

0.1

0.0

x

f(x)

Normal-fordelingen : = 0, 2 = 1

Tæthedsfunktionen for normal-fordelingen

1415926537182818,2

2

1)(2

2

2)(

2

,πe

xexfx

og hvor

for

Page 25: Statistik Lektion 3

Eksempler på normal-fordelinger

σ = 1.0σ = 2.0 σ = 0.5

μ = 0.0 μ = 1.0 μ = 2.0

Samme varians

Samme middelværdi.

Page 26: Statistik Lektion 3

Standardafvigelsen σ når X~N(μ,σ2) Cirka 68% af all observationer ligger indenfor en

standard afvigelse fra middelværdien

Cirka 95% af alle observationer ligger indenfor to standard afvigelser fra middelværdien

Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien

%68)( XP

%95)22( XP

%7,99)33( XP

Page 27: Statistik Lektion 3

σ

≈99,7%

≈95%

≈68%

Arealet under kurven indenfor kσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse.

Page 28: Statistik Lektion 3

Standard normalfordelingen, er normalfordelingen med middelværdi μ = 0 og standard afvigelse σ = 1, Z~N(0,1²)

Standard normalfordelingen

543210- 1- 2- 3-4- 5

0 .4

0 .3

0 .2

0 .1

0 .0

Z

f(z)

Standard Normalfordeling

= 0

=1{

NB: En standard normalfordelt stokastisk variabel betegnes sædvanligvis Z.

Page 29: Statistik Lektion 3

Den kumulative fordelingsfunktion F(x) for standard normal fordelingen er tabellagt i Tabel 1 i Appendikset, side 837 for positive værdier af x.

Figuren viser P(Z ≤ 1.21) = F(1.21)

Tabellen

P(Z≤1.21)

F(1.21)F(z) = P(Z ≤ z)

Page 30: Statistik Lektion 3

Find P(Z < 1.21) vha. Tabelopslag

P(Z ≤ 1.21 ) = F(1.21) = 0.8869

88,69% Bemærk: Standard normalfordelingen Er kun tabellagt for z = 0.00 til 3.99.

Tilsvarende tabelopslag i R:> pnorm(1.21)[1] 0.8868606

Page 31: Statistik Lektion 3

Find P(Z < -1.76) Vi kan ikke slå F(-1.76)

op i tabellen… Da standard normal-

fordelingen er symmetrisk omkring nul:

Vi har også:

Dvs.

)76.1()76.1( ZPZP

P(Z ≥ 1.76)P(Z ≤ -1.76)

0392.09608.01)76.1(1

)76.1(1)76.1(

F

ZPZP

%92.3)76.1( ZP

P(Z ≤ 1.76)P(Z ≥ 1.76) Tabelopslag

Page 32: Statistik Lektion 3

Find P(1 ≤ Z ≤ 2) Der gælder

P(1 ≤ Z ≤ 2)P(Z ≤ 2)

P(Z ≤ 2)

1359.08413.09772.0)1()2(

)1()2()21(

FFZPZPZP

Page 33: Statistik Lektion 3

Transformation til Standardnormal En lineær transformation af normalfordelt stokastisk

variabel er stadig en normalfordelt stokastisk variabel.

Lad X ~N(,2) og definer Y = aX + b, så gælder E[Y] = aE[X] + b = a + b V[Y] = a2V[X] = a22 Y ~ N(a + b, a22)

Lad X ~N(,2) og definer , så gælder E[Z] = 0 V[Z] = 1 Z ~ N(0,1)

XZ

Page 34: Statistik Lektion 3

Transformation: Eksempel Antag studerendes score til eksamen er normalfordelt med

middelværdi 60 og standardafvigelse 15. Dvs. score X ~ N(60,152) Spørgsmål: Hvor stor en andel af de studerende har en

score under 95? P(X ≤ 95) = ? Ide: Transformer problemet til et, der vedrører en standard

normal-fordelt stokastisk variabel.

Dvs. 99.01% af de studerende har en score under 95.

9901.0)33.2()33.2(15

609515

609595)95(

FZPZP

ZPXPXP

Page 35: Statistik Lektion 3

Kumulative fordeling i RFor dem der foretrækker kommando-linjen i R

Antag X ~ N(2,32)

Vi kan finde den kumulerede sandsynlighed F(7) = P(X 7) vha. kommandoen

pnorm(x=7,mean=2,sd=3)

R har en standard rækkefølge til parametre, så man kan nøjes med at skrive

pnorm(7,2,3)

Bemærk: Det er standard-afvigelsen ikke variansen!