Anvendt Statistik Lektion 3

25
Anvendt Statistik Lektion 3 Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

description

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse. Punkt- og intervalestimater: Motivation. Motiverende eksempel: I en undersøgelse er andelen af rygere 0.27. Det anslås at populationsandelen er mellem 0.25 og 0.29. Begreber: - PowerPoint PPT Presentation

Transcript of Anvendt Statistik Lektion 3

Page 1: Anvendt Statistik Lektion 3

Anvendt StatistikLektion 3

Punkt- og intervalestimater

Konfidensintervaller

Valg af stikprøvestørrelse

Page 2: Anvendt Statistik Lektion 3

Punkt- og intervalestimater: Motivation Motiverende eksempel:

I en undersøgelse er andelen af rygere 0.27. Det anslås at populationsandelen er mellem 0.25 og 0.29.

Begreber: De 0.27 er et punkt-estimat Intervallet 0.25 til 0.29 er et interval-estimat. Dvs. populationsandelen falder (anslået) indenfor

punkt-estimat +/- fejl-margin. Fejl-margin er her 0.02

Page 3: Anvendt Statistik Lektion 3

Punkt-estimat og -estimator

En estimator er en ”generel formel”, der bruges til at estimere en parameter med, fx.

Et estimat er en konkret udregning af en estimator, ved at indsætte data.

Der kan være mange estimatore for den samme parameter. Hvis populationsfordelingen er symmetrisk er både stikprøve-median og -gennemsnit estimatorer for populations-middelværdien.

n

yyyy n

21

Page 4: Anvendt Statistik Lektion 3

En god estimator En god estimator har typisk følgende egenskaber:

Den er Unbiased – dvs. at estimatoren i gennemsnit er lig parameteren.

Den er Efficient – dvs. fejl-marginen bliver mindre jo mere data der er til rådighed.

Eksempel: Stikprøve-gennemsnittet y er en unbiased og efficient estimator for populationsmiddelværdien m.

Eksempel: Stikprøve-medianen er en biased estimator for populationsmiddelværdien, hvis fordelingen ikke er symmetrisk.

Page 5: Anvendt Statistik Lektion 3

Notation – en på hatten

Generelt vil vi betegne en estimator med en ”hat” ^. Fx. betegner m en estimator for m.^

Page 6: Anvendt Statistik Lektion 3

Konfidensinterval Motivation:

Ifølge undersøgelse: 54% er vilde med pålægschokolade! (Et punkt-estimat)

Spørgsmål: Hvor sikkert er dette estimat?

Konfidensinterval Et konfidensinterval angiver et interval, hvor vi tror

parameteren ligger med en vis sikkerhed. Sandsynligheden for at vores stikprøve fører til et

konfidensinterval, der indeholder parameteren betegnes konfidensniveauet.

Konfidensniveauet er typisk 0.95 eller 0.99.

Page 7: Anvendt Statistik Lektion 3

Konfidensinterval: Typisk opskrift I mange tilfælde er stikprøvefordelingen for

estimatoren (tilnærmelsesvis) normalfordelt. Fx stikprøvegennemsnittet.

I disse tilfælde er konfidensintervallet givet ved

punkt-estimat ± fejl-margin

Spørgsmål: Hvordan finder vi fejl-marginen?

Page 8: Anvendt Statistik Lektion 3

Konfidensinterval for andele Notation

p : populations-andel p : stikprøve-andel

Bemærk: p er en estimator for p.

Antag y = 1 : succes / vild med pålægschokolade y = 0 : fiasko / ikke vild med pålægschokolade

Vi har

P(1) = p og P(0) = 1-p. Middelværdi og standard-afvigelse for y (populationen) er hhv.

m = p og s = √ (1- )p p

^

^

Page 9: Anvendt Statistik Lektion 3

Andelen er et gennemsnit

Bemærk:

Dvs. stikprøve-andelen er et stikprøve-gennemsnit!

For stikprøve-gennemsnit ved vi at standard-fejlen

er så for stikprøve-andelen er den

n

y

n

yyy i in

21

ny

n

)1(ˆ

Page 10: Anvendt Statistik Lektion 3

Konfidensinterval for p for stort n Da p er et gennemsnit siger CLT, at p ca. følger en

normalfordeling hvis n bare er stor nok.

Med 95% sandsynlighed vil p falde i intervallet

Omvendt: Med 95% sandsynlighed vil p ligge i intervallet

^

^

ˆ96.1

ˆ96.1ˆ

^

Page 11: Anvendt Statistik Lektion 3

0 .4

0 .3

0 .2

0 .1

0 .0

xp

2.5%

95%

2.5%

n

196.1ˆ

*

*

Konfidens-interval: En figurStikprøvefordelingen for p

n

196.1ˆ

Page 12: Anvendt Statistik Lektion 3

Konfidensinterval I praksis kender vi ikke p, dvs. vi kender ikke standard

fejlen:

I stedet for p bruger vi estimatet p :

Et 95% konfidens-interval for p er nu givet ved

hvor

se = ”standard error” = standardfejlen.

n)1(ˆ

^

se 96.1

nse )ˆ1(ˆ

Page 13: Anvendt Statistik Lektion 3

Eksempel

Setup: Af 1200 adspurgte i Florida svarer 396 ja til reduktion af abortrettigheder.

Spørgsmål: Find et 95% konfidensinterval for populations-andelen af ja-sigere.

p =

se =

95% konfidensinterval:

^

Page 14: Anvendt Statistik Lektion 3

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Hvad med et 99% konf. interval? Et 99% konfidensinterval:

Et (1-a)100% konfidensinterval

se 58.2

n

zˆ1ˆ

ˆ

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Egenskaber ved konfidensintervaller:o Jo højere konfidensniveau, jo større z og jo længere

konfidens-intervalo Jo større stikprøve (n) jo kortere konfidensintervalo Firdobling af n sikre halvering af konfidensinterval.

99%

z=2.58

(1- )100%a

z

( /2)100%a

Page 15: Anvendt Statistik Lektion 3

Konfidensinterval for middelværdi Ingredienser:

m : Populations-middelværdi y : Stikprøve-gennemsnit

y er et punktestimat for m.

For store stikprøver er y normalfordelt. Standardfejlen er altid

hvor s er standard-afvigelsen for populationen. Den estimerede standard-fejl er

ny

n

sse

Page 16: Anvendt Statistik Lektion 3

Eksempel Konfidensinterval for middelværdi er

Eksempel: På et spørgsmål om antal seksuelle partnere blandt n = 231

kvinder, var gennemsnittet y = 4.96 og standard-afvigelsen s = 6.81.

Find et 95% konfidensinterval for populations-middelværdien m.

n

ssesezy hvor ,

Page 17: Anvendt Statistik Lektion 3

Konfidensinterval for middelværdi – små stikprøver Antag: populationen er normal-fordelt. Da er y normalfordelt – uanset stikprøve-størrelse n. Hvis vi kender pop. standard-afvigelsen s er et

(eksakt) konfidensinterval givet ved

Hvis s er ukendt, erstatter vi med stikprøve standard-afvigelsen s.

Problem: For små stikprøver medfører brugen af s i stedet for s en ekstra usikkerhed.

Løsning: Erstat z med t…!

nzy

Page 18: Anvendt Statistik Lektion 3

dn

orm

(x)

-4 -2 0 2 4

t-fordelingen t-fordelingen er

Klokkeformet og symmetrisk omkring 0 Standard-afvigelsen er lidt større end 1 Faconen afhænger af antal frihedsgrader (df). Har lidt ”tykkere haler” end standard normalfordelingen. Ligner en normalfordeling jo højere antal df er.

df = 2

df = 6N(0,1)

Page 19: Anvendt Statistik Lektion 3

-3 -2 -1 0 1 2 3

Konfidensinterval for små stikprøver

1-a/2a/2a

t /2at /2a

For en normalfordelt population er et (1-a)100% konfidensinterval for m

hvor df = n-1.n

ssesety hvor ,2/

Eksempel:

Vi har observeret 29 vægtændringer, hvor y = 3.01 og s = 7.31. Find et 95% konf. interval for m :

Løsning:

df = n-1 = 28, a = 0.025, så t0.025 = 2.048

Page 20: Anvendt Statistik Lektion 3

t-tabellen

a

Se Tabel B i bogen side 593.

Page 21: Anvendt Statistik Lektion 3

I SPSS SPSS: Analyze→Compare Means→One-Sample T-

Test…

Page 22: Anvendt Statistik Lektion 3

Valg af stikprøvestørrelse

Hvordan vælger man stikprøvestørrelse n så vi opnår en Given fejl-margin ved et Givet konfidensniveau

Eksempel: Vi ønsker at bestemme et konfidensinterval for p, så

Fejl-margin : Max 0.04 Konfidensniveau : 95%

Løsning:

Page 23: Anvendt Statistik Lektion 3

Generel løsning for andele For at populationsandel p vælg

Fejl-margin: M Signifikansniveau: (1-a)100%

Stikprøvestørrelsen skal da være:

2

1

M

zn

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

(1- )100%a

z

/2a

za/2

Hvis populations-andelen p er helt og aldeles ukendt bruges p = 0.5 i formlen.

Page 24: Anvendt Statistik Lektion 3

For middelværdien m vælg Fejl-margin: M Signifikansniveau: (1-a)100%

Stikprøvestørrelsen skal da være:

Generel løsning for middelværdi

22

M

zn

(1- )100%a

z-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

/2a

za/2

Hvis populations-standardafvigelsen s er man nød til at gætte sig frem til. Hellere lidt for stor end for lille.

Page 25: Anvendt Statistik Lektion 3

Eksempel Middel antal års uddannelse blandt indianere Ønsker:

Fejl-margin: M = 1år Konfidensniveau: 99%

Først skal vi gætte s ! Vi tror (næsten) alle har mellem 5 og 20 års uddannelse… Derfor er vores gæt s = 2.5 år…!