Post on 30-Dec-2015
description
Middelværdi og Varians
Antag at X er en kontinuert stokastisk variabel Antag at X har tæthedsfunktion f(x).
Middelværdien (eller den forventede værdi) for X er
Variansen for X er
Variansen er altså den forventede kvadrerede afstand fra middelværdien. kaldes standardafvigelsen.
dxxxfXE )(][
dxxfxXEXV )()(])[(][ 222
2
NormalfordelingenNormal fordelingen har tæthedsfunktionen
hvor • m er middelværdien og • s er standardafvigelsen
2
2
2 2exp
2
1)(
x
xf
m m+1.96sm-1.96s
95%2.5%2.5%
Regneregler
Antag X er en stokastisk variabel. Antag a og b er konstanter
Regneregel for middelværdi:
Regneregel for varians:
Eksempel: Håndboldspiller tjener 10,000kr/md + 250kr/mål. Lad X være det (tilfældige) antal mål/md. E[X] = 12 og V[X] = 4 Hvad er middelværdi og varians for indkomst?
bXaEbaXE ][][
][][ 2 XVabaXV
Fre
quency
-4 -2 0 2 4
020
40
60
80
100
Sammen gennemsnit og standardafv. (ca.)
Fre
quency
-6 -4 -2 0 2 4 6 8
020
40
60
80
Middelværdi og Varians for en Stikprøve Middelværdi for en stikprøve:
Varians for en stikprøve:
Interessante fakta:
n
xx
n
ii
1
11
2
2
n
xxs
n
ii
og ][xE 22 ][ sE
Multipel Lineær Regression Y afhængig skala variabel X1,…,Xk k forklarende variable, skala eller binære
Multipel Lineær Regressionsmodel:
xj,i er j’te forklarende variabel for i’te observation. Fejlleddet ei ”opsamler” den uforklarede del af modellen.
Antagelser: e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)
Konsekvens:
iikkii xxY ,,11
ikkii xxXYE ,,11]|[
Simpel lineær regression
X
Y
Xi
Yi { b1
1
a
ei
E[Y | X] = a + β1X
iii xy 1
),0( 2 Ni iid
MLR med én skala forklarende variabel (k = 1)
Modellen er
Modellen siger: E(Y | X) = a +b1 X V(Y | X) = s2
Y | X ~ N(a +b1X , s2)
Estimation Model:
yi = a + b1 xi + ei
εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte!
Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter.
Estimerede regressions linje
a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?
xbay 1ˆ
er den lodrette afstanden fra den estimerede linje til datapunktet (xi,yi).
)ˆ( iii yye
Residual led
iYiYieˆ
Y
X
iY
iY
Xi
iXYiY givet for værdi eforvendted den ˆ
),( ii YX
XbaY 1ˆ
Den estimerede regressionslinje
datapunkt eobservered Det
Mindste kvadraters metode
Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.
Dvs, vi vil minimere
SSE er Sum of Squared Errors. Skrevet ud:
Bemærk: Funktion af to variable (a og b1).
n
i ieSSE1
2
n
i ii
n
i ii
n
i i xbayyye1
211
2
1
2 )()ˆ(
Hypotestest af hældning (β1) Spørgsmål: Har den forklarende variabel xj virkelig en
betydning for y? Test for om hældningen, β1 er forskellig fra nul:
Teststørrelse:
Intuition: Værdier af t langt fra nul er ufordelagtige for H0.
SE(b1) er standardfejlen for estimatet b1.
Hvis H0 er sand er stikprøvefordelingen af t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.
0:0: 10 jj HH vs
)( j
j
bSE
bt
Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen
Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < a afvises H0.
0 . 8
0 . 7
0 . 6
0 . 5
0 . 4
0 . 3
0 . 2
0 . 1
0 . 0
tOrange område = p-værdi
t0
t-fordeling med n-2 frihedsgrader
Fortolkning/Eksempler på H0
Er der en lineær sammenhæng mellem X og Y?
H0: b1 = 0 ingen lineær sammenhæng
H1: b1 0 lineær sammenhæng
Følgende er eksempler, hvor H0 ikke kan afvises.
Y
X
Y
X
Y
X
Konstant Y Usystematisk variation Ikke-lineær sammenhæng
SPSS Analyze → General Linear Models → Univariate…
Kategoriske forklarende variableSkala forklarende variable
Eksempel
Y : Forbrug af gas (gas) X : Udetemperatur (temp)
Scatterplot →
SPSS:
Estimerede model:
Både skæring (a) og hældning (b1) er signifikante! Fortolkning?
xy 290.0486,5ˆ
Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas?
Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er
yi’s afvigelse fra kan opdeles i to.
.Y
X
Y
Y
Y
X
Forklaret afvigelse
Totale afvigelse
Uforklaret afvigelse
X
y
y
),( yxbxay ˆ
Den Totale Variation
y
Den totale variation i y’erne er givet ved Sum of Squares Total (SST):
n
ii yySST
1
2
ix
iyyyi
Den Uforklarede Variation
bxay ˆ
Den uforklarede variation i y’erne er givet ved Sum of Squares Errors (SSE):
n
iii yySSE
1
2ˆ
ix
iy
iii yye ˆ
Den Forklarede Variation
Den forklarede variation er betegnes Sum of Squares Regression (SSR)
Man kan vise:
Dvs.
Dvs.
n
ii yySSR
1
2ˆ
2
1
2
1
2
1ˆˆ
n
i i
n
i ii
n
i i yyyyyy
SSESSRSST
Total variation = Forklaret variation + Uforklaret variation
Determinations koeffcienten R2 Determinations Koefficienten: Andelen af den totale
variation, der er forklaret.
Pr definition: 0 ≤ R2 ≤ 1.
Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.
R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.
SST
SSE
SST
SSESST
SST
SSRR
12
variation Total
variation Forklaret
H0: b1 = b2 = … = bk = 0
H1: Mindst et bi ≠ 0
Teststørrelse:
Store værdier af F er ufordelagtige for H0.
Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable
Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable
1,1~1
knFMSE
MSR
knSSE
kSSRF
Mean Squared Error
Mean Squared Regression
Eksempel: R2 og F-test
SSR
SSE
SST
467,0014,75
019,352 SST
SSRR
282,47741,0
019,35F
MSR
p-værdi
MSE
F=MSR/MSE
Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)
XIsolering: {Før, Efter}, kategorisk (insulate)
Omkod XIsolering til binær dummy variabel XFør
XFør = 1 hvis XIsolering = Før
XFør = 0 hvis XIsolering = Efter
Model: FørFørTempTemp xxY 0
Når XIsolering = Før
Når XIsolering = Efter
To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.
TempTemp
FørTempTemp
x
xY 0
Fortolkning af model
TempTempFør
FørTempTemp
x
xY 1
To regressionslinjer med forskellige skæringer, men samme hældning
X1
Y
Linje for XFør=1
Linje for XFør=0
a
a + bFør
Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’
Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan
modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!
Estimater
Estimeret model:
Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):
Eksempel og SPSS
FørTemp xxy 565,1337,0986,4ˆ
192,41565,17337,0986,4
Vekselvirkning / Interaktion
Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.
Y, XTemp og XFør er som før.
Introducer: XTemp,Før = XTemp∙XFør
Model FørTempFørTempFørFørTempTemp xxxY ,,
),0(~ 2 N
Fortolkning Når XIsolering = Før:
Når XIsolering = Efter:
bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.
TempTemp
TempFørTempFørTempTemp
x
xxxYE
00| ,
TempFørTempTempFør
TempFørTempFørTempTemp
x
xxxYE
,
, 11|
SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og
interaktionsled. Indsæt altid hoved-effekter først!