Statistik II 2. Lektion

Statistik II2. Lektion

Multipel Lineær Regression

Middelværdi og Varians

Antag at X er en kontinuert stokastisk variabel Antag at X har tæthedsfunktion f(x).

Middelværdien (eller den forventede værdi) for X er

Variansen for X er

Variansen er altså den forventede kvadrerede afstand fra middelværdien. kaldes standardafvigelsen.

dxxxfXE )(][

dxxfxXEXV )()(])[(][ 222

NormalfordelingenNormal fordelingen har tæthedsfunktionen

hvor • m er middelværdien og • s er standardafvigelsen

2 2exp

m m+1.96sm-1.96s

95%2.5%2.5%

Regneregler

Antag X er en stokastisk variabel. Antag a og b er konstanter

Regneregel for middelværdi:

Regneregel for varians:

Eksempel: Håndboldspiller tjener 10,000kr/md + 250kr/mål. Lad X være det (tilfældige) antal mål/md. E[X] = 12 og V[X] = 4 Hvad er middelværdi og varians for indkomst?

bXaEbaXE ][][

][][ 2 XVabaXV

quency

-4 -2 0 2 4

Sammen gennemsnit og standardafv. (ca.)

quency

-6 -4 -2 0 2 4 6 8

Middelværdi og Varians for en Stikprøve Middelværdi for en stikprøve:

Varians for en stikprøve:

Interessante fakta:

og ][xE 22 ][ sE

Multipel Lineær Regression Y afhængig skala variabel X1,…,Xk k forklarende variable, skala eller binære

Multipel Lineær Regressionsmodel:

xj,i er j’te forklarende variabel for i’te observation. Fejlleddet ei ”opsamler” den uforklarede del af modellen.

Antagelser: e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)

Konsekvens:

iikkii xxY ,,11

ikkii xxXYE ,,11]|[

Simpel lineær regression

Yi { b1

E[Y | X] = a + β1X

iii xy 1

),0( 2 Ni iid

MLR med én skala forklarende variabel (k = 1)

Modellen er

Modellen siger: E(Y | X) = a +b1 X V(Y | X) = s2

Y | X ~ N(a +b1X , s2)

Endnu en tegning…

i.i.d. normalfordelte fejlled

Yi|xi~N(a + β1xi,σ2)

x1 x3x2 x4 x5

Estimation Model:

yi = a + b1 xi + ei

εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte!

Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter.

Estimerede regressions linje

a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?

xbay 1ˆ

er den lodrette afstanden fra den estimerede linje til datapunktet (xi,yi).

)ˆ( iii yye

Residual led

iYiYieˆ

iXYiY givet for værdi eforvendted den ˆ

),( ii YX

XbaY 1ˆ

Den estimerede regressionslinje

datapunkt eobservered Det

Mindste kvadraters metode

Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.

Dvs, vi vil minimere

SSE er Sum of Squared Errors. Skrevet ud:

Bemærk: Funktion af to variable (a og b1).

i ieSSE1

i i xbayyye1

2 )()ˆ(

SSE er en funktion af a og b1.

Vi vil finde a og b1 så SSE er mindst mulig.

Minimering

Hypotestest af hældning (β1) Spørgsmål: Har den forklarende variabel xj virkelig en

betydning for y? Test for om hældningen, β1 er forskellig fra nul:

Teststørrelse:

Intuition: Værdier af t langt fra nul er ufordelagtige for H0.

SE(b1) er standardfejlen for estimatet b1.

Hvis H0 er sand er stikprøvefordelingen af t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

0:0: 10 jj HH vs

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen

Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < a afvises H0.

tOrange område = p-værdi

t-fordeling med n-2 frihedsgrader

Fortolkning/Eksempler på H0

Er der en lineær sammenhæng mellem X og Y?

H0: b1 = 0 ingen lineær sammenhæng

H1: b1 0 lineær sammenhæng

Følgende er eksempler, hvor H0 ikke kan afvises.

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

SPSS Analyze → General Linear Models → Univariate…

Kategoriske forklarende variableSkala forklarende variable

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

Estimerede model:

Både skæring (a) og hældning (b1) er signifikante! Fortolkning?

xy 290.0486,5ˆ

Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas?

Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er

yi’s afvigelse fra kan opdeles i to.

Forklaret afvigelse

Totale afvigelse

Uforklaret afvigelse

),( yxbxay ˆ

Den Totale Variation

Den totale variation i y’erne er givet ved Sum of Squares Total (SST):

ii yySST

Den Uforklarede Variation

bxay ˆ

Den uforklarede variation i y’erne er givet ved Sum of Squares Errors (SSE):

iii yySSE

iii yye ˆ

Den Forklarede Variation

Den forklarede variation er betegnes Sum of Squares Regression (SSR)

Man kan vise:

ii yySSR

i i yyyyyy

SSESSRSST

Total variation = Forklaret variation + Uforklaret variation

Determinations koeffcienten R2 Determinations Koefficienten: Andelen af den totale

variation, der er forklaret.

Pr definition: 0 ≤ R2 ≤ 1.

Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.

R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

SSESST

variation Total

variation Forklaret

Eksempler på R2

R2 = 0 SSE

R2 = 0.90SSE

R2 = 0.50 SSE

H0: b1 = b2 = … = bk = 0

H1: Mindst et bi ≠ 0

Teststørrelse:

Store værdier af F er ufordelagtige for H0.

Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable

Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable

knFMSE

Mean Squared Error

Mean Squared Regression

Eksempel: R2 og F-test

467,0014,75

019,352 SST

282,47741,0

019,35F

p-værdi

F=MSR/MSE

F-fordelingen

543210

Areal = p-værdi

F-fordeling

Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)

XIsolering: {Før, Efter}, kategorisk (insulate)

Omkod XIsolering til binær dummy variabel XFør

XFør = 1 hvis XIsolering = Før

XFør = 0 hvis XIsolering = Efter

Model: FørFørTempTemp xxY 0

Når XIsolering = Før

Når XIsolering = Efter

To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

TempTemp

FørTempTemp

Fortolkning af model

TempTempFør

FørTempTemp

To regressionslinjer med forskellige skæringer, men samme hældning

Linje for XFør=1

Linje for XFør=0

a + bFør

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’

Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan

modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

Estimater

Estimeret model:

Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Eksempel og SPSS

FørTemp xxy 565,1337,0986,4ˆ

192,41565,17337,0986,4

Vekselvirkning / Interaktion

Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.

Y, XTemp og XFør er som før.

Introducer: XTemp,Før = XTemp∙XFør

Model FørTempFørTempFørFørTempTemp xxxY ,,

),0(~ 2 N

Fortolkning Når XIsolering = Før:

Når XIsolering = Efter:

bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

TempTemp

TempFørTempFørTempTemp

TempFørTempTempFør

TempFørTempFørTempTemp

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og

interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot → Estimater

Estimeret model:

FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ

Statistik II 2. Lektion

Documents

Transcript of Statistik II 2. Lektion

Wiederholung: Statistik I - Universität Hamburg · PDF fileLehrstuhl für BWL, insb. Mathematik und Statistik Dipl.-Volkswirt Arne Johannssen Statistik für Betriebswirte II Sommersemester

Angebote im SchuljahrL 302 Deklination II (ab Lektion 24) 2./3. Lernjahr L 303 Konjugation I (ab Lektion 18) 2. Lernjahr L 304 NW Konjugation II (ab Lektion 26) 3. Lernjahr L 305 Gerundium

Statistik Lektion 3

Mathematik und Statistik für Raumplaner II · Mathematik und Statistik für Raumplaner II Wenn die EXCEL-Tabelle Namen der Variablen enthält, so ist das Variablennamen einlesen

Lektion 6 Erfüllung des Vertrages (§ 4) Privatrecht II.

Statistik II 1. Einführung - Fachgebiet Statistik · Statistik II 1. Einführung 2/34. Einleitung Wahrscheinlichkeitsaussagen Organisatorisches Beispiele Anwendungsgebiet und Überblick

Statistik II

Lektion 8 Leistungsstörungen (§ 5, V - VII) Privatrecht II.

Teil II Übungsaufgaben zur Induktiven Statistik · Peter von der Lippe Teil II Übungsaufgaben zur Induktiven Statistik Lösungen ab S. 77 Gliederung von Teil II Kap.1: Einführung,

Latein - overberg-kolleg.deoverberg-kolleg.de/wp-content/uploads/SILP-Latein-Overberg-Kolleg... · UV II Lektion 6 (1. Semester) 13 UV III Lektion 7,8 (2. Semester) 16 UV IV Lektion

2321 Kompetenzfeld Qualitätsmanagement Grundkurs II Statistik für Produktion und Dienstleistung Peter Hackl, Abteilung für Wirtschaftsstatistik, UZA II,

Mathematik II für Biologen Beschreibende Statistik ... · Prolog Stichproben Kennzahlen Ausreißer Graphische Darstellung Mathematik II f¨ur Biologen Beschreibende Statistik –

Lektion 3 Vertragsschluss und Vertragsauslegung (§ 2, III - VI) Privatrecht II.

Studienarbeit Statistik II

Statistik II Induktive Statistik - stat.ruhr-uni-bochum.de · Statistik II“ im Grundstudium des WS 2005/2006 konzipiert und liefert eine Zusammenfassung des Vorlesungsstoﬀs. Im

Hier wird Wissen Wirklichkeit 1 Lektion in Statistik.

Kai Nissen – „Statistik II. Induktive Statistik“

Skriptum Statistik I und II

Vorlesung: Statistik II für Wirtschaftswissenschaft · Statistik 2 Sommersemester 2017Helmut K uchenho (Institut f ur Statistik, LMU) 358 / 366 Der Wilcoxon Test f ur unabh angige

Elektronisch messen, steuern und regeln (Lektion 4): Mechanische Grössen (Sensoren II) Messung mechanischer Eigenschaften Sensoren II.