管理層討論及分析 - Bank of China...12 中銀香港(控股)有限公司 2005年中期業績報告 管理層討論及分析 淨利息收入較去年同期增加港幣3.52億元或6.4%至港幣
2015 9 23 IS Report No. 2015092301€¦ · 1.2二元配置分散分析 第1 章分散分析 1.2...
Transcript of 2015 9 23 IS Report No. 2015092301€¦ · 1.2二元配置分散分析 第1 章分散分析 1.2...
統計学II
石原 知憲 廣安 知之 日和 悟
2015年 9月 23日
IS Report No. 2015092301
ReportMedical Information System Laboratory
Abstract
統計学とは経験的に得られたデータから数学的手法を用いて,数値的性質や規則性を見出すた
めの学問である.近年ではインターネットの普及によりデータ数が爆発的に増加しており,こうした
ビッグデータを扱う上でも統計学が用いられている.今回は統計学の中でも分散分析と単回帰分析を
扱う.
分散分析では各水準の簿平均の違いを分散の違いを見ることで検定する手法である.今回は一元配
置分散分析と二元配置分散分析を例として取り上げた.単回帰分析は獲得したデータを分析し,将来
の動向を予測する際に用いられる手法の基礎の基礎である.これら二つの理解を深めるため,例を提
示しながら分析方法を紹介していく.
キーワード: 一元配置分散分析,二元配置分散分析,F値,単回帰分析,回帰分散分析
目 次
第 1章 分散分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 一元配置分散分析 . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 検定の手順 . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 要因の効果と要因の誤差 . . . . . . . . . . . . . . . . . . . . . 3
1.1.3 分散分析表 . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 二元配置分散分析 . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 分散分析でわかること . . . . . . . . . . . . . . . . . . . . . . . 6
第 2章 単回帰分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1 単回帰分析の意味 . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 最小二乗法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 回帰係数の求め方 . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 決定係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
第 3章 単回帰分析と分散分析 . . . . . . . . . . . . . . . . . . . . . . . 9
第 1章 分散分析
分散分析 (Analysis Of Variance)とは,各水準の簿平均の違いを分散の大きさで検定する方法で
ある.手法としてはデータののばらつきを意味のない変動 (誤差変動)と意味のある変動 (要因による
変化)に分けその分散比を求め,要因による変動が誤差に比べて十分大きい時,要因による変動があ
ると判定するものである.今回は一元配置分散分析と二元配置分散分析をとりあげる.まずは出てく
る言葉の定義について説明する.
• 要因:観測地に効果を及ぼす原因系 (ex.飼料,年度,性別,睡眠時間など)
• 水準:要因内のそれぞれの設定条件 (ex.趣味,学校の種類など)
• 効果:水準平均と全体平均の偏差
• 誤差:各水準のばらつき
1.1 一元配置分散分析
要因の数が 1つだけの場合に扱う分散分析のことを一元配置分散分析という.今回は趣味の違
いが睡眠時間に影響を与えるかを分散分析で検定を行う.扱うデータセットを Fig. 1.1に示す.
Fig. 1.1 趣味と睡眠時間 参考文献 1) より自作
2
1.1一元配置分散分析 第 1 章 分散分析
1.1.1 検定の手順
検定の手順を以下に示す.
1. 「差がある」とする仮説を立てる →対立仮説H1(主張したい仮説).
2. 「差がない」とする仮説を立てる →帰無仮説H0(否定したい仮説).
3. A,Bの分散比を表す統計量Fを求める.(検定法の違いは統計量の違いによる).
4. H0のとき、統計量Fが生じる確率Pを求める.
5. Pが有意水準αより大 →H0を棄却できない(判定を保留).
6. Pが有意水準αより小 →H0を棄却し、H1を採用する.
対立仮説 (H1)は,要因の水準間に差がある.帰無仮説 (H0)は要因の水準間に差はないとなる.
1.1.2 要因の効果と要因の誤差
今回は趣味の違いがと睡眠時間に影響するかを検討する.用いるデータは Table. 1.1に示す.
Table. 1.1 趣味と睡眠時間
ゲーム 漫画 スポーツ
5 7 12
睡眠時間 6 5 10
3 4 8
2 4 6
平均 4 5 9
全体平均 6
要因の効果とは各水準の平均と全体の平均の差をいう.今回の場合全体の平均が 6時間,スポーツ
が趣味の人の平均が 9時間なので要因 (スポーツ)の効果は 3時間となる.また要因の誤差とは各デー
タと水準の平均の差をいう.今回の場合スポーツが趣味のある人の睡眠時間は 12時間,スポーツの
水準平均が 9時間なのでデータの要因の誤差は 3時間となる.
3
1.1一元配置分散分析 第 1 章 分散分析
Fig. 1.2 要因の効果と要因の誤差 参考文献 1) より自作
1.1.3 分散分析表
分散分析を行う際は結果を見やすくするため,分散分析表を作成する.分散分析表を作成する際に
必要なパラメータの求め方を下に示す.
• 要因の自由度=水準数‐ 1
• 誤差の自由度=(個体数‐ 1)‐ (水準数‐ 1)
• 平均平方=偏差平方和/要因の自由度
• 分散比=要因の平均平方/誤差の平均平方
各観測値の趣味の効果と誤差を求め,趣味の効果,誤差についてそれぞれ偏差平方和を求める.求
めた値から分散分析表を完成させる.分散分析表をTable. 1.2に示す.分散分析表から求めたF値を
Table. 1.2 分散分析表
自由度 偏差平方和 平均平方 分散比
趣味 2 56 28.0 7.0
誤差 9 36 4.0
全体 11 92
検定にかける.F分布表より,有意水準 5%,自由度 2,9での値は 4.26である.今回求めた分散比
はこの値より大きな値となるので帰無仮説は棄却される.よって結論として,要因により観測地は変
動している,つまり趣味の違いにより睡眠時間は変動すると言える.
4
1.2二元配置分散分析 第 1 章 分散分析
1.2 二元配置分散分析
一元配置分散分析では 1つの要因に関して検定を行ってきたが,ここに学校という要因を足し要因
を 2つにした場合でも分散分析を行える.学校を足した際のデータセットを Table. 1.3に示す.
Table. 1.3 分散分析表
趣味 学校の
ゲーム 漫画 スポーツ 平均
小学生 5 7 12 8
学校 中学生 6 5 10 7
高校生 3 4 8 5
大学生 2 4 6 4
趣味の平均 4 5 9
この場合,対立仮説H1は要因による差がある.帰無仮説H0は要因による差がないとする.
一元配置分散分析と同様に観測値それぞれで,趣味の効果,学校の効果,誤差を求め,それぞれの
偏差平方和を求める.求めた偏差平方和から二元配置分散分析表を作成し検定を行う.それぞれのパ
ラメータの求め方を下に示す.
• 要因の自由度=水準数-1
• 誤差の自由度=(個体数‐ 1)-(要因�の水準数‐ 1)-(要因�の水準数‐ 1)
• 平均平方=偏差平方和/要因の自由度
• 要因 1の分散比=要因 1の平均平方/誤差の平均平方
• 要因 2の分散比=要因 2の平均平方/誤差の平均平方
Table. 1.4 二次元配置分散分析表
自由度 偏差平方和 平均平方 分散比
趣味 2 56 28.0 7.0
学校 3 30 10.0 10.0
誤差 6 6 1.0
全体 11 92
有意水準 5%,自由度 2,6でのF分布表の値は 5.14.自由度 3,6でのF分布表の値は 4.76で趣味
の分散比,学校の分散比ともにF分布表の値より大きい.そのため今回帰無仮説は棄却され,学校の
種類,趣味,両方の影響により睡眠時間が変動しているといえる.
5
1.3分散分析でわかること 第 1 章 分散分析
1.3 分散分析でわかること
分散分析における帰無仮説は要因の水準間に差はないというものである.そのため帰無仮説が棄却
された際にわかることは,「要因の水準間に差がある」ということだけである.そのため 3つ以上の水
準の優劣をつけることができない.分散分析で有意差があり,実測値に大小があてもその差が要因の
差だと断定することはできない.優劣の差をつける際には多重比較検定等の他の検定を行う必要があ
ることに留意する必要がある.
6
第 2章 単回帰分析
2.1 単回帰分析の意味
単回帰分析とは説明変数が 1増えると目的変数はどの程度増えるか,もしくわ減るかを明らかにす
るものである.説明変数と目的変数の 2変量の関係性を y = ax + bという1次方程式の形であらわ
す.単回帰分析はデータ分析における予測の基礎の基礎となる分野であり,実際にアンケートデータ,
購買データ,WEBの閲覧データ等の行動データを分析し,顧客,商品サービスなどから将来の購買
や行動を予測する際に用いられている.今回は回帰直線と最小二乗法,回帰直線からわかることにつ
いて紹介する.
2.2 最小二乗法
回帰直線は 2組のデータの中心的な分布傾向を表す直線を指す.Fig2.1は一見回帰直線に見えるが,
予測誤差が最も小さくなる回帰直線を決めるために最小二乗法という手法が用いられる.最小二乗法
とは誤差の二乗の和を最小にする方法である.この考え方は重回帰分析での同様に用いられる.誤差
の二乗の和をRMSとすると誤差の二乗和は式 (2.1)であらわせる.
RMS =n∑
i=1
(Yi − aXi + b)2 (2.1)
(a) グラフ 1 (b) グラフ 2
Fig. 2.1 回帰直線 参考文献 2) より自作
7
2.3回帰係数の求め方 第 2 章 単回帰分析
2.3 回帰係数の求め方
回帰分析は予測することが一つの目的となる.回帰直線を y = ax+ bであらわし傾き aと切片 bが
求まれば,回帰直線からある程度の予測を立てることができる.直線の傾きを求める際には説明変数
xと目的変数 yの共分散を用いる.共分散とは 2変量の関係の強さを表す尺度のひとつで偏差の積の
平均を指す.偏差の積とは各データと xの平均,yの平均までのそれぞれの距離の積なので,各軸
の平均値と各データでできた四角形の面積の総和と考えることができる.共分散をCov,xの分散を
Vx,xの平均を (x)とすると直線の傾きを aは式 (2.2)で示せる.
a =Cov
Vx=
1
n∗∑n
i=1(xi − x)(yi − y)
1
n∗∑n
i=1(xi − x)2(2.2)
回帰直線はデータ x,yの平均の座標を通るため,上で求めた傾き aと平均の座標から切片 bを求める.
2.4 決定係数
回帰分析を行う際,算出された回帰直線は当てはまりがいいものもあれば悪いものもある.その例
を Fig. ??回帰直線の当てはまり具合を客観的に示す指標が決定係数である.
決定係数は 0 1の範囲を取り,1に近いほどフィット具合が高く,0に近いほどフィット具合がよく
ないと判断出来る.言い換えると説明変数で目的変数がどれだけ説明できたかを表す.決定係数は相
関係数の 2乗の値で相関係数は xと yの共分散を xと yの標準偏差で割ったものである.標準偏差を
求める式式 (2.3)をに示す.
相関係数 =
∑ni=1(xi − x)(yi − y)√∑n
i=1(xi − x) ∗√∑n
i=1(xi − x)(2.3)
(a) 当てはまりの良い回帰直線 (b) 当てはまりの弱い回帰直線
Fig. 2.2 回帰直線 参考文献 3) より引用
8
第 3章 単回帰分析と分散分析
単回帰分析で引いた回帰モデルが成立するかどうか,その妥当性を分散分析で検証する.帰無仮説は
「回帰モデルが成立しない」,つまり回帰式を用いて説明ができないである.回帰式のデータ変化 (回
帰の成分)とデータと回帰直線の距離 (残差)の比を検定し,帰無仮説を棄却できれば母集団でこの回
帰モデルは成立するといえる.単回帰分析の結果の妥当性を分散分析で検定する方法を回帰分散分析
という.
9
参考文献
[1] “分散分析 (analysis of variance),” http://www.agri.tohoku.ac.jp/iden/toukei7.html, 閲覧
日:2015年 9月 20日.
[2] “多変量解析 4. 単回帰分析とは,” http://www.albert2005.co.jp/technology/
multivariate/s_regression.html, 閲覧日:2015年 9月 20日.
[3] “決定係数とは,” http://labs.xica-inc.com/2014/07/about-coefficient-of-determination/,
閲覧日:2015年 9月 20日.
10