4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4....

40
クラスタリング クラスタリング

Transcript of 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4....

Page 1: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

クラスタリングクラスタリング

Page 2: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

クラスタリングとはクラスタリングとは

デ デ• データ間に距離を定義し、距離が近いデータ同士をグループ(クラスター)にまとめる作業

• 塩基配列のクラスタリング塩基配列のクラスタリング

– 何度も同じ遺伝子の配列が部分的に読まれデータベースに登録される

– マッチ率等により距離を定義

– 例: UniGene(NIH/NCBI) EST配列をクラスタリング例 ( / ) 配列をクラ タリングヒト 5,112,666配列 ⇒ 53,032 クラスター

Page 3: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

クラスタリングのアルゴリズムクラスタリングのアルゴリズム

階層的クラスタリング• 階層的クラスタリング– ボトムアップ型

– トップダウン型

• k‐クラスタリング(k個のグループへ分類)k クラスタリング(k個のグル プ 分類)– k‐means 法

ゴンザレスの最遠点選択法– ゴンザレスの最遠点選択法

• 高次元空間の点を2、3次元へ埋め込みグル プを視覚化する方法ループを視覚化する方法

Page 4: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

階層的クラスタリング階層的クラスタリング

Dendrogram

5 79

高さが類似度を

6 8

1 2 3 4 5 6 7 8 9

類似度を表現

1 2

3

4

類似 類似していない

各ノードで部分木の左右を交換しても構わない

Page 5: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

階層的クラスタリング ー ボトムアップ型

近いクラスター同士を融合するプロセスを繰り返すクラスタ (点の集合)C C 間の距離に結果が依存クラスター(点の集合)Ci , Cj 間の距離に結果が依存

距離の例: ,:),( yxyxd rrrr離 間のユークリッド距 距離の例:

},|),(max{),(

},|),(min{),(,),(

max

min

jiji

jiji

CyCxyxdCCD

CyCxyxdCCDyy

∈∈=

∈∈=rrrr

rrrr

jj

9 95

6

7

8

95

6

7

8

9

1

3

4 1

3

4

min

max1 2 4 1 2 4

Page 6: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

階層的クラスタリング ー ボトムアップ型

近いクラスター同士を融合するプロセスを繰り返すクラスタ (点の集合)C C 間の距離に結果が依存クラスター(点の集合)Ci , Cj 間の距離に結果が依存

距離の例: ,:),( yxyxd rrrr離 間のユークリッド距 距離の例:

},|),(max{),(

},|),(min{),(,),(

max

min

jiji

jiji

CyCxyxdCCD

CyCxyxdCCDyy

∈∈=

∈∈=rrrr

rrrr

jj

99max

56

7

8

95

6

7

8

9

min

1

3

41

3

4

min

1 2 41 2 4

Page 7: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

階層的クラスタリング: トップダウン型

5 7 95 7 9

3

6 8

3

6 8

1 2

3

4 1 2

3

4

95

6

7

8

9

1

3

41 2 41 2 3 4 5 6 7 8 9

Page 8: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

階層的クラスタリング: トップダウン分割型の例S-plus で使われている diana 法 L. Kaufman, P. Rousseuw. "Finding Groups in Data- An Introduction to Cluster Analysis. " Wiley Series in Probability and Mathematical Sciences, 1990.y y y ,

5 7 95 7 9

5 7 9 ),(avg jidSj∈

),(avg jidSj∈ ),(avg jidSj∈

56 8

56 8

56 8

)( jid ),(avg jidSj∉

1 2

3

4 1 2

3

4 1 2

3

4

),(avg jidSj∉ ),(avg jidSj∉

S={9}, i=7 S={9}, i=8 S={9}, i=6

するか?に追加すべき点は存在

はクラスターの候補は点全体の集合  

SSV

)(avg)(avg)( avg についてとき、を距離の平均値とする

jidjidSiVSVi

−≡−∈

),(

),(avg),(avg),(

から遠い」と解釈に最も近く「はを最大にする SVSiSiV

jidjidSiV SjSj

−≡ ∈∉

Page 9: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

階層的クラスタリング: diana法初期化 S= {} のとき 他の点から一番離れている点を選らぶ

9 95

6

7

8

95

65

6

7

8

95

6

1

3

1

3 ),(avg jidSj∉

),(avg jidSj∉

1 2 4 S={}, i=9 のとき 1 2 4 S={}, i=6 のとき

)()()( jidjidSiV

),(

),(avg),(avg),(

から遠い」と解釈に最も近く「はを最大にする SVSiSiV

jidjidSiV SjSj

−≡ ∈∉

Page 10: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

階層的クラスタリング: トップダウン分割型

7 9 7 9 7 9 ),(avg jidSj∈ ),(avg jidSj∈

56

7

85

6

7

85

6

7

8

1 2

3

4 1 2

3

4 1 2

3

4 ),(avg jidSj∉

),(avg jidSj∉

1 2 4 1 2 4 1 2 4

S={9}, i=7 S={7,9}, i=8 S={7,8,9}, i=6

とするをを最大にする

繰り返しステップ:

に初期化空集合を初期化ステップ: 

)(

{}

hSViSiV

S

−∈

{ }, { , }, { , , },

べるために近い要素があるか調他にも

に追加し、に近いのではならば 

終了判定:

とする。をを最大にする

0),(

),(

SSShShV

hSViSiV

>

56

7

8

9

6

終了。に近くなく、追加せずはならば 

実行。 繰り返しステップを

べるため、に近い要素があるか調他にも

0),( ShShV

S

≤3Splinter Group

を分離。返し以上のステップを繰り

から分離。と呼び、」を「 

GroupSplinter GroupSplinter VS1 2 4

Page 11: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

階層的クラスタリング: トップダウン分割型

56

56

56

56 Splinter Group

3 3

1 2 4 1 2 4

とするをを最大にする

繰り返しステップ:

に初期化空集合を初期化ステップ: 

)(

{}

hSViSiV

S

−∈

べるために近い要素があるか調他にも

に追加し、に近いのではならば 

終了判定:

とする。をを最大にする

0),(

),(

SSShShV

hSViSiV

>

終了。に近くなく、追加せずはならば 

実行。 繰り返しステップを

べるため、に近い要素があるか調他にも

0),( ShShV

S

≤1 2

3

4

を分離。返し以上のステップを繰り

から分離。と呼び、」を「 

GroupSplinter GroupSplinter VS2 4

Page 12: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

問題

クラスタリングの結果に自由度があり、複数クラ タリングの結果に自由度があり、複数の妥当な候補がありうる例を考えよ

Page 13: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

クラスターの評価

:iS 直径の評価クラスター

{ }( ) ( ) 2

12

2121 ,|max)(:

∈− ii

i

SxxxxSdiameterS

rrrr=

直径の評価クラ タ

( ) ( ) 2,,1

21 ,, ∑=

=di id xxx

LL

1)( ∑=i

i

xSc

Sr

離の分散の評価:重心からの距

2)(1)var(

)(

∑∈

−=

i

ii

Sxii

ScxS

S r

r )()var( ∑∈ iSx

ii

i ScxS

Sr

Page 14: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

問題

直径が同一で、重心からの距離の分散が大きく異なるクラスターの例 (S1 と S2) を考えよく異なるクラスタ の例 (S1 と S2) を考えよ

diameter(S1) = diameter(S2), var(S1) >> var(S2)diameter(S1) diameter(S2), var(S1) var(S2)

Page 15: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

k - クラスタリング

を覆いを、内の点集合次元ユークリッド空間 d SSRd ( )

に分解すること。(クラスターと呼ぶ)

個の部分集合、互いに交わらない かつ

k

k

SSSkSSSS

,,, 21

21

L

L∪∪∪=

k21

56

7

8

9

3

1 2 4 3-クラスタリング

Page 16: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

k - クラスタリング誤差二乗平均によるクラスターの評価

クラスタリングをの },,{ 1 SSkS k− K

誤差二乗平均によるクラスタ の評価

各クラスターの重心は1)( yS

Sc i ∑=•r

重心間の距離の分散が属するクラスターのと、の各点 xxS

S Syi i∈

r

rr

     

重心間 距離 分散が属するクラ タと、各点

)(1},,1{

2ScxS

S

ki Sxi

i

∑ ∑= ∈

−K

r

r

と呼ぶ誤差二乗平均を )( error squaredmean

Page 17: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

k - クラスタリング

誤差二乗平均を最小化する k クラスタリングを計算する誤差二乗平均を最小化する k-クラスタリングを計算する問題はNP困難(現実的な時間で解けない)

できるだけ小さくすると言われているアルゴリズムとしてk-means 法がある

k-means 法の様々な変形が広く使われている

Page 18: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

法−meansk

と表現タ をを代表点とするクラスの点

、集合をクラスターの代表点の

STT

r

1

.

の初期集合とする個の点を選択しから(初期化)

と表現ターをを代表点とするクラスの点 y

TkS

SyT rr

2

..1

を空集合にリセットについて各代表点(再クラスタリング)

の初期集合とする個の点を選択し、から(初期化)

∈ STy

TkS

r

( ) . min

..2

追加にをを計算し、の点に最も近いの各点

を空集合にリセットについて各代表点(再クラスタリング)

∈−=−

yTz

y

SxzxyxyTxS

STyr

r

r

rrrrrrr

( ) 1

.3 から重心は代表点に登録された点全体の(代表点を再計算) y yS rr

( ) . 1 . 更新にを重心各代表点ある ずれている可能性が ∑∈

=∈ySuy

y uS

ScTyr

rr

rrr

. .4 プ2と3を繰返すなくなるまで、ステッ誤差二乗平均が改善し

Page 19: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

2 4

k-means 法による 2-クラスタリング

2 4 2 4

3

75

15

2 4

3

75

1

6

9

8

9

左下へ6

9

8

T={5,9}S5 = {1,2,3,4,5,6,7} 99

初期の選択

9 S5 {1,2,3,4,5,6,7}S9 = {8,9}

2 4

71

2 4

71

次ページ

3

75

6 8

1 a

b

3

75

6 8

1 a

b

9

b

9

bT={5,9} ⇒ T={a,b}S5 の重心は a S9 の重心は b

Sa = {1,2,3,4,5}Sb = {6,7,8,9}

重心を再計算 再クラスタリング

Page 20: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

2 4

71 c

2 4

713

75

6 8

1 c

d

3

75

6 8

1 c

d

9 T={c,d}Sc = {1,2,3,4,5}Sd = {6,7,8,9}

9T={a,b} ⇒ T={c,d} Sa の重心は cS の重心は d

重心を再計算 再クラスタリング

Sb の重心は d

誤差二乗平均は収束クラスターに変化なし

Page 21: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

k - クラスタリング クラスターの評価に直径を使う場合

と定義

に対してクラスタリングの

==

=−

kiSdiameterCqSSSCkS k

}1|)(max{)(},,,{ 21

L

L

と定義== kiSdiameterCq i },,1|)(max{)( L

?効率的に計算できるか

をクラスタリングを最小化する − CkCq )(

クラスタリングがとなるに対して与えられた −≤ kBCqB )(する問題はNP完全存在するか否かを決定

クラスタリングがとなるに対して与えられた ≤ kBCqB )(

Page 22: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

近似的解法

{ } とおくクラスタリングのは kSCCqopt −= |)(min

を生成するクラスタリングとなる CkoptCq −•≤ 2)(

るアルゴリズムが存在す

を生成するクラスタリングとなる CkoptCq −•≤ 2)(

Page 23: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

h i iif hG l ’ heuristicspoint farthest sGonzalez’

TcSST

•r

1 に追加を選択しから1点

初期化の集合とし、空集合でのクラスターの代表点を

xneighborTTSxkj

−∈

=•rr

K

)(.1,,2

と記述の点をに最も近い

プを実行について以下のステッ各

TScxneighborx

g

∈r

rr

2)(

)(

点表点との距離が最大の属するクラスターの代

ターに属すると定義を代表点とするクラスは 

と記述点をに最も近

{ }T

TSc j −∈

point)(farthest

.2

に追加を 

点表点との距離が最大の属するクラスタ の代

{ }TSxxneighborxcneighborc jj −∈−=−rrrrr |)(max)(    

Page 24: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

79

79

5

6

7

8

5

6

7

8

1 2

3

4 1 2

3

4S ={1,2,3,4,5,6,7,8,9}T={1}

T={1,9}neighbor(3) = 1neighbor(6) = 1

2 4 2 4{ }neighbor(8) = 9

79

79

5

6

7

8

5

6

7

8

1 2

3

4 1 2

3

4

T={1,5,9}neighbor(3) = 1neighbor(6) = 5neighbor(8) = 9

T={1,5,9}neighbor(3) = 1neighbor(6) = 51 2 4 2 4neighbor(8) 9neighbor(8) = 7

Page 25: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

5

6

79

3

6 8

1 2

3

41 2 3 4 5 6 7 8 9

T={1,5,9}neighbor(3) = 4neighbor(6) = 5neighbor(6) 5neighbor(8) = 7

Page 26: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

問題問題

においてheuristicspointfarthestsGonzalez’

れが生成される例をつく

クラスタリングとなる

において

CkoptCq −•= 2)(heuristicspoint farthest sGonzalez

れが生成される例をつく

Page 27: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

点間の距離をできるだけ保存して高次元を低次元に埋め込みクラスターを視覚化する

Multi-dimensional Scaling

Latent Semantic Indexing

Self-Organizing Maps (SOM)

Page 28: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

Multi dimensional ScalingMulti‐dimensional Scaling

高次元における2点 i,j 間の距離 di,j

点 i を低次元への写像した結果 f(i)

点間の距離をできるだけ保つ写像 f が望ましい

∑ −ji jijfif dd

,2

,)(),( )(最小化したい指標

∑ ji jid,

2,

最小化したい指標

Page 29: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

解答例解答例

クラスタリングの結果に自由度があり、複数のクラ タリング 結果 自由度 あり、複数候補がありうる例を考えよ

円周に等間隔に並んだ点列のクラスタリング円周に等間隔に並んだ点列のクラスタリング

12 8

3 73

4 61 2 3 4 5 6 7 8 2 3 4 5 6 7 8 1

45

6

Page 30: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

解答例

直径が同一で、重心からの距離の分散が大きく異なるクラスターの例を考えよく異なるクラスタ の例を考えよ

diameter(S1) = diameter(S2), var(S1) >> var(S2)diameter(S1) diameter(S2), var(S1) var(S2)

S1 S2

Page 31: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

解答例解答例

直線上に置かれた4点の 2 クラスタリング直線上に置かれた4点の 2-クラスタリング

0 1+ε 2 3ε>0 は限りなく 0 に近い数

0 1+ε 2 3

1番目に選択 2番目に選択

近似解q(C)=2

最適解最適解q(C)=1+ε

Page 32: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

付録 Gonzalez’s farthest point heuristics の証明

クラ タリ グをが生成する定理

付録 Gonzalez s farthest point heuristics の証明

)(2)( )(heuristicspoint farthest sGonzalez’

optGopt

G

CqCqCkCqCk

⋅≤−

とすればクラスタリングをが最小の

クラスタリングをが生成する定理 

{ }jcccT rK

rr= −,,, 121 のとき、補題

j

j

ccneighbor

cTrr

r∪

)(

}{

以上離れている

の任意の2点は

jj ccneighbor −

)(

以上離れている

ihjj ccccneighbor

jihrrrr

−≤−

≤<≤

)(

1 についてつまり

jj

Page 33: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

r crの場合 )( 23 ccneighbor rr

=

1c 3c

2cr

313223)( ccccccneighbor rrrrrr−≤−= なので

213132 cccccc rrrrrr−≤−でより先に選択されたのが

Page 34: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

r 3crの場合 )( 13 ccneighbor rr=

1c

2cr

323113)( ccccccneighbor rrrrrr−≤−= なので

213132 cccccc rrrrrr−≤−でより先に選択されたのが

Page 35: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

{ } についてのとき、補題 j jihcccT rK

rr≤<≤= − 1 ,,, 121

以上の任意の2点間距離はつまり、 jjj

ihjj

ccneighborcT

ccccneighbor

rrr

rrrr

−∪

−≤−

)(}{

)(

j 般の場合を証明に関する帰納法. 一

以任意 点間距離り、 jjj g )(}{

jj cneighborcTji

jrr

=• )( なのでに近いのはの中で最ものとき、 

般 場合を証明に関する帰納法

jhjj ccccneighbor rrrr−≤−)(

)( jcneighbor rhcr

代表点

jcr 代表点以外の点

Page 36: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

ji < のとき:

jcccT

jrrr

⎭⎬⎫

⎩⎨⎧=

−•

221

2

を考える。つまり

態、一つ前のステップの状個の代表点を選択した

jj

j

acneighborc

cccTrrr

K⎭⎬⎩⎨

−−

11

221

)(

,,,

定す ば 帰納法 仮

を代表点の属するクラスターのこの時点での

を考える。つまり

ihj ccca rrrr−≤− −1定よりとすれば、帰納法の仮

ar br

c jrの属するこの時点で

br

クラスターの代表点を

jcr1−jcr

Page 37: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

個代表点を選択後に のとき、つまり121 1 ,,, − −⎭⎬⎫

⎩⎨⎧=• j jcccT r

Krr

ば十分  となることを示せ   1)( −−≤− jjj caccneighbor rrrr

ar br

ar br

のとき1)( −= jj ccneighbor rr

a ba b

jcr1jcrjcr1jcr j1−jj1−j

1−jcr れたのでが代表点として選択さ jj cc rr−1 のがより近い代表点

1−−≤− jj cacb rrrr

jjj cbccneighbor rrrr−≤−)(

のでクラスターに移動した

Page 38: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

ターを移動しないときのとき、つまりクラスbcneighbor j

rr=)(

ar br

ar br

a ba b

jcr1−jcrjcr1−jcr j1jj1j

11 )( −− −≤− jjjj caccneighborc rrrrrれたのでが代表点として選択さ

Page 39: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

)(2)()( heuristicspoint farthest sGonzalez’ G

CqCqCkCqCk

とすればクラスタリングをが最小の

クラスタリングをが生成する定理 

)(2)()( optGopt CqCqCkCq ⋅≤− とすればクラスタリングをが最小の

{ }ccTkGonzalez =• 個の代表点をの方法で選んだrr{ }

i hbDc

ccTk

k

k

)(,

,, Gonzalez

1

1

=•

+

とおく

点を実行して得られる代表ステップ2をもう一度

個の代表点をの方法で選んだ

rr

rK

cneighborcD kk )( 11 −= ++ とおく

DCqD G 2)( .2 ≤•  よって以下各クラスターの直径は

≥D

icr D2≤直径ステップ2での代表点の選び方から各クラスターの任意の元と

≥D代表点との距離は最大でも D

Page 40: 4 15 bio-datamining-morishita-clustering [互換モード]moris/lecture/upbsb/...4. 誤差二乗平均が改善しなくなるまで、ステップ2と3を繰返す. 2 4 k-means 法による2-

{ } 1 1k DcTk ∪+• +

 (補題より)

以上はの任意の2点間の距離個の代表点r

opt kC• かは個のクラスターのどれの最適なクラスタリング

{ } )( 1 1 optk

opt

CqDcTk ≤∪+ + のうち2点を含むので個の代表点 

個最r

)(2)(2)( optGG CqCqDCq ⋅≤≤• より、