Slide 1

Slide 1 text

クラスタリング2 クラスタリング2 X-means X-means 作成者:K クラスタ数を自動で決定!

Slide 2

Slide 2 text

アルゴリズム 再びセントロイドを再計算し、また同じことを繰り返します 色付けした点の平均値を求めて、 それをクラスタを代表する点(セ ントロイド, centroid)とします この「セントロイドを求める↔色 付けし直す」の作業を繰り返し、 セントロイドが移動量が十分小さ くなったら計算を終了します 前回までのおさらい

Slide 3

Slide 3 text

clusters(k)パラメタの影響 kの指定が適切でないと、一つの クラスタを複数の部分に分けてし まう場合がある 前回までのおさらい →データに基づいてkを決定する 方法はないだろうか?

Slide 4

Slide 4 text

X-means<> 2つのクラスタに分けるk-meansを情報量基準に沿って繰り返す クラスタごとにk=2でk-meansを実行し、 さらに二分割したほうが良さそうならば 分割する <>1FMMFH %BO BOE"OESFX8.PPSF9NFBOT&YUFOEJOHLNFBOTXJUI F ffi DJFOUFTUJNBUJPOPGUIFOVNCFSPGDMVTUFST*DNM7PM

Slide 5

Slide 5 text

X-means ①kを小さな値に設定してk-meansを実行 ࢀߟจݙɿੴԬ߃ݑΫϥελʔ਺Λࣗಈܾఆ͢ΔLNFBOTΞϧΰϦζϜͷ ֦ுʹ͍ͭͯԠ༻౷ܭֶ   k=2とすれば、 はじめにデータは2つのクラスタに分かれる

Slide 6

Slide 6 text

X-means ②データはクラスタごとに正規分布に近い形でデータがばらついているとして、BICを計算 データが正規分布から生成されているとして、 BIC(ベイズ情報量基準)を計算 BIC = − 2 log L( ̂ θi ; xi ∈ Ci ) + q log n i番目のクラスタのデータの対数尤度 →クラスタがまとまっているほど高い値になる ࢀߟจݙɿੴԬ߃ݑΫϥελʔ਺Λࣗಈܾఆ͢ΔLNFBOTΞϧΰϦζϜͷ ֦ுʹ͍ͭͯԠ༻౷ܭֶ  

Slide 7

Slide 7 text

X-means ③クラスタごとに k=2として k-meansを実行して、BICを計算する BIC = − 2 log L( ̂ θi ; xi ∈ Ci ) + q log n K-meansでクラスタを2つに分ける 2つに分けた後、再びBICを計算

Slide 8

Slide 8 text

X-means ④2つに分ける前と後のBICを比較し、分けるべきかどうか決定 分ける前の 分けた後の →クラスタ数を増やしたほうがよい BIC = 1000 BIC = 2000 分ける前の 分けた後の →クラスタ数はこのままで良い BIC = 1200 BIC = 900

Slide 9

Slide 9 text

実験!

Slide 10

Slide 10 text

k-meansとX-meansの結果を比較 k=5を指定した場合のクラスタリング結果 https://k-datamining.github.io/dm-book/data-analysis/materials/clustering/X-meansΫϥελϦϯά.html ← k=5でk-meansを収束するまで実行 =想定していたクラスタ

Slide 11

Slide 11 text

k-meansとX-meansの結果を比較 X-meansはkを指定せずとも右上のクラスタをうまくクラスタリングできている https://k-datamining.github.io/dm-book/data-analysis/materials/clustering/X-meansΫϥελϦϯά.html

Slide 12

Slide 12 text

k-meansとX-meansの結果を比較 色々なパターンでk-means(k=5)とX-meansを比較してみる

Slide 13

Slide 13 text

k-meansとX-meansの結果を比較 色々なパターンでk-means(k=5)とX-meansを比較してみる

Slide 14

Slide 14 text

クラスタリングを終了するタイミングを変えた場合 Tolerance=セントロイドの移動距離がどれ以下になったらクラスタリングを終了するか パラメタの指定次第では分割しすぎ・分割しなさ過ぎる場合もあることに注意する

Slide 15

Slide 15 text

まとめ •K-meansはあらかじめkを指定する必要があった •X-meansはクラスタを更に二分割すべきかをBICを元に判断し、これによりクラスタ 数kを自動で決定することができる •X-meansもパラメタの指定によって結果が変化するので、妥当な分割をしているか 確認する必要あり X-meansというアルゴリズムの概要を説明しました

Slide 16

Slide 16 text

参考文献 •Pelleg, Dan, and Andrew W. Moore. "X-means: Extending k-means with e ffi cient estimation of the number of clusters." Icml. Vol. 1. 2000(pdf). •嘉村準弥, and 小柳滋. "x-means 法における分割停止規準の改良." IEICE Conferences Archives. The Institute of Electronics, Information and Communication Engineers, 2009. •石岡恒憲. "クラスター数を自動決定する k‐means アルゴリズムの拡張について." 応 用統計学 29.3 (2000): 141-149.