k-meansクラスタリングの仕組み

クラスタリング１クラスタリング１ k-means k-means 作成者：K （リンク）

『クラスタリング』で説明する項目 k-means k-means++ X-means Part1 Part2

今回の内容 •クラスタリングとは •k-means •実験 •k-means++ •まとめクラスタリングとk-meansアルゴリズムについて説明します

クラスタリングデータを教師データ無しでいくつかのグループにまとめ上げる方法データは与えられているが、正解データは無い　　　　　＝教師なし学習 X y

アルゴリズムデータを用意します２つのグループに分けることができそうなので、と設定します k = 2

アルゴリズム各クラスタの初期値を設定します２つの初期値を作成します (作成の仕方は色々考えられますが、ここではデータのある空間の中に▪と▪を作成してそれを初期値としました) ࢀߟจݙɿk-means clustering ͷॳظ஋ͷܾΊํΛݩʹͯ͠આ໌͍ͯ͠·͢

アルゴリズムクラスタの初期値に近い点を求め、それらをまとめますそれぞれの初期値と距離が近い点を赤と青で色付けします

アルゴリズムクラスタごとの平均値(セントロイド)を求めます色付けした点の平均値を求めて、それをクラスタを代表する点(セントロイド, centroid)とします

アルゴリズムセントロイドから近い点を再び求め、クラスタを割り当てますセントロイドから距離が近い点を色付けします

アルゴリズム再びセントロイドを再計算し、また同じことを繰り返します色付けした点の平均値を求めて、それをクラスタを代表する点(セントロイド, centroid)とします

アルゴリズムセントロイドが移動しなくなったら、計算を終了します！この「セントロイドを求める↔色付けし直す」の作業を繰り返し、セントロイドが移動量が十分小さくなったら計算を終了します

実験！

K-meansクラスタリング ←のデータにk=2としてk-means を適用すると、綺麗にデータがクラスタリングされる色＝クラスタ

クラスタの境界が明確でない場合ｋの指定が適切でないと、一つのクラスタを複数の部分に分けてしまう場合がある

clusters(k)パラメタの影響ｋの指定が適切でないと、一つのクラスタを複数の部分に分けてしまう場合がある

k-meansの問題仮に初期値として隣接する点を選んでしまうと収束するまでに時間がかかる可能性がある初期値次第で計算終了に時間がかかる＋結果が変わるかもしれない ▼収束後の結果

k-means++<> はじめに、ランダムに点を一つ選ぶ次の点は、はじめに選んだ点との距離に基づいた確率分布に基づいて選ぶ (遠いほど選ばれやすくなる) ※scikit-learnはデフォルトではk-means++が実行されます参考文献：sklearn.cluster.KMeans 『k-meansの初期値はなるべく離れた点を選んだほうが良い』というアイデアを利用 [1] Arthur,
David, and Sergei Vassilvitskii. k-means++: The advantages of careful seeding. Stanford, 2006.

randomとk-mans++の比較 •K-means++はすべて同じようなクラスタリングをすることができている •K-mansは初期値次第でクラスタの境界が変化していることが確認できる

まとめ K-meanアルゴリズムについて説明しました •クラスタリングとは、データを教師データ無しでいくつかのグループにまとめ上げる方法 •K-meansでは、セントロイドの計算とクラスタの割り当てを繰り返すことでクラスタのまとまりを求める •K-meansは初期値の決め方によって結果が変わったり収束するまでに時間がかかる可能性があり、k-means++では改良を加えてこの問題を軽減している •パラメタｋの設定次第では不自然な形のクラスタができることもある

参考文献 •https://ja.wikipedia.org/wiki/K%E5%B9%B3%E5%9D%87%E6%B3%95 •sklearn.cluster.KMeans •Arthur, David, and Sergei Vassilvitskii. k-means++: The
advantages of careful seeding. Stanford, 2006.

k-meansクラスタリングの仕組み

k-meansクラスタリングの仕組み

K_DM

More Decks by K_DM

Other Decks in Education

Featured

Transcript

クラスタリング１クラスタリング１ k-means k-means 作成者：K （リンク）

『クラスタリング』で説明する項目 k-means k-means++ X-means Part1 Part2

今回の内容 •クラスタリングとは •k-means •実験 •k-means++ •まとめクラスタリングとk-meansアルゴリズムについて説明します

クラスタリングデータを教師データ無しでいくつかのグループにまとめ上げる方法データは与えられているが、正解データは無い　　　　　＝教師なし学習 X y

アルゴリズムデータを用意します２つのグループに分けることができそうなので、と設定します k = 2

アルゴリズムクラスタの初期値に近い点を求め、それらをまとめますそれぞれの初期値と距離が近い点を赤と青で色付けします

アルゴリズムクラスタごとの平均値(セントロイド)を求めます色付けした点の平均値を求めて、それをクラスタを代表する点(セントロイド, centroid)とします

アルゴリズムセントロイドから近い点を再び求め、クラスタを割り当てますセントロイドから距離が近い点を色付けします

アルゴリズム再びセントロイドを再計算し、また同じことを繰り返します色付けした点の平均値を求めて、それをクラスタを代表する点(セントロイド, centroid)とします

アルゴリズムセントロイドが移動しなくなったら、計算を終了します！この「セントロイドを求める↔色付けし直す」の作業を繰り返し、セントロイドが移動量が十分小さくなったら計算を終了します

実験！

K-meansクラスタリング ←のデータにk=2としてk-means を適用すると、綺麗にデータがクラスタリングされる色＝クラスタ

クラスタの境界が明確でない場合ｋの指定が適切でないと、一つのクラスタを複数の部分に分けてしまう場合がある

clusters(k)パラメタの影響ｋの指定が適切でないと、一つのクラスタを複数の部分に分けてしまう場合がある

k-meansの問題仮に初期値として隣接する点を選んでしまうと収束するまでに時間がかかる可能性がある初期値次第で計算終了に時間がかかる＋結果が変わるかもしれない ▼収束後の結果

randomとk-mans++の比較 •K-means++はすべて同じようなクラスタリングをすることができている •K-mansは初期値次第でクラスタの境界が変化していることが確認できる

参考文献 •https://ja.wikipedia.org/wiki/K%E5%B9%B3%E5%9D%87%E6%B3%95 •sklearn.cluster.KMeans •Arthur, David, and Sergei Vassilvitskii. k-means++: The