クラスタリングによる分析事例 7 サンフランシスコで撮影された 写真の位置情報 on Flickr 画像出展: https://www.buzzfeed.com/ L. Kennedy et al.: ”How flickr helps us make sense of the world: context and content in community-contributed media collections. In Proceedings of the 15th ACM international conference on Multimedia (MM ‘07)”, 631–640, 2007. 密度ベースの クラスタリング 撮影位置が密集している 場所をクラスタとして抽出 撮影位置密集場所に タグ付けされた情報を可視化
K-meansクラスタリングの概要 A B D C E F G H I A B D C E F G H I 入力 ・ベクトルの集合(表データ) ・クラスタ数 出力 各ベクトルが所属するクラスタ 利用するケース データを決まった数のグループに 分けたいとき 13 N個のグループに分割 クラスタ数が決め打ちなのでトップダウンクラスタリングと呼ばれる
階層的クラスタリングの概要 入力 ベクトルの集合(表データ) 出力 各ベクトルが所属するクラスタ & その階層図(デンドログラム) 利用するケース A B D C E F G H I A B D C E F G H I 類似データを徐々にマージ ・クラスタ数を柔軟に決めたいとき ・クラスタが分かれていく様を 確認したいとき 43 徐々にクラスタを⼤きくするのでボトムアップクラスタリングと呼ばれる
クラスタ間の距離の定義(1/7) 最短距離法 (single linkage; SL) B A C D E クラスタの要素間の最短距離 63 Cx Cy !'((<), <*) = min +!∈-! +"∈-" A) − A* 最長距離法 (complete linkage; CL) B A C D E クラスタの要素間の最⻑距離 Cx Cy !-((<), <*) = ma' +!∈-! +"∈-" A) − A*
クラスタ間の距離の定義(2/7) 最短距離法 (single linkage; SL) B A C D E クラスタの要素間の最短距離 64 Cx Cy 最長距離法 (complete linkage; CL) B A C D E クラスタの要素間の最⻑距離 Cx Cy ○ 計算コストが⼩さい ○ クラスタサイズが揃いやすい × クラスタ同⼠が離れやすい ○ 計算コストが⼩さい × クラスタが鎖状になりやすい × 外れ値に弱い