階層、非階層クラスタリング

クラスター分析、クラスタリング、数値分類(toxonomy) 外的基準の無い状態でデータを集合にする手法 n個体をk群に分ける組み合わせの「総数」は「第二スターリング数」で計算できる ※二項係数とよく似ているため、nCkになぞらえてnSkとあらわされる。 ※パスカルの三角形とも似ているが、単純に数列として求まるものではない。 , = 1 !
෍ =0 −1 1 −

階層的手法距離、類似度といった評価値から、近いものを順にまとめていく凝集型階層的分類法とよばれたりするあと分枝型とか。例：最近傍,最遠法、重心法、メディアン、加重平均、可変法、ウォード法重心法：データ点ごとのユークリッド距離を計算一番近い二点の重心(平均)をもとめ、二点を一点に置き換える。これを繰り返す。どのデータを結合したとき、重心がいくつであったか？を樹状にplotする←デンドログラム
樹状のなかでどの枝で切るか(クラスタをいくつにするか)を決める ※ユークリッドの他にメディアンなどを使ってもいいが、その場合「距離の逆転」が起こる

非階層的手法階層以外の手法たち例：k平均、ファジィc平均,ISODATA法など確率分布をクラスタと考えるので、混合分布ガウスモデルもこちらの分類ヒストグラムで2分割：テストの点数を上位と下位に分けるとする。まず並べるヒストグラムを書いて谷で縦に切り2クラスに分ける (群間分散と郡内分散の比の最大化を目指す
群内/群間の比が最大になるときが、最も谷が深い地点) k平均：データに適当にクラスを割り振るクラス内の平均を計算し、これに近いものを順にラベルつけなおしするまた平均、収束するまで繰り返し ※初期値に依存、外れ値に弱い、シングルトン(ひとつだけのクラス)ができる

混合正規分布モデルいくつかの正規分布が背景に存在すると考え、データから最尤法によってどの正規分布に属しているかを分ける EM法によって求めるが、長くなるので別記する(つもり) クラス数(いくつの正規分布が潜んでいるか)はクラスタリングあるあるだが、 AICによって決めたり、経験だったり

クラスタリングでの距離の公理 dij が0以上である dii=0 同じ点の距離は0 dij=dji 距離は方向で変化しない dij <= dik
+ djk 三角不等式が成り立つここまでを「計量的な距離」の公理 dij <= max(dik,djk) 超距離不等式が成り立つこれを加えると「超計量な距離」の公理別称：ウルトラメトリックこれを満たさないものを非計量的な距離とよぶ

距離の測り方絶対距離、チェビシェフ、ユークリッド、平均ユークリッド、ミンコフスキー類似度の測り方相関係数、余弦係数質的データは距離は考えられない。対応分析の数量化得点を使って無理やり数値にしてから扱う場合は時々ある

階層、非階層クラスタリング

階層、非階層クラスタリング

Ringa_hyj

More Decks by Ringa_hyj

Other Decks in Science

Featured

Transcript

クラスタリングでの距離の公理 dij が0以上である dii=0 同じ点の距離は0 dij=dji 距離は方向で変化しない dij <= dik

あ