自然言語処理研究室B3ゼミ_03rdWeek

自然言語処理研究室 B3 Seminar ２０１３年度第3週～機械学習について Part2 ～クラスタリング
長岡技術科学大学 B3 竹野峻輔

• 機械学習とは？ – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類（教師有学習、教師無学習） • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム第3週前回までの復習 –機械学習と自然言語処理について-

• 機械学習とは？ – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類（教師有学習、教師無学習） • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング ⇐ 本日はこれについて 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム第3週前回までの復習 –機械学習と自然言語処理について-

• 似ているもの同士を機械的にまとめる。 – どんな塊りになるかはわからない・・・ • 人間の感覚（クラス分類）v.s. 計算機の分け方（クラスタリング） • 擬集型クラスタリング（ボトムアップクラスタリング） •
k-平均法(k-means法) • 混合正規分布によるクラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム第3週クラスタリング

− 2 2 = ∑ − 2 − ∞ =
max | − | ∙ • 階層的クラスタリング(Hierarchical clustering) – 近いものから順々に結合 – クラスタは階層構造になる。近さ（点）の定義・ユークリッド, マンハッタン距離・最大距離（無限ノルム）・マハラノビス距離・余弦類似度近さ（クラスタ）の定義・最大距離, 最小距離, 重心距離, 最小エネルギー 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム第3週擬集型クラスタリング（ボトムアップクラスタリング）

• クラスタ数kを決める。 • 適当にk個に分ける • 重心（代表ベクトル）を計算 – 一番近い代表ベクトルに合併。 – 重心移動：代表ベクトルの再計算
以上繰り返し考えるよりも実際に見てみましょう。てっく煮：k-means びじゅあらいず http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/ 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム第3週 K-平均法(K-means )

• EMアルゴリズムの一種 • クラスタリングの判定が確率的 • 分布は正規分布 – 代表ベクトルからの距離が長いほど確率が低くなる。 2014/1/22 自然言語処理研究室
2013年度 B3コアタイム第3週混合正規分布(Gaussian Mixture) によるクラスタリング ; ) = |; ( ; ) = | ∑ ( )( |; ) 代表ベクトルはP(c|xi )の重み付き平均で更新される。

2014/1/22 自然言語処理研究室 2013年度 B3コアタイム第3週

• クラスタリングで似たもの通しで、一つに集める。 – どのようなかたまりにしたいか、考える必要がある。 • 一番の問題点となるのが、クラスタ数。 – 最小記述原理等があるが結局は地道に調べるしかない •
計算量が大きい（ O(n2)～ O(n3) ） – 反復処理であるた数値誤差が溜まりやすい – 対数を利用(longsumexp法による工夫必要) • 獲得したクラスタに対する評価が難しい – 他のタスクに役立つか否かで評価する 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム第3週クラスタリングにおける問題点および注意点

自然言語処理研究室B3ゼミ_03rdWeek

自然言語処理研究室B3ゼミ_03rdWeek

takegue

More Decks by takegue

Other Decks in Technology

Featured

Transcript

自然言語処理研究室 B3 Seminar ２０１３年度第3週～機械学習について Part2 ～クラスタリング

• 機械学習とは？ – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類（教師有学習、教師無学習） • 教師有学習

• 機械学習とは？ – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類（教師有学習、教師無学習） • 教師有学習

• 似ているもの同士を機械的にまとめる。 – どんな塊りになるかはわからない・・・ • 人間の感覚（クラス分類）v.s. 計算機の分け方（クラスタリング） • 擬集型クラスタリング（ボトムアップクラスタリング） •

− 2 2 = ∑ − 2 − ∞ =

• クラスタ数kを決める。 • 適当にk個に分ける • 重心（代表ベクトル）を計算 – 一番近い代表ベクトルに合併。 – 重心移動：代表ベクトルの再計算

• EMアルゴリズムの一種 • クラスタリングの判定が確率的 • 分布は正規分布 – 代表ベクトルからの距離が長いほど確率が低くなる。 2014/1/22 自然言語処理研究室

2014/1/22 自然言語処理研究室 2013年度 B3コアタイム第3週

• クラスタリングで似たもの通しで、一つに集める。 – どのようなかたまりにしたいか、考える必要がある。 • 一番の問題点となるのが、クラスタ数。 – 最小記述原理等があるが結局は地道に調べるしかない •