b3semi_2.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=47 MARUYAMA
February 03, 2017
73

 b3semi_2.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=128

MARUYAMA

February 03, 2017
Tweet

Transcript

  1. 自然言語処理のための機械学習 第2回 B3 丸山 拓海 自然言語処理研究室

  2. 自然言語処理のための機械学習 2 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング

    1. 必要な数学的知識
  3. 自然言語処理のための機械学習 3 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング

    1. 必要な数学的知識
  4. 3. クラスタリング 4 3.2 凝集型クラスタリング 3.3 k-平均法 3.4 混合正規分布によるクラスタリング 3.5

    EMアルゴリズム 3.1 クラスタリングとは
  5. 3.1 クラスタリングとは 5 ▪クラスタリング :似ているもの同士を一つのグループにまとめる作業 ▪クラスタ :出来上がったグループ ・ 文書, 単語,

    文, 句などあらゆるものが対象 ・ どんなクラスタが出来上がるのかを前もって知ることはできない
  6. 3.2 凝集型クラスタリング 6 ▪凝集型クラスタリング(agglomerative clustering) :最も似ているもの同士をまとめていくクラスタリング手法 :事例(instance) :クラスタ(cluster)

  7. 3.2 凝集型クラスタリング 7 ▪凝集型クラスタリング(agglomerative clustering) :最も似ているもの同士をまとめていくクラスタリング手法 :事例(instance) :クラスタ(cluster)

  8. 3.2 凝集型クラスタリング 8 ▪凝集型クラスタリング(agglomerative clustering) :最も似ているもの同士をまとめていくクラスタリング手法 :事例(instance) :クラスタ(cluster)

  9. 3.2 凝集型クラスタリング 9 ▪凝集型クラスタリング(agglomerative clustering) :最も似ているもの同士をまとめていくクラスタリング手法 :事例(instance) :クラスタ(cluster)

  10. 3.2 凝集型クラスタリング 10 ▪凝集型クラスタリング(agglomerative clustering) :最も似ているもの同士をまとめていくクラスタリング手法 樹形図をある高さで切ってクラスタ集合を得る 交わる箇所 :クラスタ同士の融合 交わる箇所の高さ

    :融合の順序
  11. 3.2 凝集型クラスタリング 11 ▪凝集型クラスタリングのアルゴリズム 入力:事例集合 D = {('), (*), …

    (|-|)} C = {' , * , … |-| } # 1つのクラスタに1つの事例を割り当てる ' ={(')}, * ={(*)}, …|-| ={(|-|)} while |C |≥2 # 最も似ているクラスタ対を見つける # クラスタ対の融合 (: , ; ) = arg max (D , E ) D , E ∈ (: , ; ) end while # 停止条件
  12. 3.2 凝集型クラスタリング 12 複数の事例から構成されるクラスタ同士の類似度をどのように 計算するのか? ・ 単連結法(single-link method) ・ 完全連結法(complete-link

    method) ・ 重心法(centroid method)
  13. 3.2 凝集型クラスタリング 13 ▪ 単連結法(single-link method) : 2つのクラスタが与えられたとき, その中で最も近い事例対の 類似度を,

    その2つのクラスタの類似度とする方法 (D , E ) = max (M , N ) M ∈ D , N ∈ E ▪ 完全連結法(complete-link method) : 2つのクラスタが与えられたとき, その中で最も遠い事例対の 類似度を, その2つのクラスタの類似度とする方法 (D , E ) = min (M , N ) M ∈ D , N ∈ E
  14. 3.2 凝集型クラスタリング 14 ▪ 重心法(centroid method) : 与えられたクラスタに対し, それらの重心間の類似度を, その2つのクラスタの類似度とする方法

    (D , E ) = ' |OP| ∑ M , ' |OP| ∑ N N ∈ E M ∈ D
  15. 3.3 k-平均法 15 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  16. 3.3 k-平均法 16 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  17. 3.3 k-平均法 17 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  18. 3.3 k-平均法 18 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  19. 3.3 k-平均法 19 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  20. 3.3 k-平均法 20 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  21. 3.3 k-平均法 21 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  22. 3.3 k-平均法 22 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  23. 3.3 k-平均法 23 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  24. 3.3 k-平均法 24 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  25. 3.3 k-平均法 25 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  26. 3.3 k-平均法 26 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  27. 3.3 k-平均法 27 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  28. 3.3 k-平均法 28 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  29. 3.3 k-平均法 29 ▪ -平均法( -means) : クラスタの平均ベクトルを用いて, 個のクラスタに分割する方法 各ベクトルが2次元,

    クラスタ数 = 2とする :事例ベクトル :代表ベクトル
  30. 3.3 k-平均法 30 ▪ -平均法( -means) 入力:事例集合 D = {('),

    (*), … (|-|)} # 事例ベクトル集合の分割 until 収束 # 代表ベクトルの計算 ∀, :WX =arg max sim((D), O ) (D) into :WX end foreach クラスタ数k 無作為に代表ベクトル ' , * , … M を選定 foreach (D) ∈ ∀, O = ' O ∑ (D) (D) ∈ end until # c : クラスタ
  31. まとめ 31 3.2 凝集型クラスタリング 3.3 k-平均法 3.1 クラスタリングとは 3. クラスタリング