Upgrade to Pro — share decks privately, control downloads, hide ads and more …

b3semi_3

MARUYAMA
February 09, 2017
210

 b3semi_3

MARUYAMA

February 09, 2017
Tweet

Transcript

  1. 3.2 凝集型クラスタリング 5 ▪凝集型クラスタリングのアルゴリズム 入力:事例集合 D = {('), (*), …

    (|-|)} C = {' , * , … |-| } # 1つのクラスタに1つの事例を割り当てる ' ={(')}, * ={(*)}, …|-| ={(|-|)} while |C |≥2 # 最も似ているクラスタ対を見つける # クラスタ対の融合 (: , ; ) = arg max (D , E ) D , E ∈ (: , ; ) end while # 停止条件 前回の復習
  2. 3.3 k-平均法 7 ▪ -平均法( -means)のアルゴリズム 入力:事例集合 D = {('),

    (*), … (|-|)} # 事例ベクトル集合の分割 until 収束 # 代表ベクトルの計算 ∀, :QR =arg max sim((D), T ) (D) into :QR end foreach クラスタ数k 無作為に代表ベクトル ' , * , … [ を選定 foreach (D) ∈ ∀, T = ' T ∑ (D) (D) ∈ end until # c : クラスタ 前回の復習
  3. 3. クラスタリング 8 3.4 混合正規分布によるクラスタリング 3.5 EMアルゴリズム 今回の内容 3.4.1 はじめに

    3.4.2 数学の復習:ベイズの定理 3.4.3 クラスタリング方法 3.5.1 最尤推定 3.5.2 クラスタリング方法
  4. 3.4.2 数学の復習:ベイズの定理 13 = () () ▪ ベイズの定理(Bayes’ theorem) 原因に対する結果の確率

    が分かっている時, 次式より が起こったときの原因がである確率 を求めることができる () : の事前確率 (|) : の事後確率
  5. 3.4.3 クラスタリング方法 14 ▪ ベクトルを分ける ( (D):d次元の事例ベクトル, ∶ クラスタ )

    : クラスタの事後確率(|(D))を求める D は正規分布 分散は既知であり, クラスタによって変化しない D = 1 2* f − (D) − T * 2* ( T :クラスタの平均ベクトル ) 仮定
  6. 15 (|(D)) = (, ) () = (, (D)) ∑

    (, (D)) T = ( D |) ∑ ( D |) T (|(D))は次のようになる = − (D) − T * 2* ∑ − (D) − T * 2* T ((D)) = ∑ ( D |) T : 混合正規分布(Gaussian mixture) 3.4.3 クラスタリング方法
  7. 16 ▪ 代表ベクトルTの計算 k-平均法では… T = ∑ (| D )

    D R j ∈- ∑ (| D ) R j ∈- T = 1 k D R j ∈- = ∑ ( D ∈ ) D R j ∈- ∑ ( D ∈ ) R j ∈- 混合正規分布によるクラスタリングでは… 3.4.3 クラスタリング方法
  8. 17 ▪ 混合正規分布によるクラスタリングのアルゴリズム 入力:事例集合 D = {('), (*), … (|-|)}

    until 収束 end foreach クラスタ数k 無作為に代表ベクトル ' ’, * ’, … [ ’を選定 foreach (D) ∈ foreach c (|(D); ′) = − (D) − T ′ * 2* ∑ − (D) − T ′ * 2* T end foreach 3.4.3 クラスタリング方法 end foreach foreach T = ∑ (| D ) D R j ∈- ∑ (| D ) R j ∈- ’ = end until
  9. 3.5.1 最尤推定 19 ▪ i.i.dと尤度 i.i.d(independently, identically distributed) : 独立に同一の確率分布に従う

    確率変数のサンプルデータ = ' , … q の生成確率 | が = | = t ( D |) R j ∈- となることを保証する仮定 モデルのパラメータ
  10. 3.5.1 最尤推定 20 ▪ i.i.dと尤度 i.i.d(independently, identically distributed) : 独立に同一の確率分布に従う

    確率変数のサンプルデータ = ' , … q の生成確率 | が = | = t ( D ) R j ∈- となることを保証する仮定 尤度(likelihood) モデルのパラメータ
  11. 3.5.1 最尤推定 21 ▪ 例題 表を出す確率が0.8のコイン1, 表を出す確率が0.6のコイン2がある。 この時, どちらかのコインだけを投げて事象「表, 裏,

    表, 表」が出たとする。 どちらのコインを投げたと考えるのが妥当か? コイン1 = 0.8 × 0.2 × 0.8 × 0.8 = 0.1024 コイン2 = 0.6 × 0.4 × 0.6 × 0.6 = 0.0864 コイン1のが尤度が高い → コイン1を投げたと考えるのが妥当
  12. 3.5.1 最尤推定 24 ポアソン分布から生成されたデータ = ' , … q が与えられたとする。

    このとき、ポアソン分布のパラメータを最尤推定を用いて求めよ。 log | = k log R j D ! ~• R j ∈- log | = k D 1 − 1 R j ∈- = 0 = ∑ D R j ∈- ▪ 例題
  13. 3.5.2 クラスタリング手法 26 ▪ Q関数 (Q-function) (| D ; ƒ)

    :直前に計算されたパラメータ’で算出された確率値 全てのcの場合について, 確率を重みにして尤度を足し合わせる ; ƒ = k D ; ƒ log , D ; R j ∈-
  14. 3.5.2 クラスタリング手法 27 ▪ EMアルゴリズム 入力:不完全データD の初期値を無作為に決める until 収束 Eステップ:

    任意の D ∈ , 任意のcについて, D ; ƒ を計算 Mステップ::QR = ; ′ end until ƒ = :QR
  15. まとめ 28 3.4 混合正規分布によるクラスタリング 3.5 EMアルゴリズム 今回の内容 3.4.1 はじめに 3.4.2

    数学の復習:ベイズの定理 3.4.3 クラスタリング方法 3.5.1 最尤推定 3.5.2 クラスタリング方法