Upgrade to Pro — share decks privately, control downloads, hide ads and more …

混合ガウスモデル (Gaussian Mixture Model, GMM)~クラスタリングだ...

混合ガウスモデル (Gaussian Mixture Model, GMM)~クラスタリングだけでなく、データセットの確率密度分布を得るにも重宝します~

GMM とは?
どんなときに GMM を使うか?
正規分布 (ガウス分布, Gaussian distribution)
正規分布の例
多変量正規分布
多変量正規分布の例 2変数
(多変量)正規分布の重ね合わせとは? 例
混合正規分布 (混合ガウス分布)
混合正規分布 (混合ガウス分布) 式
GMM の方針
実際に GMM をやってみる
各サンプルがどのクラスターになるか考える 1/3
各サンプルがどのクラスターになるか考える 2/3
各サンプルがどのクラスターになるか考える 3/3
実際にクラスターを割り振る
クラスター数をどう決めるか?
ベイズ情報量規準 (BIC) を計算してみた
[補足] EM アルゴリズム 対数尤度関数
[補足] EM アルゴリズム 最大 → 極大
[補足] EM アルゴリズム μで微分
[補足] EM アルゴリズム 負担率
[補足] EM アルゴリズム μの計算
[補足] EM アルゴリズム Σ の計算
[補足] EM アルゴリズム π の計算
[補足] EM アルゴリズム π
[補足] EM アルゴリズム まとめ
参考文献

Hiromasa Kaneko

March 25, 2018
Tweet

More Decks by Hiromasa Kaneko

Other Decks in Science

Transcript

  1. どんなときに GMM を使うか︖ 理想 • データセットが、複数の正規分布の重ね合わせで表現できることが 分かっているとき 現実 • クラスターの数を自動的に決めながらクラスタリングしたいとき

    • データセットの確率密度関数が欲しいとき ⁃ 確率密度関数の応用例) • 確率密度関数に基づいたサンプリング • 説明変数 X の事前分布として利用 2
  2. 正規分布の例 μ = 0 σ = 1 4 ( )

    ( )2 2 2 2 1 1 | , exp 2 2 N x x µ σ µ σ πσ   = − −     ヒストグラム 確率密度関数
  3. 多変量正規分布 正規分布を複数の変数 (x1 , x2 , x3 , … )

    がある場合に拡張したもの 各変数の平均・分散だけでなく、変数間の共分散も必要 • x1 と x2 の共分散が 2 とか 変数の数を m とすると、 • x : [ x1 , x2 , x3 , … xm ] • μ : 1 × m の平均ベクトル • Σ : m × m の分散共分散⾏列 5 ( ) ( ) ( ) ( ) T 1 1 2 2 1 1 1 | , exp 2 2 m N π −   = − − −     x μ Σ x μ Σ x μ Σ
  4. 多変量正規分布の例 2変数 x1 の平均 3, 分散 2 x2 の平均 4,

    分散 0.2 x1 と x2 の共分散 0.5 6 ヒストグラム 確率密度関数 散布図
  5. 混合正規分布 (混合ガウス分布) 式 変数の数を m , 正規分布の数を n とすると、 •

    x : [ x1 , x2 , x3 , …, xm ] • μk : k 番目の正規分布における 1 × m の平均ベクトル • Σk : k 番目の正規分布における m × m の分散共分散⾏列 • πk : 混合係数 (各正規分布の重み) 9 ( ) ( ) 1 | , n k k k k p N π = =  x x μ Σ ( ) ( ) ( ) ( ) T 1 1 2 2 1 1 1 | , exp 2 2 k k k k k m k N π −   = − − −     x μ Σ x μ Σ x μ Σ 1 1 n k k π = = 
  6. GMM の方針 10 データセットが与えられたとき、最尤推定法で • μk : k 番目の正規分布における 1

    × m の平均ベクトル • Σk : k 番目の正規分布における m × m の分散共分散⾏列 • πk : 混合係数 (各正規分布の重み) を求めよう︕ 最尤推定法については、 http://datachemeng.com/maximumlikelihoodestimation/ にあります 具体的な求め方については、p. 18 以降の [補足] にあります
  7. 実際に GMM をやってみる 11 散布図 右のデータセットを用いて n = 3 としてGMMを⾏うと、

    p. 8 にある実際の確率密度関数と 同じような結果が得られた︕
  8. 各サンプルがどのクラスターになるか考える 1/3 GMM では、各サンプルの割り当てられた正規分布が、 そのサンプルのクラスター • n 個の正規分布があるとき、クラスター数も n 個ある

    クラスター変数 z を用いる ある k 番目の zk だけ値が 1 で、他は 0 zk = 1 のとき、k 番目のクラスターに属するということ サンプルに関する情報がないとき、 zk = 1 となる確率は πk (混合係数) 12 ( ) 1 k k p z π = =
  9. 各サンプルがどのクラスターになるか考える 2/3 13 ( ) 1| k p z =

    x 知りたいのは、あるサンプル x が与えられたときに、zk = 1 となる確率 ベイズの定理より、 ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 1 | 1 1| 1 | 1 | 1 | 1 k k k n i i i k k n i i i p z p z p z p z p z p z p z π π = = = = = = = = = = =   x x x x x
  10. 各サンプルがどのクラスターになるか考える 3/3 14 ( ) | 1 k p z

    = x とは、zk = 1 、つまり k 番目の正規分布、における ( ) | , k k N x μ Σ よって、 ( ) ( ) ( ) 1 | , 1| | , k k k k n i i i i N p z N π π = = =  x μ Σ x x μ Σ x の確率 ( ) 1| k p z = x k について、1 から n まで計算し、最も大きい をもつ クラスターを、x が属するクラスターとする
  11. クラスター数をどう決めるか︖ 16 クラスター数を 1, 2, 3, … と振って GMM を⾏い、それぞれ

    ベイズ情報量規準 (Bayesian Information Criterion, BIC) を 計算する • L: 尤度 (http://datachemeng.com/maximumlikelihoodestimation/ ) • M: 推定するパラメータの数 ⁃ 今回は詳細を記載しないが、分散共分散⾏列 Σk に制限を 与えることで、M が変化する (制限しないときは考えなくてよい) • N: サンプル数 BIC の値が最小となるクラスター数とする データセットを確率密度関数として表せるため、最適クラスター数の 推定ができる 2log log BIC L M N = − +
  12. [補足] EM アルゴリズム 対数尤度関数 18 GMM のパラメータ推定には、EM (Expectation-Maximization) アルゴリズムが用いられることが多い 対数尤度関数

    (http://datachemeng.com/maximumlikelihoodestimation) ( ) ( ) ( ) 1 1 1 1 log | , , log | , log | , N n k j k k k j N n k j k k j k L N N π π = = = =     =         =      ∏   X π μ Σ x μ Σ x μ Σ
  13. [補足] EM アルゴリズム 最大 → 極大 19 対数尤度関数が、μk , Σk

    , πk それぞれで最大になるために満たされるべき 条件を探す 最大 → 極大 対数尤度関数を μk , Σk , πk それぞれで微分して 0 とする 1 1 n k k π = =  ただし、πk は制約条件 があるため、 Lagrange の未定乗数法を用いる
  14. [補足] EM アルゴリズム μで微分 20 対数尤度関数を μk で微分して 0 とすると、

    ( ) ( ) ( ) 1 1 1 | , 0 | , N k j k k k j k n j i j i i i N N π π − = = − =   x μ Σ Σ x μ x μ Σ 上の式中の ( ) ( ) 1 | , | , k j k k n i j i i i N N π π =  x μ Σ x μ Σ は、p. 14 における、 xj が与えられたときの正規分布 k の事後確率に等しい これを、負担率 γ(zj,k ) をする
  15. [補足] EM アルゴリズム 負担率 21 ( ) ( ) (

    ) , 1 | , | , k j k k j k n i j i i i N z N π γ π = =  x μ Σ x μ Σ ( ) ( ) ( )( ) 1 , 1 , 1 0 0 N j k k j k j N j k j k j z z γ γ − = = − = − =   Σ x μ x μ とすると、 Σk -1 を左からかけると、
  16. [補足] EM アルゴリズム μの計算 22 ( ) ( ) (

    ) , , 1 1 , 1 N N j k j j k j j j k N k j k j z z N z γ γ γ = = = = =    x x μ よって、 ( ) , 1 N k j k j N z γ = =  ここで、 は、k 番目のクラスターに 割り当てられたサンプル数
  17. [補足] EM アルゴリズム Σ の計算 23 対数尤度関数を Σk で微分して 0

    とする 整理すると、 ( )( )( )T , 1 1 N k j k j k j k j k z N γ = = − −  Σ x μ x μ
  18. [補足] EM アルゴリズム π の計算 24 πk について、Lagrange の未定乗数法より、 (

    ) 1 log | , , 1 n k k G L λ π =   = + −      X π μ Σ を最大化する G を πk で微分して 0 とすると、 ( ) ( ) 1 1 | , 0 | , N j k k n j i j i i i N N λ π = = + =   x μ Σ x μ Σ
  19. [補足] EM アルゴリズム π 25 ( ) ( ) 1

    1 | , 0 | , N j k k n j i j i i i N N λ π = = + =   x μ Σ x μ Σ 両辺に πk をかけて k について和を取ると、 1 1 n k k π = =  より、 N λ = − これを使い、一番上の式 πk をかけて変形すると、 k k N N π =
  20. [補足] EM アルゴリズム まとめ ① μk , Σk , πk

    を初期化する ② E ステップ : 負担率 γ(zj,k ) を計算する ③ M ステップ : 負担率 γ(zj,k ) を用いて、 μk , Σk , πk を再計算する ④ ②③ を繰り返す 26 ( ) , 1 new N j k j j k k z N γ = =  x μ ( )( )( )T new new new , 1 1 N k j k j k j k j k z N γ = = − −  Σ x μ x μ new k k N N π =
  21. [補足] 変分ベイズ法 μ, Σ の事前分布 GMM のパラメータを変分ベイズ法で推定 → Variational Bayesian

    GMM μ, Σ の事前分布として Gaussian–Wishart 分布を導入 27 ( ) ( ) ( ) 0 0 0 0 1 , | , | , n k k k k p N W α β = = ∏ μ Σ μ m Σ Σ W W : Wishart 分布 m0 : 正規分布の平均 (X の平均値) α0 : 正規分布の分散共分散⾏列のパラメータ (α0 = 1) W0 , β0 : Wishart 分布のパラメータ (W0 は X の分散共分散⾏列、 β0 は X の変数の数
  22. [補足] 変分ベイズ法 π の事前分布 π の事前分布としてディリクレ分布やディリクレ過程を導入 • ディリクレ分布 • ディリクレ過程

    ⁃ 無限次元のディリクレ分布と考えることができ、 stick-breaking 過程や中華料理店過程で推定 • 詳細は D.M. Blei, M.I. Jordan, Variational inference for Dirichlet process mixtures. Bayesian Anal. 1 (2006) 121–143. 28 Dir : ディリクレ分布 γ0 : ディリクレ分布のハイパーパラメータ ( ) ( ) 0 | p Dir γ = π π ( ) 1 1 k k k k i π ν ν = = − ∏ ( ) 0 1, k Beta ν γ ∼ Beta : ベータ分布 γ0 : ベータ分布のハイパーパラメータ
  23. 参考文献 C.M. ビショップ,パターン認識と機械学習 下, 丸善出版 (2012) D.M. Blei, M.I. Jordan,

    Variational inference for Dirichlet process mixtures. Bayesian Anal. 1 (2006) 121–143. 29