Slide 1

Slide 1 text

0 混合ガウスモデル Gaussian Mixture Model GMM 明治大学 理⼯学部 応用化学科 データ化学⼯学研究室 ⾦⼦ 弘昌

Slide 2

Slide 2 text

GMM とは︖ クラスタリング手法の一つ 与えられたデータセットを、複数の正規分布の重ね合わせで表現する 確率密度関数が得られる (確率分布として表現できる) サンプルごとに、各クラスターに所属する確率が得られる クラスター数を自動的に決められる 1

Slide 3

Slide 3 text

どんなときに GMM を使うか︖ 理想 • データセットが、複数の正規分布の重ね合わせで表現できることが 分かっているとき 現実 • クラスターの数を自動的に決めながらクラスタリングしたいとき • データセットの確率密度関数が欲しいとき ⁃ 確率密度関数の応用例) • 確率密度関数に基づいたサンプリング • 説明変数 X の事前分布として利用 2

Slide 4

Slide 4 text

正規分布 (ガウス分布, Gaussian distribution) データが、平均値付近に一番固まっていて、ばらつきのある確率分布 3 平均︓μ 分散︓σ2 ( ) ( )2 2 2 2 1 1 | , exp 2 2 N x x µ σ µ σ πσ   = − −    

Slide 5

Slide 5 text

正規分布の例 μ = 0 σ = 1 4 ( ) ( )2 2 2 2 1 1 | , exp 2 2 N x x µ σ µ σ πσ   = − −     ヒストグラム 確率密度関数

Slide 6

Slide 6 text

多変量正規分布 正規分布を複数の変数 (x1 , x2 , x3 , … ) がある場合に拡張したもの 各変数の平均・分散だけでなく、変数間の共分散も必要 • x1 と x2 の共分散が 2 とか 変数の数を m とすると、 • x : [ x1 , x2 , x3 , … xm ] • μ : 1 × m の平均ベクトル • Σ : m × m の分散共分散⾏列 5 ( ) ( ) ( ) ( ) T 1 1 2 2 1 1 1 | , exp 2 2 m N π −   = − − −     x μ Σ x μ Σ x μ Σ

Slide 7

Slide 7 text

多変量正規分布の例 2変数 x1 の平均 3, 分散 2 x2 の平均 4, 分散 0.2 x1 と x2 の共分散 0.5 6 ヒストグラム 確率密度関数 散布図

Slide 8

Slide 8 text

(多変量)正規分布の重ね合わせとは︖ 例 7 重ね合わせ(混合)

Slide 9

Slide 9 text

混合正規分布 (混合ガウス分布) 8 確率密度関数 ヒストグラム 散布図 混合正規分布 (混合ガウス分布, mixtures of Gaussians)

Slide 10

Slide 10 text

混合正規分布 (混合ガウス分布) 式 変数の数を m , 正規分布の数を n とすると、 • x : [ x1 , x2 , x3 , …, xm ] • μk : k 番目の正規分布における 1 × m の平均ベクトル • Σk : k 番目の正規分布における m × m の分散共分散⾏列 • πk : 混合係数 (各正規分布の重み) 9 ( ) ( ) 1 | , n k k k k p N π = =  x x μ Σ ( ) ( ) ( ) ( ) T 1 1 2 2 1 1 1 | , exp 2 2 k k k k k m k N π −   = − − −     x μ Σ x μ Σ x μ Σ 1 1 n k k π = = 

Slide 11

Slide 11 text

GMM の方針 10 データセットが与えられたとき、最尤推定法で • μk : k 番目の正規分布における 1 × m の平均ベクトル • Σk : k 番目の正規分布における m × m の分散共分散⾏列 • πk : 混合係数 (各正規分布の重み) を求めよう︕ 最尤推定法については、 http://datachemeng.com/maximumlikelihoodestimation/ にあります 具体的な求め方については、p. 18 以降の [補足] にあります

Slide 12

Slide 12 text

実際に GMM をやってみる 11 散布図 右のデータセットを用いて n = 3 としてGMMを⾏うと、 p. 8 にある実際の確率密度関数と 同じような結果が得られた︕

Slide 13

Slide 13 text

各サンプルがどのクラスターになるか考える 1/3 GMM では、各サンプルの割り当てられた正規分布が、 そのサンプルのクラスター • n 個の正規分布があるとき、クラスター数も n 個ある クラスター変数 z を用いる ある k 番目の zk だけ値が 1 で、他は 0 zk = 1 のとき、k 番目のクラスターに属するということ サンプルに関する情報がないとき、 zk = 1 となる確率は πk (混合係数) 12 ( ) 1 k k p z π = =

Slide 14

Slide 14 text

各サンプルがどのクラスターになるか考える 2/3 13 ( ) 1| k p z = x 知りたいのは、あるサンプル x が与えられたときに、zk = 1 となる確率 ベイズの定理より、 ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 1 | 1 1| 1 | 1 | 1 | 1 k k k n i i i k k n i i i p z p z p z p z p z p z p z π π = = = = = = = = = = =   x x x x x

Slide 15

Slide 15 text

各サンプルがどのクラスターになるか考える 3/3 14 ( ) | 1 k p z = x とは、zk = 1 、つまり k 番目の正規分布、における ( ) | , k k N x μ Σ よって、 ( ) ( ) ( ) 1 | , 1| | , k k k k n i i i i N p z N π π = = =  x μ Σ x x μ Σ x の確率 ( ) 1| k p z = x k について、1 から n まで計算し、最も大きい をもつ クラスターを、x が属するクラスターとする

Slide 16

Slide 16 text

実際にクラスターを割り振る 15 散布図 GMM 各サンプルにクラスターを割り振ると、

Slide 17

Slide 17 text

クラスター数をどう決めるか︖ 16 クラスター数を 1, 2, 3, … と振って GMM を⾏い、それぞれ ベイズ情報量規準 (Bayesian Information Criterion, BIC) を 計算する • L: 尤度 (http://datachemeng.com/maximumlikelihoodestimation/ ) • M: 推定するパラメータの数 ⁃ 今回は詳細を記載しないが、分散共分散⾏列 Σk に制限を 与えることで、M が変化する (制限しないときは考えなくてよい) • N: サンプル数 BIC の値が最小となるクラスター数とする データセットを確率密度関数として表せるため、最適クラスター数の 推定ができる 2log log BIC L M N = − +

Slide 18

Slide 18 text

ベイズ情報量規準 (BIC) を計算してみた 17 散布図 少し⾒えにくいが、クラスター数が 3 で BIC の値が最小になっており、 適切なクラスター数を推定できた

Slide 19

Slide 19 text

[補足] EM アルゴリズム 対数尤度関数 18 GMM のパラメータ推定には、EM (Expectation-Maximization) アルゴリズムが用いられることが多い 対数尤度関数 (http://datachemeng.com/maximumlikelihoodestimation) ( ) ( ) ( ) 1 1 1 1 log | , , log | , log | , N n k j k k k j N n k j k k j k L N N π π = = = =     =         =      ∏   X π μ Σ x μ Σ x μ Σ

Slide 20

Slide 20 text

[補足] EM アルゴリズム 最大 → 極大 19 対数尤度関数が、μk , Σk , πk それぞれで最大になるために満たされるべき 条件を探す 最大 → 極大 対数尤度関数を μk , Σk , πk それぞれで微分して 0 とする 1 1 n k k π = =  ただし、πk は制約条件 があるため、 Lagrange の未定乗数法を用いる

Slide 21

Slide 21 text

[補足] EM アルゴリズム μで微分 20 対数尤度関数を μk で微分して 0 とすると、 ( ) ( ) ( ) 1 1 1 | , 0 | , N k j k k k j k n j i j i i i N N π π − = = − =   x μ Σ Σ x μ x μ Σ 上の式中の ( ) ( ) 1 | , | , k j k k n i j i i i N N π π =  x μ Σ x μ Σ は、p. 14 における、 xj が与えられたときの正規分布 k の事後確率に等しい これを、負担率 γ(zj,k ) をする

Slide 22

Slide 22 text

[補足] EM アルゴリズム 負担率 21 ( ) ( ) ( ) , 1 | , | , k j k k j k n i j i i i N z N π γ π = =  x μ Σ x μ Σ ( ) ( ) ( )( ) 1 , 1 , 1 0 0 N j k k j k j N j k j k j z z γ γ − = = − = − =   Σ x μ x μ とすると、 Σk -1 を左からかけると、

Slide 23

Slide 23 text

[補足] EM アルゴリズム μの計算 22 ( ) ( ) ( ) , , 1 1 , 1 N N j k j j k j j j k N k j k j z z N z γ γ γ = = = = =    x x μ よって、 ( ) , 1 N k j k j N z γ = =  ここで、 は、k 番目のクラスターに 割り当てられたサンプル数

Slide 24

Slide 24 text

[補足] EM アルゴリズム Σ の計算 23 対数尤度関数を Σk で微分して 0 とする 整理すると、 ( )( )( )T , 1 1 N k j k j k j k j k z N γ = = − −  Σ x μ x μ

Slide 25

Slide 25 text

[補足] EM アルゴリズム π の計算 24 πk について、Lagrange の未定乗数法より、 ( ) 1 log | , , 1 n k k G L λ π =   = + −      X π μ Σ を最大化する G を πk で微分して 0 とすると、 ( ) ( ) 1 1 | , 0 | , N j k k n j i j i i i N N λ π = = + =   x μ Σ x μ Σ

Slide 26

Slide 26 text

[補足] EM アルゴリズム π 25 ( ) ( ) 1 1 | , 0 | , N j k k n j i j i i i N N λ π = = + =   x μ Σ x μ Σ 両辺に πk をかけて k について和を取ると、 1 1 n k k π = =  より、 N λ = − これを使い、一番上の式 πk をかけて変形すると、 k k N N π =

Slide 27

Slide 27 text

[補足] EM アルゴリズム まとめ ① μk , Σk , πk を初期化する ② E ステップ : 負担率 γ(zj,k ) を計算する ③ M ステップ : 負担率 γ(zj,k ) を用いて、 μk , Σk , πk を再計算する ④ ②③ を繰り返す 26 ( ) , 1 new N j k j j k k z N γ = =  x μ ( )( )( )T new new new , 1 1 N k j k j k j k j k z N γ = = − −  Σ x μ x μ new k k N N π =

Slide 28

Slide 28 text

[補足] 変分ベイズ法 μ, Σ の事前分布 GMM のパラメータを変分ベイズ法で推定 → Variational Bayesian GMM μ, Σ の事前分布として Gaussian–Wishart 分布を導入 27 ( ) ( ) ( ) 0 0 0 0 1 , | , | , n k k k k p N W α β = = ∏ μ Σ μ m Σ Σ W W : Wishart 分布 m0 : 正規分布の平均 (X の平均値) α0 : 正規分布の分散共分散⾏列のパラメータ (α0 = 1) W0 , β0 : Wishart 分布のパラメータ (W0 は X の分散共分散⾏列、 β0 は X の変数の数

Slide 29

Slide 29 text

[補足] 変分ベイズ法 π の事前分布 π の事前分布としてディリクレ分布やディリクレ過程を導入 • ディリクレ分布 • ディリクレ過程 ⁃ 無限次元のディリクレ分布と考えることができ、 stick-breaking 過程や中華料理店過程で推定 • 詳細は D.M. Blei, M.I. Jordan, Variational inference for Dirichlet process mixtures. Bayesian Anal. 1 (2006) 121–143. 28 Dir : ディリクレ分布 γ0 : ディリクレ分布のハイパーパラメータ ( ) ( ) 0 | p Dir γ = π π ( ) 1 1 k k k k i π ν ν = = − ∏ ( ) 0 1, k Beta ν γ ∼ Beta : ベータ分布 γ0 : ベータ分布のハイパーパラメータ

Slide 30

Slide 30 text

参考文献 C.M. ビショップ,パターン認識と機械学習 下, 丸善出版 (2012) D.M. Blei, M.I. Jordan, Variational inference for Dirichlet process mixtures. Bayesian Anal. 1 (2006) 121–143. 29