混合ガウスモデル (Gaussian Mixture Model, GMM)～クラスタリングだけでなく、データセットの確率密度分布を得るにも重宝します～

0 混合ガウスモデル Gaussian Mixture Model GMM 明治大学理⼯学部応用化学科データ化学⼯学研究室
⾦⼦弘昌

GMM とは︖ クラスタリング手法の一つ 与えられたデータセットを、複数の正規分布の重ね合わせで表現する 確率密度関数が得られる (確率分布として表現できる) サンプルごとに、各クラスターに所属する確率が得られる クラスター数を自動的に決められる 1

どんなときに GMM を使うか︖ 理想 • データセットが、複数の正規分布の重ね合わせで表現できることが分かっているとき 現実 • クラスターの数を自動的に決めながらクラスタリングしたいとき
• データセットの確率密度関数が欲しいとき ⁃ 確率密度関数の応用例) • 確率密度関数に基づいたサンプリング • 説明変数 X の事前分布として利用 2

正規分布 (ガウス分布, Gaussian distribution) データが、平均値付近に一番固まっていて、ばらつきのある確率分布 3 平均︓μ 分散︓σ2 ( )
( )2 2 2 2 1 1 | , exp 2 2 N x x µ σ µ σ πσ   = − −    

正規分布の例 μ = 0 σ = 1 4 ( )
( )2 2 2 2 1 1 | , exp 2 2 N x x µ σ µ σ πσ   = − −     ヒストグラム確率密度関数

多変量正規分布 正規分布を複数の変数 (x1 , x2 , x3 , … )
がある場合に拡張したもの 各変数の平均・分散だけでなく、変数間の共分散も必要 • x1 と x2 の共分散が 2 とか 変数の数を m とすると、 • x : [ x1 , x2 , x3 , … xm ] • μ : 1 × m の平均ベクトル • Σ : m × m の分散共分散⾏列 5 ( ) ( ) ( ) ( ) T 1 1 2 2 1 1 1 | , exp 2 2 m N π −   = − − −     x μ Σ x μ Σ x μ Σ

多変量正規分布の例２変数 x1 の平均 3, 分散 2 x2 の平均 4,
分散 0.2 x1 と x2 の共分散 0.5 6 ヒストグラム確率密度関数散布図

(多変量)正規分布の重ね合わせとは︖ 例 7 重ね合わせ(混合)

混合正規分布 (混合ガウス分布) 8 確率密度関数ヒストグラム散布図混合正規分布 (混合ガウス分布, mixtures of
Gaussians)

混合正規分布 (混合ガウス分布) 式 変数の数を m , 正規分布の数を n とすると、 •
x : [ x1 , x2 , x3 , …, xm ] • μk : k 番目の正規分布における 1 × m の平均ベクトル • Σk : k 番目の正規分布における m × m の分散共分散⾏列 • πk : 混合係数 (各正規分布の重み) 9 ( ) ( ) 1 | , n k k k k p N π = =  x x μ Σ ( ) ( ) ( ) ( ) T 1 1 2 2 1 1 1 | , exp 2 2 k k k k k m k N π −   = − − −     x μ Σ x μ Σ x μ Σ 1 1 n k k π = = 

GMM の方針 10 データセットが与えられたとき、最尤推定法で • μk : k 番目の正規分布における 1
× m の平均ベクトル • Σk : k 番目の正規分布における m × m の分散共分散⾏列 • πk : 混合係数 (各正規分布の重み) を求めよう︕ 最尤推定法については、 http://datachemeng.com/maximumlikelihoodestimation/ にあります具体的な求め方については、p. 18 以降の [補足] にあります

実際に GMM をやってみる 11 散布図右のデータセットを用いて n = 3 としてGMMを⾏うと、
p. 8 にある実際の確率密度関数と同じような結果が得られた︕

各サンプルがどのクラスターになるか考える 1/3 GMM では、各サンプルの割り当てられた正規分布が、そのサンプルのクラスター • n 個の正規分布があるとき、クラスター数も n 個ある
クラスター変数 z を用いる ある k 番目の zk だけ値が 1 で、他は 0 zk = 1 のとき、k 番目のクラスターに属するということ サンプルに関する情報がないとき、 zk = 1 となる確率は πk (混合係数) 12 ( ) 1 k k p z π = =

各サンプルがどのクラスターになるか考える 2/3 13 ( ) 1| k p z =
x 知りたいのは、あるサンプル x が与えられたときに、zk = 1 となる確率ベイズの定理より、 ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 1 | 1 1| 1 | 1 | 1 | 1 k k k n i i i k k n i i i p z p z p z p z p z p z p z π π = = = = = = = = = = =   x x x x x

実際にクラスターを割り振る 15 散布図 GMM 各サンプルにクラスターを割り振ると、

クラスター数をどう決めるか︖ 16 クラスター数を 1, 2, 3, … と振って GMM を⾏い、それぞれ
ベイズ情報量規準 (Bayesian Information Criterion, BIC) を計算する • L: 尤度 (http://datachemeng.com/maximumlikelihoodestimation/ ) • M: 推定するパラメータの数 ⁃ 今回は詳細を記載しないが、分散共分散⾏列 Σk に制限を与えることで、M が変化する (制限しないときは考えなくてよい) • N: サンプル数 BIC の値が最小となるクラスター数とする データセットを確率密度関数として表せるため、最適クラスター数の推定ができる 2log log BIC L M N = − +

ベイズ情報量規準 (BIC) を計算してみた 17 散布図少し⾒えにくいが、クラスター数が 3 で BIC の値が最小になっており、
適切なクラスター数を推定できた

[補足] EM アルゴリズム対数尤度関数 18 GMM のパラメータ推定には、EM (Expectation-Maximization) アルゴリズムが用いられることが多い対数尤度関数
(http://datachemeng.com/maximumlikelihoodestimation) ( ) ( ) ( ) 1 1 1 1 log | , , log | , log | , N n k j k k k j N n k j k k j k L N N π π = = = =     =         =      ∏   X π μ Σ x μ Σ x μ Σ

[補足] EM アルゴリズム最大 → 極大 19 対数尤度関数が、μk , Σk
, πk それぞれで最大になるために満たされるべき条件を探す最大 → 極大対数尤度関数を μk , Σk , πk それぞれで微分して 0 とする 1 1 n k k π = =  ただし、πk は制約条件があるため、 Lagrange の未定乗数法を用いる

[補足] EM アルゴリズム μで微分 20 対数尤度関数を μk で微分して 0 とすると、
( ) ( ) ( ) 1 1 1 | , 0 | , N k j k k k j k n j i j i i i N N π π − = = − =   x μ Σ Σ x μ x μ Σ 上の式中の ( ) ( ) 1 | , | , k j k k n i j i i i N N π π =  x μ Σ x μ Σ は、p. 14 における、 xj が与えられたときの正規分布 k の事後確率に等しいこれを、負担率 γ(zj,k ) をする

[補足] EM アルゴリズム負担率 21 ( ) ( ) (
) , 1 | , | , k j k k j k n i j i i i N z N π γ π = =  x μ Σ x μ Σ ( ) ( ) ( )( ) 1 , 1 , 1 0 0 N j k k j k j N j k j k j z z γ γ − = = − = − =   Σ x μ x μ とすると、 Σk -1 を左からかけると、

[補足] EM アルゴリズム μの計算 22 ( ) ( ) (
) , , 1 1 , 1 N N j k j j k j j j k N k j k j z z N z γ γ γ = = = = =    x x μ よって、 ( ) , 1 N k j k j N z γ = =  ここで、は、k 番目のクラスターに割り当てられたサンプル数

[補足] EM アルゴリズム Σ の計算 23 対数尤度関数を Σk で微分して 0
とする整理すると、 ( )( )( )T , 1 1 N k j k j k j k j k z N γ = = − −  Σ x μ x μ

[補足] EM アルゴリズム π の計算 24 πk について、Lagrange の未定乗数法より、 (
) 1 log | , , 1 n k k G L λ π =   = + −      X π μ Σ を最大化する G を πk で微分して 0 とすると、 ( ) ( ) 1 1 | , 0 | , N j k k n j i j i i i N N λ π = = + =   x μ Σ x μ Σ

[補足] EM アルゴリズム π 25 ( ) ( ) 1
1 | , 0 | , N j k k n j i j i i i N N λ π = = + =   x μ Σ x μ Σ 両辺に πk をかけて k について和を取ると、 1 1 n k k π = =  より、 N λ = − これを使い、一番上の式 πk をかけて変形すると、 k k N N π =

[補足] EM アルゴリズムまとめ ① μk , Σk , πk
を初期化する ② E ステップ : 負担率 γ(zj,k ) を計算する ③ M ステップ : 負担率 γ(zj,k ) を用いて、 μk , Σk , πk を再計算する ④ ②③ を繰り返す 26 ( ) , 1 new N j k j j k k z N γ = =  x μ ( )( )( )T new new new , 1 1 N k j k j k j k j k z N γ = = − −  Σ x μ x μ new k k N N π =

[補足] 変分ベイズ法 μ, Σ の事前分布 GMM のパラメータを変分ベイズ法で推定 → Variational Bayesian
GMM μ, Σ の事前分布として Gaussian–Wishart 分布を導入 27 ( ) ( ) ( ) 0 0 0 0 1 , | , | , n k k k k p N W α β = = ∏ μ Σ μ m Σ Σ W W : Wishart 分布 m0 : 正規分布の平均 (X の平均値) α0 : 正規分布の分散共分散⾏列のパラメータ (α0 = 1) W0 , β0 : Wishart 分布のパラメータ (W0 は X の分散共分散⾏列、 β0 は X の変数の数

[補足] 変分ベイズ法 π の事前分布 π の事前分布としてディリクレ分布やディリクレ過程を導入 • ディリクレ分布 • ディリクレ過程
⁃ 無限次元のディリクレ分布と考えることができ、 stick-breaking 過程や中華料理店過程で推定 • 詳細は D.M. Blei, M.I. Jordan, Variational inference for Dirichlet process mixtures. Bayesian Anal. 1 (2006) 121–143. 28 Dir : ディリクレ分布 γ0 : ディリクレ分布のハイパーパラメータ ( ) ( ) 0 | p Dir γ = π π ( ) 1 1 k k k k i π ν ν = = − ∏ ( ) 0 1, k Beta ν γ ∼ Beta : ベータ分布 γ0 : ベータ分布のハイパーパラメータ

参考文献 C.M. ビショップ，パターン認識と機械学習下, 丸善出版 (2012) D.M. Blei, M.I. Jordan,
Variational inference for Dirichlet process mixtures. Bayesian Anal. 1 (2006) 121–143. 29

混合ガウスモデル (Gaussian Mixture Model, GMM)～クラスタリングだ...

混合ガウスモデル (Gaussian Mixture Model, GMM)～クラスタリングだけでなく、データセットの確率密度分布を得るにも重宝します～

Hiromasa Kaneko

More Decks by Hiromasa Kaneko

Other Decks in Science

Featured

Transcript

0 混合ガウスモデル Gaussian Mixture Model GMM 明治大学理⼯学部応用化学科データ化学⼯学研究室

どんなときに GMM を使うか︖ 理想 • データセットが、複数の正規分布の重ね合わせで表現できることが分かっているとき 現実 • クラスターの数を自動的に決めながらクラスタリングしたいとき

正規分布 (ガウス分布, Gaussian distribution) データが、平均値付近に一番固まっていて、ばらつきのある確率分布 3 平均︓μ 分散︓σ2 ( )

正規分布の例 μ = 0 σ = 1 4 ( )

多変量正規分布 正規分布を複数の変数 (x1 , x2 , x3 , … )

多変量正規分布の例２変数 x1 の平均 3, 分散 2 x2 の平均 4,

(多変量)正規分布の重ね合わせとは︖ 例 7 重ね合わせ(混合)

混合正規分布 (混合ガウス分布) 8 確率密度関数ヒストグラム散布図混合正規分布 (混合ガウス分布, mixtures of

混合正規分布 (混合ガウス分布) 式 変数の数を m , 正規分布の数を n とすると、 •

GMM の方針 10 データセットが与えられたとき、最尤推定法で • μk : k 番目の正規分布における 1

実際に GMM をやってみる 11 散布図右のデータセットを用いて n = 3 としてGMMを⾏うと、

各サンプルがどのクラスターになるか考える 1/3 GMM では、各サンプルの割り当てられた正規分布が、そのサンプルのクラスター • n 個の正規分布があるとき、クラスター数も n 個ある

各サンプルがどのクラスターになるか考える 2/3 13 ( ) 1| k p z =

各サンプルがどのクラスターになるか考える 3/3 14 ( ) | 1 k p z

実際にクラスターを割り振る 15 散布図 GMM 各サンプルにクラスターを割り振ると、

クラスター数をどう決めるか︖ 16 クラスター数を 1, 2, 3, … と振って GMM を⾏い、それぞれ

ベイズ情報量規準 (BIC) を計算してみた 17 散布図少し⾒えにくいが、クラスター数が 3 で BIC の値が最小になっており、

[補足] EM アルゴリズム対数尤度関数 18 GMM のパラメータ推定には、EM (Expectation-Maximization) アルゴリズムが用いられることが多い対数尤度関数

[補足] EM アルゴリズム最大 → 極大 19 対数尤度関数が、μk , Σk

[補足] EM アルゴリズム μで微分 20 対数尤度関数を μk で微分して 0 とすると、

[補足] EM アルゴリズム負担率 21 ( ) ( ) (

[補足] EM アルゴリズム μの計算 22 ( ) ( ) (

[補足] EM アルゴリズム Σ の計算 23 対数尤度関数を Σk で微分して 0

[補足] EM アルゴリズム π の計算 24 πk について、Lagrange の未定乗数法より、 (

[補足] EM アルゴリズム π 25 ( ) ( ) 1

[補足] EM アルゴリズムまとめ ① μk , Σk , πk

[補足] 変分ベイズ法 μ, Σ の事前分布 GMM のパラメータを変分ベイズ法で推定 → Variational Bayesian

[補足] 変分ベイズ法 π の事前分布 π の事前分布としてディリクレ分布やディリクレ過程を導入 • ディリクレ分布 • ディリクレ過程

参考文献 C.M. ビショップ，パターン認識と機械学習下, 丸善出版 (2012) D.M. Blei, M.I. Jordan,