Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PRML Chapter 9

SNKMR
November 01, 2023

PRML Chapter 9

PRML, Pattern Recognition and Machine Learning
chapter 9

SNKMR

November 01, 2023
Tweet

More Decks by SNKMR

Other Decks in Science

Transcript

  1. 9. 混合モデルとEM • 観測変数と潜在変数の同時分布を定義すれば、周辺化によって観測変数だけの分布(周 辺分布)が得られる。 • 比較的複雑な観測変数の周辺分布を、観測変数と潜在変数の同時分布によって表すこと で、より扱いやすくできる(9.2~9.3)。 • 混合モデルの説明のため

    K-meansクラスタリング(9.1)について論じた後、EMアルゴリ ズムについて説明し、K-meansが混合ガウス分布に対するEMアルゴリズムの非確率的極 限として解釈できることを見る(9.3)。 • 最後に、EMアルゴリズムが常に尤度を増加させる事について説明する(9.4)。 3/56
  2. 9.1 K-meansクラスタリング • D次元ユークリッド空間上のデータ集合 {𝐱1 , 𝐱2 , … 𝐱𝑁

    } について、これらのデータ点を K 個のクラスタに分割することを考える。 - まずはクラスタ数Kが既知である場合を想定する。 • クラスタの平均ベクトルの集合 {𝜇𝑘 } を導入する。 • {𝜇𝑘 } を適切に定め、各データ点をうまく各クラスタに対応させ、各データ点から対応す るクラスタの平均 𝜇𝑘 への二乗距離の総和を最小化することが目的。 • 以上から目的関数 𝐽 を以下のように設計した。 - データ点 𝐱𝑛 がクラスタ 𝑘 に属する場合 𝑟𝑛𝑘 = 1、それ以外は𝑟𝑛𝑘 = 0 - 目的関数 𝐽 は歪み尺度と呼ばれることもある (9.1) 4/56
  3. 9.1 K-meansクラスタリング • 目的関数 𝐽 を最小化するために、以下の1.と2.を繰り返す。 1. 𝜇𝑘 を固定し、 𝑟𝑛𝑘

    について 𝐽 を最小化 2. 𝑟𝑛𝑘 を固定し、 𝜇𝑘 について 𝐽 を最小化 (9.1) step 1: 各データ点から最も近いクラスタ中心 𝜇𝑘 を探し、クラスタ 𝑘 に割り当てる。 (9.2) step 2: 目的関数を 𝜇𝑘 で微分し(式9.3)、得られた解で更新する(式9.4)。 (9.3) (9.4) 5/56
  4. 9.1 K-meansクラスタリング • K=2の具体例 (a) 𝜇𝑘 を初期化 (b) 各データ点を最も近いクラスタに分類 (𝜇𝑘

    固定、 𝑟𝑛𝑘 更新) (c) 各クラスタの中心を計算し直す (𝑟𝑛𝑘 固定、 𝜇𝑘 更新) • 収束するまで同様の操作を繰り返す。 (図9.1) 6/56
  5. 9.1 K-meansクラスタリング • 各ステップでの目的関数 𝐽 の推移 (図9.2) 〇:𝑟𝑛𝑘 の更新 〇:

    𝜇𝑘 の更新 繰り返した回数 3回目から4回目はJの値が ほとんど変わっていない 7/56
  6. 9.1 K-meansクラスタリング • 画像分割の例 - 右の画像のピクセルの色は赤、緑、青の 輝度{R, G, B}で決まる。 -

    元画像の各ピクセルについて{R, G, B}の 3次元空間を作る。 - K-meansでK個にクラスタリングする - 各データ点(ピクセル)が属するクラス タの中心ベクトル 𝜇𝑘 で画像を描き直す。 (図9.3) 8/56
  7. 9.1 K-meansクラスタリング • 画像分割はデータ圧縮になっている。 - 元画像について、ピクセル数がNであり、{R, G, B} が3 x

    8ビット持っているとき、1枚 の画像を送るのに24Nビット必要 - K-meansを適用して全てのピクセルを代表ベクトル 𝜇𝑘 で表したときについて考える。 ➢各ピクセルについて、K種類のクラスタのうちどれに属するかを表すのに log2 K ビット必要であり、トータルで Nlog2 K ビット必要。 ➢K種類の 𝜇𝑘 の数値を送るのに24Kビット必要。 ➢合計で Nlog2 K + 24K ビット - 前ページ図9.3の元画像は240*180ピクセルで構成されており、24Nを計算すると 1,036,800 ビット - K-meansで減色した場合、K=2 → 43,248ビット(4.2%)、K=10 → 173,040ビット(16.7%) • ※K-meansの説明のため画像分割のデータ圧縮比を調べたが、良い圧縮器を作りたいなら 例えば5x5のピクセルをまとめる等、もっといい方法がある。 9/56
  8. 9.2 混合ガウスモデル • EMアルゴリズムに入るために潜在変数を使った混合ガウス分布を導入 - 2章で、混合ガウス分布はガウス分布の線形重ね合わせで書けることを見た。 - ここにK次元の2値確率変数 𝐳 を導入する。

    - K個の要素のうち、どれか一つ 𝑧𝑘 だけが1で、他は0の変数(1-of-K) ➢ 𝐳 = (0, 0, … , 1, … , 0) - つまり、 𝑧𝑘 ∈ {0, 1} かつ σ𝑘=1 𝐾 𝑧𝑘 = 1 - 𝐳 の周辺分布は混合係数 𝜋𝑘 によって決まるとする。 - ただし 𝜋𝑘 は以下を満たす。 (9.8) (9.9) 11/56
  9. 9.2 混合ガウスモデル • 𝐳 を1-of-K で表したので、 𝑝(𝐳) は 𝜋𝑘 を使って以下のように書ける。

    • 𝐳 が与えられたときの 𝐱 の条件付確率は以下 • 𝐳 について周辺化すると2章でみた混合ガウス分布が出てくる(演習9.3)。 • ここまでで、陽に潜在変数 𝐳 を含む混合ガウス分布の表現方法を見出したので、2章で 扱った 𝑝(𝐱) だけでなく 𝑝(𝐱, 𝐳) を使った議論が可能になった。 (9.10) (9.11) (9.12) (𝑧𝑘 = 1 の場合しか残らない) 12/56
  10. 9.2 混合ガウスモデル • 𝐱 を与えられた状態での 𝐳 の条件付き確率 𝛾(𝑧𝑘 ) について考える。

    𝛾 𝑧𝑘 = 𝑝 𝑧𝑘 = 1 𝐱 = 𝑝 𝐱, 𝑧𝑘 = 1 𝑝 𝐱 = 𝑝 𝐱 𝑧𝑘 = 1 𝑝 𝑧𝑘 = 1 σ 𝑗=1 𝐾 𝑝 𝐱 𝑧𝑗 = 1 𝑝 𝑧𝑗 = 1 = 𝜋𝑘 𝒩 𝐱 𝝁𝑘 , 𝚺𝑘 σ 𝑗=1 𝐾 𝜋𝑗 𝒩 𝐱|𝝁𝑗 , 𝚺𝑗 - 𝜋𝑘 を 𝑧𝑘 = 1 となる現象の事前確率、 𝛾 𝑧𝑘 を 𝐱 を観測した時の事後確率とみなせる。 - 分母:1~Kの全ての要素についての混合係数×ガウス分布の和 - 分子: 𝑘 番目の混合係数×ガウス分布 - 𝛾 𝑧𝑘 は、混合要素 𝑘 が 𝐱 の観測を説明する度合いを表す負担率として解釈できる。 (9.13) 13/56
  11. 9.2 混合ガウスモデル • 同時分布 𝑝 𝐱, 𝐳 = 𝑝 𝐳

    𝑝(𝐱|𝐳) からのサンプルは図(a)のように示せる。 • 周辺分布 𝑝(𝐱) は図(b) • 各データ点の負担率を計算して色にグラデーションをかけたのが図(c) • (a)のような同時分布が分かっているデータ集合は完全、(b)のような周辺分布しか分かっ ていないデータ集合は不完全と呼ばれる。 (図9.5) 14/56
  12. 9.2.1 最尤推定 • データ集合 {𝐱1 , 𝐱2 , … 𝐱𝑁

    } について、混合ガウス分布を当てはめる問題を考える。 - 1つのデータ点はD次元のベクトルであり、N×D行列 X で表す。 - 潜在変数は 𝐳𝑛 T を行ベクトルとするN×K行列 Z で表す。 𝐗 = 𝑥11 ⋯ 𝑥1𝐷 ⋮ ⋱ ⋮ 𝑥𝑁1 ⋯ 𝑥𝑁𝐷 𝐙 = 𝑧11 ⋯ 𝑧1𝐾 ⋮ ⋱ ⋮ 𝑧𝑁1 ⋯ 𝑧𝑁𝐾 • 対数尤度を計算していく。 𝑝 𝐗|𝝅, 𝝁, 𝚺 = ෑ 𝑛=1 𝑁 𝑝 𝐱𝑛 𝝅, 𝝁, 𝚺 = ෑ 𝑛=1 𝑁 ෍ 𝑘=1 𝐾 𝜋𝑘 𝒩 𝐱|𝝁𝑘 , 𝚺𝑘 ln𝑝 𝐗|𝝅, 𝝁, 𝚺 = ln ෑ 𝑛=1 𝑁 ෍ 𝑘=1 𝐾 𝜋𝑘 𝒩 𝐱|𝝁𝑘 , 𝚺𝑘 = ෍ 𝑛=1 𝑁 ln ෍ 𝑘=1 𝐾 𝜋𝑘 𝒩 𝐱|𝝁𝑘 , 𝚺𝑘 (9.12) (9.14) 15/56
  13. 9.2.1 最尤推定 • 前ページで求めた対数尤度の最大化は、特異性の存在に起因する重要な問題がある。 - 混合ガウス分布では単純な最尤推定が使えないという話 • 単純化のため、各混合要素の共分散行列が 𝜎𝑘 2𝐈

    の等方ガウス分布だとする。 - 混合モデルの 𝑗 番目の平均 𝝁𝑗 が、データ集合 {𝐱1 , 𝐱2 , … 𝐱𝑁 } のうち1点と等しいとする。 ➢ すなわち、 𝝁𝑗 = 𝐱𝑛 となる 𝐱𝑛 が存在するケースについて考える。 - このデータ点は、尤度関数に対して次式の形で寄与する。 (2.43) (9.15) - この式から、𝜎𝑗 → 0 のときに対数尤度が無限大に発散することが分かる。 ➢ 𝝁𝑗 = 𝐱𝑛 となる 𝐱𝑛 が存在する場合は 𝝁𝑗 や 𝜎𝑗 の微分ををしても陽な解が得られない ということになる。 - このため、混合ガウス分布の形を決める際、対数尤度の最大化は不良設定問題である。 ➢ ベイジアンアプローチ (§10.1) でこれを解決できる。 16/56
  14. 9.2.1 最尤推定 • 1つの混合要素でガウス分布の分散が 0 に近づいている図 • もう一つ、K個の混合要素の入れ替えに対して、同等な解が K! 個あるという問題がある。

    ln𝑝 𝐗|𝝅, 𝝁, 𝚺 = ෍ 𝑛=1 𝑁 ln ෍ 𝑘=1 𝐾 𝜋𝑘 𝒩 𝐱|𝝁𝑘 , 𝚺𝑘 - この問題は、「識別可能性の問題」として知られている。 - しかし、良い密度モデルとしての混合ガウス分布を見つけるという目的には関係ない。 ➢ (等価な解でも良いモデルであれば問題にならない) (9.14) (図9.7) 17/56
  15. 9.2.2 混合ガウス分布のEMアルゴリズム • EMアルゴリズムの導入 • まず尤度関数が最大点において満たすべき条件を書き下す。 - 尤度関数を平均ベクトル 𝝁𝑘 で微分して

    0 とおく(途中式は次ページ)。 𝜕 𝜕𝝁𝑘 ln𝑝 𝐗 𝜋, 𝝁𝑘 , 𝚺𝑘 = ෍ 𝑛=1 𝑁 𝜋𝑘 𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 σ 𝑗 𝜋𝑗 𝒩 𝐱𝑛 𝝁𝑗 , 𝚺𝑗 𝚺𝑘 −1 𝐱𝑛 − 𝝁𝑘 = 0 - 左からΣ𝑘 をかけて整理すると以下のようになる。 ෍ 𝑛=1 𝑁 𝛾(𝑧𝑛𝑘 ) 𝐱𝑛 − 𝝁𝑘 ෍ 𝑛=1 𝑁 𝛾 𝑧𝑛𝑘 = 0 𝝁𝑘 = 1 𝑁𝑘 ෍ 𝑛=1 𝑁 𝛾(𝑧𝑛𝑘 ) 𝐱𝑛 , 𝑤ℎ𝑒𝑟𝑒 𝑁𝑘 = ෍ 𝑛=1 𝑁 𝛾(𝑧𝑛𝑘 ) - 𝑁𝑘 はクラスタ k に属する実効的なデータ点の数になっている。 - 平均ベクトル 𝝁𝑘 は負担率×データ点の和を実行的なデータ数で割った形になっている。 || 𝛾(𝑧𝑛𝑘 ) (9.17) (9.18) 18/56
  16. 9.2.2 混合ガウス分布のEMアルゴリズム • 尤度関数を 𝚺𝑘 で微分 • 𝜋𝑘 で微分 -

    𝜋𝑘 は混合係数であり、和が 1 になるという制約があるのでラグランジュ - 両辺に 𝜋𝑘 をかけて k について和をとる。 ෍ 𝑘=1 𝐾 ෍ 𝑛=1 𝑁 𝜋𝑘 𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 σ 𝑗 𝜋𝑗 𝒩 𝐱𝑛 𝝁𝑗 , 𝚺𝑗 + ෍ 𝑘=1 𝐾 𝜋𝑘 𝜆 = 0 𝜆 = − ෍ 𝑘=1 𝐾 ෍ 𝑛=1 𝑁 𝛾 𝑧𝑛𝑘 = − ෍ 𝑘=1 𝐾 𝑁𝑘 = −𝑁 (9.19) (9.20) (9.21) = 𝛾(𝑧𝑛𝑘 ) 𝑁𝑘 = ෍ 𝑛=1 𝑁 𝛾(𝑧𝑛𝑘 ) 20/56
  17. 9.2.2 混合ガウス分布のEMアルゴリズム • 式変形の続き - (9.21)の両辺に 𝜋𝑘 をかけて、前ページの 𝜆 =

    −𝑁 で 𝜆 を消去 ෍ 𝑛=1 𝑁 𝜋𝑘 𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 σ 𝑗 𝜋𝑗 𝒩 𝐱𝑛 𝝁𝑗 , 𝚺𝑗 + 𝜋𝑘 𝜆 = 0 𝑁𝑘 + 𝜋𝑘 −𝑁 = 0 𝜋𝑘 = 𝑁𝑘 𝑁 - k 番目の要素に関する混合係数は、その要素の全データ点に対する負担率の平均で与えられる。 21/56
  18. 9.2.2 混合ガウス分布のEMアルゴリズム • ここまでで 𝝁𝑘, 𝚺𝑘 , 𝜋𝑘 について書き下してきたが、全て負担率を含んでおり、混合モデルのパラメー タについて陽な解が得られたわけではない。

    𝝁𝑘 = 1 𝑁𝑘 ෍ 𝑛=1 𝑁 𝛾(𝑧𝑛𝑘 ) 𝐱𝑛 𝚺𝑘 = 1 𝑁𝑘 ෍ 𝑛 𝑁 𝛾 𝑧𝑛𝑘 𝐱𝑛 − 𝝁𝑘 𝐱𝑛 − 𝝁𝑘 T 𝜋𝑘 = 𝑁𝑘 𝑁 = σ𝑛=1 𝑁 𝛾 𝑧𝑛𝑘 𝑁 • しかし、この3つの式は最尤推定解を得るための更新式の存在を示唆している。 1. Eステップ (expectation step):負担率 𝛾(𝑧𝑛𝑘 ) の計算 𝛾(𝑧𝑛𝑘 ) = 𝜋𝑘 𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 σ 𝑗 𝜋𝑗 𝒩 𝐱𝑛 𝝁𝑗 , 𝚺𝑗 2. Mステップ (maximization step):混合モデルのパラメータ 𝜇𝑘 , Σ𝑘 , 𝜋𝑘 の計算 Eステップで得られた 𝛾(𝑧𝑛𝑘 ) を使って (9.17), (9.22) を更新 → (9.17)で計算した新しい平均を使って(9.19)の共分散行列を更新する。 - この更新が常に尤度関数を増加させることは9.4節で示す。 (9.22) (9.19) (9.17) 22/56
  19. 9.2.2 混合ガウス分布のEMアルゴリズム • K-means で使ったのと同じデータをEMアルゴリズムでクラスタリング • K=2の混合ガウスモデルについて、K-meansの時と同じ点に平均ベクトルを起き、共分散行列は単位 行列の倍数を用いている。 (図9.8) •

    (a) - 初期化した様子。ガウス分布の標 準偏差の等高線を示している。 • (b) - 負担率の計算 • (c) - 混合モデルのパラメータを更新 • 実用上は、混合モデルのパラメータを 更新した後に対数尤度関数を計算し、 増加量が所定の値よりも小さくなった 時に収束したと判断する。 23/56
  20. 9.3 EMアルゴリズムのもう一つの解釈 • EMアルゴリズムの目的は、潜在変数を含むモデルにおいて最尤解を見つけ出すこと。 - 全てのモデルパラメータの集合を 𝜽 で表すと、以下のように書ける。 𝐗 =

    𝑥11 ⋯ 𝑥1𝐷 ⋮ ⋱ ⋮ 𝑥𝑁1 ⋯ 𝑥𝑁𝐷 𝐙 = 𝑧11 ⋯ 𝑧1𝐾 ⋮ ⋱ ⋮ 𝑧𝑁1 ⋯ 𝑧𝑁𝐾 - 𝑝(𝐗, 𝐙|𝜽) が指数型分布族であったとしても、Zについて和をとると周辺分布 𝑝(𝐗|𝜽) 指数型分布族 ではなくなり、最尤解は結果として複雑な形になってしまう。 ➢ (解析的な解を得ることが難しいのでEMアルゴリズムが役立つということが言いたい?) (9.29) • データ集合 {𝐗, 𝐙} を完全データ集合と呼び、実際の観測データ 𝐗 は不完全と呼ぶ。 - 本来ならln𝑝(𝐗, 𝐙|𝜽)(完全データ対数尤度関数)を求めたいが、実際には Z は与えられない。 - そこで、事後確率 𝑝(𝐙|𝐗, 𝜽) を使って ln𝑝(𝐗, 𝐙|𝜽) の期待値を最大化することを考える。 - 事後確率の計算には更新前の 𝜽𝑜𝑙𝑑 を使い、期待値を最大化する𝜽𝑛𝑒𝑤 を求める。 ➢ この期待値を 𝒬(𝜽, 𝜽𝑜𝑙𝑑) と表記する。この期待値を計算する。 𝒬 𝜽, 𝜽𝑜𝑙𝑑 = 𝔼 𝐙|𝐗,𝜽𝑜𝑙𝑑 ln𝑝 𝐗, 𝐙 𝜽 = ෍ 𝐙 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln𝑝(𝐗, 𝐙|𝜽) (9.30) 26/56
  21. 9.3 EMアルゴリズムのもう一つの解釈 • 次に、期待値 𝒬 𝜽, 𝜽𝑜𝑙𝑑 を最大化する𝜽𝑛𝑒𝑤 を計算する。 -

    𝒬 𝜽, 𝜽𝑜𝑙𝑑 の計算において、対数は同時分布に対して直接作用しているため、計算は容易。 ➢ 対数周辺尤度関数 ➢ 𝒬 𝜽, 𝜽𝑜𝑙𝑑 𝒬 𝜽, 𝜽𝑜𝑙𝑑 = 𝔼 𝐙|𝐗,𝜽𝑜𝑙𝑑 ln𝑝 𝐗, 𝐙 𝜽 = ෍ 𝐙 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln𝑝(𝐗, 𝐙|𝜽) (9.32) 27/56
  22. 9.3 EMアルゴリズムのもう一つの解釈 • EMアルゴリズムはMAP推定にも使える。 - 𝒬 𝜽, 𝜽𝑜𝑙𝑑 は以下のような式であったが、 𝒬

    𝜽, 𝜽𝑜𝑙𝑑 = ෍ 𝐙 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln𝑝(𝐗, 𝐙|𝜽) - ここに 𝜽 の事前分布を導入し、 𝒬𝑀𝐴𝑃 𝜽, 𝜽𝑜𝑙𝑑 = ෍ 𝐙 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln 𝑝 𝐗, 𝐙 𝜽 𝑝 𝜽 = ෍ 𝐙 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln𝑝 𝐗, 𝐙 𝜽 + ෍ 𝐙 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln𝑝 𝜽 = 𝒬 𝜽, 𝜽𝑜𝑙𝑑 + ln𝑝 𝜽 - 事前分布を適切に選ぶことができるのであれば、図9.7で示したような、混合ガウス分布で1つ以 上の要素の分散が 0 に近づくことで尤度関数が発散する問題を回避することができる。 (図9.7再掲) 29/56
  23. 9.3.1 混合ガウス分布再訪 • EMアルゴリズムの見方を、混合ガウスモデルの場合に適用して考察する。 - 一般化したEMアルゴリズムと混合ガウスモデルのEMアルゴリズムの比較 • 今、Z が与えられているとして、完全データ集合 {𝐗,

    𝐙} の尤度の最大化を考える。 𝐗 = 𝑥11 ⋯ 𝑥1𝐷 ⋮ ⋱ ⋮ 𝑥𝑁1 ⋯ 𝑥𝑁𝐷 𝐙 = 𝑧11 ⋯ 𝑧1𝐾 ⋮ ⋱ ⋮ 𝑧𝑁1 ⋯ 𝑧𝑁𝐾 - 対数をとると、 (9.10) (9.11) (9.35) (9.36) 30/56
  24. 9.3.1 混合ガウス分布再訪 • 不完全データの対数尤度関数 ln𝑝(𝐗|𝝁, 𝚺, 𝝅) のときは対数の中にガウス分布の和が入っていたので複雑 になっており、解を得ることが難しかった。 •

    潜在変数を導入し、完全データの対数尤度関数ではこのような問題は起きず、より簡便に取り扱える ようになった。 - 対数が直接ガウス分布に作用するので、解析的に解ける。 ➢ 𝝁𝒌 , 𝚺𝒌 については2章の単一のガウス分布と同じ。 ➢ 𝜋𝑘 は以下 (9.36) (9.14) (9.37) 31/56
  25. 9.3.1 混合ガウス分布再訪 • σ𝑘=1 𝐾 𝜋𝑘 = 1 の制約を考えて、ラグランジュで解く。 ℒ

    = ෍ 𝑛=1 𝑁 ෍ 𝑘=1 𝐾 𝑧𝑛𝑘 {ln𝜋𝑘 + ln𝒩(𝐱𝑛 |𝝁𝑘 , 𝚺𝑘 )} − 𝜆 ෍ 𝑘=1 𝐾 𝜋𝑘 − 1 𝜕 𝜕𝜋𝑘 ℒ = σ𝑛=1 𝑁 𝑧𝑛𝑘 𝜋𝑘 − 𝜆 = 0 (1) - (1) の両辺に 𝜋𝑘 をかけて 𝑘 で和をとる。 ෍ 𝑘=1 𝐾 ෍ 𝑛=1 𝑁 𝑧𝑛𝑘 − 𝜆 = 0 𝜆 = 𝑁 ∵ ෍ 𝑘=1 𝐾 𝑧𝑛𝑘 = 1 - (1) から 𝜆 を消去 𝜋𝑘 = σ𝑛=1 𝑁 𝑧𝑛𝑘 𝜆 = 1 𝑁 ෍ 𝑛=1 𝑁 𝑧𝑛𝑘 32/56
  26. 9.3.1 混合ガウス分布再訪 • 実際には Z は与えられないので、𝑝(𝐙|𝐗, 𝜽𝑜𝑙𝑑) を使って ln𝑝 𝐗,

    𝐙 𝜽 の期待値を求めるのであった。 - ln𝑝 𝐗, 𝐙 𝜽 の中で、観測できない 𝑧𝑛𝑘 について期待値をとる。 𝔼 𝐙|𝐗,𝜽𝑜𝑙𝑑 ln𝑝 𝐗, 𝐙 𝜽 = 𝔼 𝐙|𝐗,𝜽𝑜𝑙𝑑 ෍ 𝑛=1 𝑁 ෍ 𝑘=1 𝐾 𝑧𝑛𝑘 ln𝜋𝑘 + ln𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 = ෍ 𝑛=1 𝑁 ෍ 𝑘=1 𝐾 𝔼 𝐙|𝐗,𝜽𝑜𝑙𝑑 [𝑧𝑛𝑘 ] ln𝜋𝑘 + ln𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 - あるデータ点 n について、 𝑝(𝐳𝑛 |𝐱𝑛 , 𝝁𝑘 , 𝚺𝑘 ) の事後分布に関する指示変数 𝐳𝑛 の期待値を求めたい。 ➢ まずはベイズの定理で 𝑝(𝐳𝑛 |𝐱𝑛 , 𝝁𝑘 , 𝚺𝑘 ) の計算 𝑝(𝐳𝑛 𝐱𝑛 , 𝝁𝑘 , 𝚺𝑘 = 𝑝 𝐱𝑛 , 𝐳𝑛 𝑝 𝐱𝑛 = 𝑝 𝐱𝑛 𝐳𝑛 𝑝 𝐳𝑛 σ𝐳𝑛 𝑝 𝐱𝑛 𝐳𝑛 𝑝 𝐳𝑛 = ς 𝑘′=1 𝐾 𝜋𝑘 𝒩 𝐱𝑛 𝝁𝑘′ , 𝚺𝑘′ 𝑧 𝑛𝑘′ σ𝐳𝑛 ς 𝑘=1 𝐾 [𝜋𝑘 𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 ]𝑧𝑛𝑘 33/56
  27. 9.3.1 混合ガウス分布再訪 • 𝐳𝑛 の期待値を計算 𝑝(𝐳𝑛 𝐱𝑛 , 𝝁𝑘 ,

    𝚺𝑘 = ς 𝑘′=1 𝐾 𝜋𝑘′ 𝒩 𝐱𝑛 𝝁𝑘′ , 𝚺𝑘′ 𝑧 𝑛𝑘′ σ𝐳𝒏 [𝜋𝑘 𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 ]𝑧𝑛𝑘 … … 𝐳𝑛 = 𝑧𝑛1 , 𝑧𝑛2 , … 𝑧𝑛𝑘 , … 𝑧𝑛𝐾 𝑝 𝑧𝑛𝑘 = ෑ 𝑘=1 𝐾 𝜋 𝑘 𝑧𝑛𝑘 Σ𝐳𝑛 は、考え得る 𝐳𝒏 すべてについての 和を表している。 𝑧𝑛1 = 1 1,0, … 0, … 0 𝑧𝑛2 = 1 0,1, … 0, … 0 𝑧𝑛𝑘 = 1 0,0, … 1, … 0 𝑧𝑛𝐾 = 1 (0,0, … 0, … 1) K (9.40) 𝔼𝐳𝑛|𝐱𝑛,𝝁𝑘,𝚺𝑘 𝑧𝑛𝑘 = ෍ 𝐳𝑛 𝑧𝑛𝑘 𝑝(𝐳𝑛 𝐱𝑛 , 𝝁𝑘 , 𝚺𝑘 = σ𝐳𝑛 𝑧𝑛𝑘 ς 𝑘′=1 𝐾 𝜋𝑘′ 𝒩 𝐱𝑛 𝝁𝑘′ , 𝚺𝑘′ 𝑧 𝑛𝑘′ σ𝐳𝒏 ς 𝑗=1 𝐾 [𝜋𝑗 𝒩 𝐱𝑛 𝝁𝑗 , 𝚺𝑗 ]𝑧𝑛𝑗 = 0 × 𝜋1 𝒩 𝐱𝑛 𝝁1 , 𝚺1 + ⋯ + 1 × 𝜋𝑘 𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 + ⋯ 0 × 𝜋𝐾 𝒩 𝐱𝑛 𝝁𝐾 , 𝚺𝐾 𝜋1 𝒩 𝐱𝑛 𝝁1 , 𝚺1 + ⋯ + 𝜋𝐾 𝒩 𝐱𝑛 𝝁𝐾 , 𝚺𝐾 ≡ 𝛾 𝑧𝑛𝑘 34/56
  28. 9.3.1 混合ガウス分布再訪 • 𝐳𝑛 の期待値を計算すると負担率そのものになるので、同時分布は以下で表される。 𝔼 𝐙|𝐗,𝜽𝑜𝑙𝑑 ln𝑝 𝐗, 𝐙

    𝜽 = 𝔼 𝐙|𝐗,𝜽𝑜𝑙𝑑 ෍ 𝑛=1 𝑁 ෍ 𝑘=1 𝐾 𝑧𝑛𝑘 ln𝜋𝑘 + ln𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 = ෍ 𝑛=1 𝑁 ෍ 𝑘=1 𝐾 𝔼 𝐙|𝐗,𝜽𝑜𝑙𝑑 [𝑧𝑛𝑘 ] ln𝜋𝑘 + ln𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 = ෍ 𝑛=1 𝑁 ෍ 𝑘=1 𝐾 𝛾 𝑧𝑛𝑘 ln𝜋𝑘 + ln𝒩 𝐱𝑛 𝝁𝑘 , 𝚺𝑘 • 以上の結果から、一般的なEMアルゴリズムと混合ガウス分布の関係を考察しながら対数尤度の式を 導出できた。 35/56
  29. 9.3.2 K-means との関連 • K-means と混合ガウス分布のEMアルゴリズムを比較すると、強い類似性があることが明らかになる。 - K-means は、各データ点に対してクラスタをハードに割り当てる -

    EMアルゴリズムは、事後確率 𝑝(𝐙|𝐗) に基づいてクラスタをソフトに割り当てる • 混合ガウス分布のEMアルゴリズムのある極限としてK-meansが導かれることを説明する。 - 各ガウス要素の共分散行列が 𝜖𝐈 で与えられるケースについて考える。 ➢ 𝜖 は分散パラメータ、𝐈 は単位行列 𝑝 𝐱 𝝁𝑘 , 𝚺𝑘 = 1 2𝜋 𝐷 2 1 𝜖𝐈 1 2 exp − 1 2 𝐱 − 𝝁𝑘 T 𝜖𝐈 −1 𝐱 − 𝝁𝑘 = 1 2𝜋𝜖 𝐷 2 exp − 1 2𝜖 𝐱 − 𝝁𝑘 2 𝛾 𝑧𝑛𝑘 = 𝜋𝑘 exp − 1 2𝜖 𝐱 − 𝝁𝑘 2 σ 𝑗=1 𝐾 𝜋𝑗 exp − 1 2𝜖 𝐱 − 𝝁𝑗 2 (9.41) (9.42) 36/56
  30. 9.3.2 K-means との関連 - ここで、 𝐱𝑛 − 𝝁𝑗 2 が最小になる

    𝑗 を 𝑗∗ とおく。 - 分散パラメータ 𝜖 → 0 を考えると、分母において 𝑗∗ に関する項が最も遅く 0 に近づく。 - よって、分母と分子に 𝜋𝑗∗ exp − 1 2𝜖 𝐱𝑛 − 𝝁𝑗∗ 2 を持つ 𝛾 𝑧𝑛𝑗∗ だけが 1 に収束し、それ以外の 負担率は 0 に収束していく。 𝛾 𝑧𝑛𝑗∗ = 𝜋𝑗∗ exp − 1 2𝜖 𝐱𝑛 − 𝝁𝑗∗ 2 σ 𝑗=1 𝐾 𝜋𝑗 exp − 1 2𝜖 𝐱𝑛 − 𝝁𝑗 2 - よってこの極限では、データ点からクラスターへのハードな割り当て(𝑟𝑛𝑗∗ ) になっている。 ➢ ソフトな 𝛾 𝑧𝑛𝑘 からハードな 𝑟𝑛𝑘 に変わっている • 尤度最大化についても、極限を考えれば K-means の歪み尺度 𝐽 の最小化と同等になっている。 (9.43) (9.1) 37/56
  31. 9.3.3 混合ベルヌーイ分布 • 混合ガウス分布では連続値変数の分布について考えた。 • 別の例として、ベルヌーイ分布で表される2値の変数の混合について議論する。 - D個の2値変数 𝑥𝑖 (𝑖

    = 1, 2 … 𝐷) を考える。 - パラメータ 𝝁 = 𝜇1 , … 𝜇𝐷 T を持つ場合、𝐱 = 𝑥1 , … 𝑥𝐷 Tベルヌーイ分布は以下 𝑝 𝐱 𝝁 = ෑ 𝑖=1 𝐷 𝜇 𝑖 𝑥𝑖 1 − 𝜇𝑖 (1−𝑥𝑖) - 𝝁 が与えられている場合、各変数 𝑥𝑖 は独立なので、平均と共分散行列は以下 𝔼 𝐱 = 𝝁 var 𝑥𝑖 = 𝔼 𝑥 − 𝔼 𝑥𝑖 2 = 𝔼 𝑥2 − 2𝔼 𝑥𝑖 𝑥𝑖 + 𝔼 𝑥𝑖 2 = 𝔼 𝑥𝑖 2 − 𝔼 𝑥𝑖 2 = 𝜇𝑖 − 𝜇𝑖 2 cov 𝐱 = diag 𝜇𝑖 (1 − 𝜇𝑖 ) (9.44) 𝔼 𝑥𝑖 2 = ෍ 𝑥𝑖 𝑥𝑖 2𝑝 𝑥𝑖 𝜇𝑖 = ෍ 0 1 𝑥𝑖 2𝑝 𝑥𝑖 𝜇𝑖 = 𝜇𝑖 38/56
  32. 9.3.3 混合ベルヌーイ分布 • N個のデータ集合 𝐗 = {𝐱1 , … 𝐱𝑁

    } が与えられているとき、対数尤度は以下 - 周辺分布の尤度なので対数の中に 𝑝(𝐱𝑛 |𝝁𝑘 ) の和が入っており、最尤解は陽に得られない。 ➢ 潜在変数を導入し、EMアルゴリズムを利用する。 • 混合ガウス分布のときと同じ 1-of-K 符号化した 𝐳 = (𝑧1 , … , 𝑧𝐾 ) を用意する。 • 𝐳を与えられた条件下での 𝐱 の確率と、 𝐳 の確率は以下で表される。 • 完全データ対数尤度を書き下すと、以下になる。対数が 𝜇𝑘𝑖 に直接作用している。 (9.51) (9.52) (9.53) (9.54) 40/56
  33. 9.3.3 混合ベルヌーイ分布 • 期待値をとる(混合ガウス分布と同じ)。 • 負担率の計算 • 混合ガウス分布のとき(資料p18-20)と同じように 𝜇𝑘 と

    𝜋𝑘 で微分することで、EMアルゴリズムに使う 更新式が得られる。 (9.55) (9.56) (9.57) (9.58) (9.59) (9.60) 41/56
  34. 9.3.3 混合ベルヌーイ分布 • 混合ベルヌーイ分布は手書き文字の分類などに利用可能 - 数字の 2, 3, 4 の手書き文字データが600個ある。データ集合

    𝐗 = {𝐱1 , … 𝐱600 } にあたる。 - ピクセル数が 𝐷 とすると、𝐱𝑛 及び 𝝁𝑘 の次元数が 𝐷 - 𝑥𝑖 は2値変数であり、 𝑥𝑖 = 1 のピクセルは黒、 𝑥𝑖 は確率 𝜇𝑖 で黒くなる - 数字の 2, 3, 4 について、クラス 𝑘 = {2, 3, 4} を割り当てる。 - EMアルゴリズムを適用すれば、クラス毎に 𝐷 次元ベクトル 𝝁𝑘 が得られる。 ピクセル画像 𝜇𝟐1 𝜇𝟐2 … 𝜇𝟐𝐷 k = 2 𝜇𝟑1 𝜇𝟑2 … 𝜇𝟑𝐷 k = 3 𝜇𝟒1 𝜇𝟒2 … 𝜇𝟒𝐷 k = 4 42/56
  35. 9.3.3 混合ベルヌーイ分布 • 適切に初期値を選んでEMアルゴリズムを10回繰り返した。 - 混合係数 𝜋𝑘 は 1/K で初期化、

    𝜇𝑘𝑖 は (0.25, 0.75) の一様分布からサンプリングで初期化 - 下図は 𝜇𝑘𝑖 の値をグレースケールで表したもの ➢ 0 が 白、1が黒 • 単一のベルヌーイ分布だと下図のようになる。 - 全てのクラスを一つのベルヌーイ分布で学習しているので、 データセットから各ピクセルが黒くなる確率を平均で出しているだけ k = 2 k = 4 k = 3 43/56
  36. 9.4 一般のEMアルゴリズム • ここまでやってきたEMアルゴリズムは、潜在変数を持つ確率モデルの最尤解を求めるための一般的な 手法である。 • 9.4 節では、EMアルゴリズムが毎ステップ確かに尤度関数を極大化させることを示す。 - これまでと同様に、

    𝑝 𝐗 𝜽 の最大化が困難であるが 𝑝 𝐗, 𝐙 𝜽 の最大化は容易であると仮定する。 ln𝑝 𝐗 𝜃 = ln ෍ 𝐙 𝑝 𝐗, 𝐙 𝜽 • 対数が同時確率の和に作用しているので解析的な解が得られない。 • ここに、潜在変数について分布 𝑞(𝐙) を導入すると、 ln𝑝 𝐗 𝜃 は以下のように2つの項に分解できる。 • ℒ 𝑞, 𝜽 は evidence lower bound と呼ばれる。 - 周辺尤度は marginal likelihood 以外に evidence と呼ばれることもあるため。 (9.70) (9.70) (9.71) (9.72) 45/56
  37. 9.4 一般のEMアルゴリズム • 導出① ln𝑝 𝐗 𝜃 = ෍ 𝐙

    𝑞 𝐙 ln𝑝 𝐗 𝜽 = ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙 𝜽 𝑝 𝐙|𝐗, 𝜽 = ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙 𝜽 𝑞 𝐙 𝑞 𝐙 𝑝 𝐙|𝐗, 𝜽 = ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙 𝜽 𝑞 𝐙 + ෍ 𝐙 𝑞 𝐙 ln 𝑞 𝐙 𝑝 𝐙|𝐗, 𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 ෍ 𝐙 𝑞(𝐙) = 1 • KLダイバージェンスが非負 (§1.6) であるので、 KL 𝑞||𝑝 = ln𝑝 𝐗 𝜃 − ℒ 𝑞, 𝜽 ≥ 0 ln𝑝 𝐗 𝜃 ≥ ℒ 𝑞, 𝜽 - ℒ 𝑞, 𝜽 が evidence lower bound であることが分かる。 46/56
  38. 1.6.1 復習 • KL(𝑝| 𝑞 は非負であることの証明 - 関数 𝑓 𝑥

    で、全ての弦が関数に乗っているかそれよりも上であるとき凸であると呼ぶ。 - 図1.31で、a と b を 1 − 𝜆 : 𝜆 に分割する 𝑥𝜆 を考える。 - 𝑥𝜆 = 𝜆𝑎 + 1 − 𝜆 𝑏 - 𝑓 𝑥 上の点は 𝑓(𝜆𝑎 + 1 − 𝜆 𝑏) - 𝑥𝜆 と弦の交点は 𝜆𝑓(𝑎) + 1 − 𝜆 𝑓(𝑏) - 以上より凸関数では、式1.114 が成立する。 - 式1.114 から、帰納法を使うと以下が得られる。 - 証明は演習1.38 - 0 ≤ 𝜆 ≤ 1 で成立するこの式をイェンセンの不等式と呼ぶ。 1.114 図1.31 𝜆𝑎 + 1 − 𝜆 𝑏 𝜆𝑓(𝑎) + (1 − 𝜆)𝑓(𝑏) 𝑓(𝜆𝑎 + 1 − 𝜆 𝑏) 1.115 47/56
  39. 1.6.1 復習 • 連続変数では次のようになる - 𝜆 (0 ≤ 𝜆 ≤

    1) が 𝑝(𝐱) に置き換わっている • 式1.117 を KLダイバージェンスに適用すると - 𝑓 𝑥 = −ln(𝐱) とし, −ln(𝐱) が凸関数であることと ∫ 𝑞 𝐱 𝑑𝐱 = 1 を利用 - 等号は全ての 𝐱 について 𝑝 𝐱 = 𝑞(𝐱) の時に限り成立 • KLダイバージェンスは 𝑝 𝐱 と 𝑞(𝐱) のとの隔たりを表す尺度として解釈可能 - ただし KL(𝑝| 𝑞 ≠ KL(𝑞| 𝑝 であるため、距離ではないことに注意 1.117 48/56
  40. 9.4 一般のEMアルゴリズム • 導出 ② - 対数周辺尤度にイェンセンの不等式を適用するバージョン ln𝑝 𝐗 𝜽

    = ln ෍ 𝐙 𝑝 𝐗, 𝐙 𝜽 = ln ෍ 𝐙 𝑞 𝐙 𝑝 𝐗, 𝐙 𝜽 𝑞 𝐙 ここにイェンセンの不等式(§1.6)を適用 𝑓 ෍ 𝑖=1 𝑛 𝜆𝑖 𝑥𝑖 ≥ ෍ 𝑖=1 𝑛 𝜆𝑖 𝑓(𝑥𝑖 ) , 𝑤ℎ𝑒𝑟𝑒 ෍ 𝑖=1 𝑛 𝜆𝑖 = 1 ln𝑝 𝐗 𝜽 = ln ෍ 𝐙 𝑞 𝐙 𝑝 𝐗, 𝐙 𝜽 𝑞 𝐙 ≥ ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙 𝜽 𝑞 𝐙 = ℒ 𝑞, 𝜽 49/56
  41. 9.4 一般のEMアルゴリズム - 対数周辺尤度と lower bound の差分を計算 (9.70) ln𝑝 𝐗

    𝜽 − ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙 𝜽 𝑞 𝐙 = ln𝑝 𝐗 𝜽 ෍ 𝐙 𝑞 𝐙 − ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙 𝜽 𝑞 𝐙 = ෍ 𝐙 𝑞 𝐙 ln𝑝 𝐗 𝜽 − ln𝑝 𝐗, 𝐙 𝜽 + ln𝑞 𝐙 = ෍ 𝐙 𝑞 𝐙 ln𝑝 𝐗 𝜽 − ln𝑝 𝐙 𝐗, 𝜽 − ln𝑝 𝐗 𝜽 + ln 𝑞 𝐙 = − ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐙 𝐗, 𝜽 𝑞 𝐙 = KL 𝑞||𝑝 ln𝑝 𝐗 𝜽 − ℒ 𝑞, 𝜽 = KL 𝑞||𝑝 式(9.70) のイメージ 図9.11 ln𝑝 𝐗 𝜽 って負じゃないの? 50/56
  42. 9.4 一般のEMアルゴリズム • EMアルゴリズムが対数尤度を増加させていくことの説明 - Eステップ ➢ 現在のパラメータベクトルが 𝜽𝑜𝑙𝑑 であると仮定する。

    ➢ Eステップでは、 𝜽𝑜𝑙𝑑 を固定した状態で、下界 ℒ 𝑞, 𝜽 を𝑞(𝐙) について最大化する。 ➢ KLダイバージェンスが 0 の時、 ℒ 𝑞, 𝜽 が最大。 ➢ → 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 = 𝑞(𝐙) のときに ℒ 𝑞, 𝜽𝑜𝑙𝑑 が最大になる。 ➢混合ガウス分布でいうところの 負担率 𝛾 𝑧𝑛𝑘 = 𝑝 𝑧𝑛𝑘 = 1 𝐗, 𝜽 の計算 KL 𝑞||𝑝 = − ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 𝑞 𝐙 = 0 ⇔ 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 = 𝑞(𝐙) 図9.11 ln𝑝 𝐗 𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 𝑞(𝐙) に依存しない 𝜽𝑜𝑙𝑑は固定したまま 𝑞を動かして最大化したい →KLDを0に すればよい 図9.12 51/56
  43. 9.4 一般のEMアルゴリズム • EMアルゴリズムが対数尤度を増加させていくことの説明 - Mステップ ➢ 𝑞 𝐙 =

    𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 を固定した状態で、 ℒ 𝑞, 𝜽 をパラメータ 𝜽 について最大化する。 ➢ ln𝑝 𝐗 𝜽 、KLD も 𝜽 に依存するので勝手に増加する。 ➢ 𝑞(𝐙)を 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 に置き換えたときの下界を計算 ℒ 𝑞, 𝜽 = ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙 𝜽 𝑞 𝐙 = ෍ 𝐙 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln 𝑝 𝐗, 𝐙 𝜽 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 = ෍ 𝑍 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln 𝑝 𝐗, 𝐙 𝜽 − ෍ 𝑍 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln𝑝 𝐗 𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 𝜽に依存している ので変化する 𝑞 𝐙 = 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 は固定し、 𝜽 について最適化する 𝜽に依存している ので変化する この項は 𝜽 に依存しないので定数 𝜽 について最適化するために、この項の微分を計算するので 𝑝 𝐗, 𝐙 𝜽 の最大化は容易であると仮定が大事 52/56
  44. 9.4 一般のEMアルゴリズム 53 • EMアルゴリズムが対数尤度を増加させていくことの説明 - ℒ 𝑞, 𝜽 の第1項は、事後分布

    𝑝(𝐙|𝐗, 𝜽𝑜𝑙𝑑) の基での ln𝑝 𝐗, 𝐙 𝜽 の期待値になっている。 ℒ 𝑞, 𝜽 = ෍ 𝑍 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln 𝑝 𝐗, 𝐙 𝜽 − ෍ 𝑍 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 ln 𝑝 𝐙 𝐗, 𝜽𝑜𝑙𝑑 = 𝒬 𝜽, 𝜽𝑜𝑙𝑑 + const. ➢ つまりMステップでは、混合ガウス分布で説明した 𝒬 𝜽, 𝜽𝑜𝑙𝑑 の最大化を行っている。 - Mステップで ℒ 𝑞, 𝜽 を 𝜽 に対して最適化することで 𝜽𝑛𝑒𝑤 が得られる。 ➢ このとき、KLDは以下のようになり、0以上の値を持つ。 ➢ よって、周辺尤度の増加幅は ℒ 𝑞, 𝜽 よりも大きくなる。 − ෍ 𝐙 𝑞 𝐙 ln 𝑝 𝐙 𝐗, 𝜽 𝑞 𝐙 = ෍ 𝐙 𝑝(𝐙|𝐗, 𝜽𝑜𝑙𝑑) ln 𝑝 𝐙 𝐗, 𝜽𝑛𝑒𝑤 𝑝(𝐙|𝐗, 𝜽𝑜𝑙𝑑) 図9.12 図9.13 53/56
  45. 9.4 一般のEMアルゴリズム • EMアルゴリズムをパラメータ空間で視覚化 - 𝜽𝑜𝑙𝑑 から始め、最初のEステップで事後分布 𝑝(𝐙|𝐗, 𝜽𝑜𝑙𝑑) を計算し、ℒ

    𝑞, 𝜽 が導かれる。 - Eステップでは KLD=0 になるので、𝑝 𝐗 𝜽𝑜𝑙𝑑)とℒ 𝑞, 𝜽𝑜𝑙𝑑 は一致する。 - 接する事の証明 (演習9.25) - 𝜕 𝜕𝜽 KL 𝑞||𝑝 | 𝜽=𝜽𝑜𝑙𝑑 = 0 だから、 𝜕 𝜕𝜽 ln𝑝 𝐗 𝜽) = 𝜕 𝜕𝜽 ℒ 𝑞, 𝜽 + 𝜕 𝜕𝜽 KL 𝑞||𝑝 𝜕 𝜕𝜽 ln𝑝 𝐗 𝜽) ቚ 𝜽=𝜽𝑜𝑙𝑑 = 𝜕 𝜕𝜽 ℒ 𝑞, 𝜽 ቚ 𝜽=𝜽𝑜𝑙𝑑 54/56
  46. 9.4 一般のEMアルゴリズム • EMアルゴリズムをパラメータ空間で視覚化 - 次に 𝑞 𝐙 = 𝑝

    𝐙 𝐗, 𝜽𝑜𝑙𝑑 を固定した状態で、 ℒ 𝑞, 𝜽 をパラメータ 𝜽 について最大化すること で 𝜽𝑛𝑒𝑤 を得る( Mステップ) 。 ➢ ℒ 𝑞, 𝜽 を最大化したので 𝜽𝑛𝑒𝑤 が極値になっている。 - 𝜽𝑛𝑒𝑤 を使って事後分布 𝑝(𝐙|𝐗, 𝜽𝑜𝑙𝑑) を 計算し、ℒ 𝑞, 𝜽 が導かれる。 ➢ 以降繰り返し 55/56
  47. まとめ • 9.1 K-means - 最もシンプルな混合モデルとしてK-meansクラスタリングについて説明した • 9.2 混合ガウス分布 -

    潜在変数を陽に扱った場合の混合ガウス分布を導入した。 - 混合ガウス分布では対数尤度の最大化がに問題がある。 - 負担率の計算(Eステップ)と混合モデルのパラメータ更新(Mステップ)によってクラスタリ ングができることを示した。 • 9.3 EMアルゴリズムの解釈 - 一般化したEMアルゴリズムを導入し、ガウス分布との関係を比較しながら𝒬 𝜽, 𝜽𝑜𝑙𝑑 を導出し た。 - 混合ガウス分布において、分散パラメータを0に近づけることで、クラスの割り当てをソフト な負担率からハードな方法に変え、結果的にK-meansと同等であることを導いた。 - 混合ガウス分布と混合ベルヌーイ分布において、対数周辺尤度では計算が困難だった微分が、 完全データ対数尤度では簡単になることを見た。 • 9.4 一般のEMアルゴリズム - EステップとMステップの繰り返しが、常に対数周辺尤度を増加させることを示した。 56/56