EMアルゴリズム from Machine Learning - A Probabilistic Perspective

Slide 1

Slide 1 text

Machine Learning A Probabilistic Perspective Chapter.11 Mixture models and the EM algorithm pp.348 – pp.359 発表者： M1 本藤拳也 2017/12/22 1

Slide 2

Slide 2 text

11.4 EMアルゴリズム • データに欠損値や潜在変数が含まれるとき，最尤法やMAP推定を行うのは困難になる • 例えば，それ以外のパラメータ推定手法として勾配法ベースのものがある例）負の対数尤度(negative log likelihood)の局所最小値を計算する勾配法 NLL =−≜ 1 log (|) 問題点：制約が多く計算困難なことが多い分散共分散行列が正定値行列，重みの和が1，など 2 (11.16)

Slide 3

Slide 3 text

11.4 EMアルゴリズム • 制約が多い場合，EMアルゴリズム(EM法)を使うほうがよりシンプルな場合がある EM法…expectation maximization algorithm • シンプルな反復法のアルゴリズム • 以下の2つのステップを交互に繰り返す E step：既知のパラメータを基に，欠損値を予測 M step：予測した値を基に，パラメータを更新 3

Slide 4

Slide 4 text

11.4.1 基本的なアイデア潜在変数を含むときの対数尤度を観測データとする．を潜在変数(or欠損値)とする．次の対数尤度を最大化することが，EM法のゴールである. = ෍ =1 log = ෍ =1 log ෍ ( , |) この対数尤度は，logの内側にΣが入っており，最適化が困難である． 4 (11.17)

Slide 5

Slide 5 text

11.4.1 基本的なアイデア EM法は次のようにしてこの問題を避ける．完全データ対数尤度(complete data log likelihood)を次のように定義する ≜ ෍ =1 log , は定義上不明なのでこのままでは計算できない．そこで，完全データ対数尤度の期待値を次のように定義する： , −1 = E[ ()|, −1] ここで，は反復回数である．は補助関数と呼ばれる． 5 (11.18) (11.19)

Slide 6

Slide 6 text

11.4.1 基本的なアイデア , −1 = E[ ()|, −1] E stepでは，Q関数を−1, をもとに計算する． E stepのゴールは， , −1 の中の最尤推定が関係する項を計算することである．この項のことを，期待十分統計量という． M stepでは，Q関数を最大化するを求める： = arg max (, −1) 次のように書き換えれば，MAP推定になる： = arg max (, −1) + log () 6 (11.20) (11.21)

Slide 7

Slide 7 text

11.4.1 基本的なアイデア余談： EMアルゴリズムの反復計算では，観測データの対数尤度は単調に増加する．もし計算中に下がることがあれば，それは数式かコードにバグがあることを示す． ➡図らずしも便利なデバッグツールになる次に具体例として，混合ガウスモデル(GMM)のフィッティングを行うEM法をみていく． 7

Slide 8

Slide 8 text

11.4.2 混合ガウスモデルにおけるEM法 8 K：混合要素数：K個の要素のうち，が属する分布のラベル：混合比 (σ=1 = 1) 例）K=3 = 1であるような = 2 = 3

Slide 9

Slide 9 text

11.4.2 混合ガウスモデルにおけるEM法 9 このとき，完全データ対数尤度は ≜ ( = | , −1)を負荷率(responsibility)という．データが要素に含まれる確率に相当する

Slide 10

Slide 10 text

11.4.2 混合ガウスモデルにおけるEM法 10 EM法の方針求めたいのは，K個のガウス分布の , , Q関数で平均と分散に依存する項混合比に依存する項をそれぞれ最大化 , −1 = ෍ ෍ log + ෍ ෍ log ( | ) 回目のEM法は次のようになる E step：−1を用いてを求める M step：Q関数を最大化する, , を求める． (11.26)

Slide 11

Slide 11 text

11.4.2 混合ガウスモデルにおけるEM法 11 , −1 = ෍ ෍ log + ෍ ෍ log ( | ) E step：t-1回目のパラメータ−1を用いてを求める = ( | −1) σ ′ ′ ( | ′ −1) (11.27)

Slide 12

Slide 12 text

11.4.2 混合ガウスモデルにおけるEM法 12 , −1 = ෍ ෍ log + ෍ ෍ log ( | ) M step：E stepで求めたパラメータを基にQ関数最大化に関する最大化は自明に = 1 σ = σ σ log の最大化(subject to Σ = 1) ➡ラグランジュ法 = ෍ log − (෍ − 1) = − = 0 = ෍ − 1 = 0 (11.28)

Slide 13

Slide 13 text

11.4.2 混合ガウスモデルにおけるEM法 13 , −1 = ෍ ෍ log + ෍ ෍ log ( | ) M step：E stepで求めたパラメータを基にQ関数最大化 , に関する最大化 , = ෍ ෍ log ( | ) = − 1 2 ෍ log + − −1 − ➡ = σ , = σ − − = σ − (11.30) (11.29) (11.31) (11.32)

Slide 14

Slide 14 text

11.4.2 混合ガウスモデルにおけるEM法 14 EM法で推定されたパラメータ = 1 ෍ = = σ , = σ − − = σ − 直感的な意味：クラスタkの平均は，データ点の重み(kに属する確率) つきの標本平均クラスタkの分散は，標本共分散行列と同じ

Slide 15

Slide 15 text

11.4.2 混合ガウスモデルにおけるEM法 15 11.4.2.4 実行例色はcolor = 1 blue + 2 redで計算初期状態 After E step(t=1) After M step(t=1) After M step(t=3) After M step(t=5) After M step(t=16)

Slide 16

Slide 16 text

11.4.2.5 K-meansアルゴリズム K-meansアルゴリズムとは，混合ガウスモデルのパラメータをEM法で推定する方法の変種である K-meansでは，次のパラメータを固定する = 2 , = 1 そして，クラスタ平均と，データ点がどのクラスタに属するかについての(潜在)変数を更新していく． 16

Slide 17

Slide 17 text

11.4.2.5 K-meansアルゴリズム E stepは次のように書き換えられる． = = , ≈ I k = zi ∗ zi ∗ = arg max = , つまり，データ点は，ただ１つのクラスタのみに属するように変更する．純粋なEM法では，データ点がK個のどのクラスタに属するかは確率的だったのに対して，K-meansでは唯一つのクラスタを割り当てる．このようなEMをhard EMという． 17 (11.34)

Slide 18

Slide 18 text

11.4.2.5 K-meansアルゴリズムデータ点が，クラスタの最近傍のプロトタイプに属するものとすれば， zi ∗は次のようになる zi ∗ = arg min ∥ − ∥2 2 つまり，データ点を，ユークリッド距離がもっともクラスタ平均に近いクラスタに属するようにする． 18 1 2 , ∗ = 1 Euclidean space , ∗ = 2 1 2 , = 1 Euclidean space , = 2 ＜K means＞＜GMM＞ (11.35)

Slide 19

Slide 19 text

11.4.2.5 K-meansアルゴリズム D次元ユークリッド空間でN個のデータをK個のクラスタに分配するのは()時間かかるが，工夫をすることで高速化ができる(Elkan 2003) さて，M stepは，純粋なEM法と同じようにクラスタk の平均の計算をする． E stepでデータ点が属するクラスタを求めたので，これをもとに新たなクラスタの中心を計算する： = 1 ෍ := 19 (11.36)

Slide 20

Slide 20 text

11.4.2.5 K-meansアルゴリズム Algorithm 11.1はK-meansの疑似コードを示す． 20

Slide 21

Slide 21 text

11.4.2.6 ベクトル量子化 Introduction K-meansは正確なEMアルゴリズムではなく，尤度を最大化することができない．これは，損失関数を近似的に最小化する貪欲アルゴリズムと解釈できる．そして，この貪欲アルゴリズムはデータ圧縮と関連がある．データ圧縮実数値ベクトル ∈ ℝに対し，不可逆圧縮を行うことを考える．単純なアプローチとして知られるのが，ベクトル量子化である．離散的なシンボル ∈ {1, … , }に対し，をK個のプロトタイプに割り当てることを考える． 21

Slide 22

Slide 22 text

11.4.2.6 ベクトル量子化・データベクトル ∈ ℝ ・シンボル ∈ 1, … , ・シンボルKのプロトタイプ ∈ ℝ (codebook) データベクトルは，もっともユークリッド距離が近いプロトタイプにエンコードされる．すなわち， encode = arg min ∥ − ∥2 プロトタイプの定め方によって，圧縮後のデータの品質は変わってくる．つまり，適切にプロトタイプを設定する必要がある． 22 (11.37)

Slide 23

Slide 23 text

11.4.2.6 ベクトル量子化そこで，プロトタイプがどれだけ適切であるかを評価するコスト関数として，再構成誤差(reconstruction error)を導入する． , , ≜ 1 ෍ =1 ∥ − decode encode ∥2 = 1 ∥ − ∥2 where decode() = ．式(11.38)は元データと圧縮後の誤差である．K-means は，この誤差関数を最小化する反復法であると考えることができる． 23 (11.38)

Slide 24

Slide 24 text

11.4.2.6 ベクトル量子化すべてのN個のデータ点のそれぞれに対してK=N個のプロトタイプを定めれば，誤差関数は0になる．その場合()の空間計算量が必要になる． (N：データ数，D：データ長，C：実数値を表現するbit数) しかし，多くのデータ集合において類似したベクトルが頻出するので，それら一つ一つを記憶しておくよりも，それらを代表するベクトルを一つ決めておくほうが効率が良い． 24 N個のデータに対応するプロトタイプを全部記憶代表的なK個だけを記憶

Slide 25

Slide 25 text

11.4.2.6 ベクトル量子化ベクトル量子化の空間計算量このように，頻出する類似ベクトルに対してK個の代表点を定めることで空間計算量を log2 + に削減することができる． ( log2 )は，N個のデータ点をK個のプロトタイプに割り当てるために生じる ()は，D次元のK個のプロトタイプ(ベクトル)を保持するために生じる一般に log2 + のうち， log2 の項が支配的なので，エンコードレートを(log2 )で見積もることが多い． 25

Slide 26

Slide 26 text

11.4.2.6 ベクトル量子化画像圧縮への応用 N=200×320=64,000 pixel，グレースケール(D=1) 色強度[0,255](C=8)の画像は， = 512,000 bitsで表現できる K=2 K=4 26

Slide 27

Slide 27 text

11.4.2.6 ベクトル量子化画像圧縮への応用圧縮後は log2 + bitsになる．例えば・K=4のとき，約128kb(圧縮比4倍) ・K=8のとき，約192kb(圧縮比2.6倍) 27

Slide 28

Slide 28 text

11.4.2.7 初期化，局所最小値の回避初期化 K-meansもEM法も初期化が必要で，K個のプロトタイプ点をランダムに決めるのが一般的である． K-means++ 初期プロトタイプ点を「データ点全体を覆う」ように逐次的に選ぶ方法もある．この方法では，まず最初に初期値を一様ランダムに選ぶ．次に選ぶデータ点は，前に選んだクラスター中心との二乗距離に比例した確率で選ぶ．この方法は，最長距離法もしくはK-means++と呼ばれる． 28

Slide 29

Slide 29 text

11.4.2.7 初期化，局所最小値の回避 K-means++ この簡単なトリックで，最適なK-means法の解に比べて (log )の近似比率で解が得られることが保証されている． 29 K- 平均法++ データクラスタリング：https://msdn.microsoft.com/ja-jp/magazine/mt185575 9つのデータ点に対して K=3のK means++を行う左図は，クラスタ中心を2つ決めた時の様子 3つ目のクラスタ中心はデータ点の最近傍クラスタ中心との距離に比例した確率で選ばれる．

Slide 30

Slide 30 text

11.4.2.7 初期化，局所最小値の回避音声認識とEM 音声認識で一般的に知られているヒューリスティックとして，GMMを「成長させる」というものがある． ①混合比に基づいてクラスタにスコアを与える ②各反復で，最も高いスコアを持つクラスタを二分する ③二分したクラスタの重心を求め，それぞれに元のスコアの半分を割り当てる ④新たなクラスタのスコアが小さすぎたり，分散が小さい場合は破棄する ①～④を，所望のクラスタ数が得られるまで行う 30

Slide 31

Slide 31 text

11.4.2.8 MAP推定最尤推定は多くの場合過学習する．これはGMMの場合，特に深刻な問題となる．次の例を考えるとわかりやすい． = 2, = 2とする．あるデータ点1 だけが，クラスタ2 に割り当てられているとする．このデータ点の尤度への寄与は 1 2 , 2 2 = 1 22 2 0 1 = 2 ，すなわち2 = 0となり尤度は発散する．これを”collapsing variance problem”(※ 分散収縮問題)という． ※私がつけた訳語 collapse…(風船などが)しぼむ，収縮する 31 2 1 (11.39)

Slide 32

Slide 32 text

11.4.2.8 MAP推定データ点がクラスタ平均2 と一致(もしくは近傍に位置)するため，クラスタ2の分散が小さくなってしまった様子 32 2 1

Slide 33

Slide 33 text

11.4.2.8 MAP推定このように，尤度が発散する問題を解決する方法の一つは，MAP推定を導入することである．これを反映した新たな補助関数は，完全データ対数尤度に対数事前分布を足した形になる： E stepでは同様に，を求める． M stepでは，の事前分布を考慮する必要がある．事前分布として，カテゴリカル分布と共役なディレクレ分布を選ぶ．この時，MAP推定は = + − 1 + Σ − 33 (11.41)

Slide 34

Slide 34 text

11.4.2.8 MAP推定 = + − 1 + Σ − ここで， = 1とすれば事前分布は一様分布となり，もとのEMアルゴリズムと同様になる．パラメータの事前分布( )は，クラス条件付き密度の形式に依存する． 34 (11.41)

Slide 35

Slide 35 text

11.4.2.8 MAP推定簡単のため，共役事前分布を以下の形式で記述する , = NIW( , |0 , 0 , 0 , 0 ) NIW…natural inverse Wishart 分布 MAP推定結果は次のようになる ෝ = ത +00 +0 , ത ≜ σ , ෡ = 0++ 0 0+ ത −0 ത −0 0+++2 , ≜ σ − ത − ത 35 (11.43) (11.44) (11.46) (11.47)

Slide 36

Slide 36 text

11.4.2.8 MAP推定ハイパーパラメータの設定 MAP推定ではハイパーパラメータを設定する必要がある． ➡0 = 0とするヒューリスティックがある．そうすれば，には正規化の作用が及ばず，のみに事前分布による制約が効く ෝ = ത +00 +0 , ෡ = 0++ 0 0+ ത −0 ത −0 0+++2 ෝ = ത , ෡ = 0+ 0+++2 36 0 = 0

Slide 37

Slide 37 text

11.4.2.8 MAP推定ハイパーパラメータの設定 ෡ = 0 + 0 + + + 2 , ≜ ෍ − ത − ത 0 は例えば次のようにして決める． 0 = 1 1 diag 1 2, … , 2 = 1 1 1 2 ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ 2 ここで 2 = 1 σ=1 − ҧ 2は合併分散(pooled variance) 0 は事前分布の信念の度合いを調整するパラメータで一般的には0 = + 2とする． 37 (11.48)

Slide 38

Slide 38 text

11.4.2.8 MAP推定実験的にMAP推定の有効性を示すために，合成データにEM法 (MAP, MLEの2つ)を適用してみる．データの次元を変えながら，各次元で5回ずつ推定を行ったとき，(行列が非正則になるといった)失敗を起こした割合の推移を示したグラフ． 38 次元

Slide 39

Slide 39 text

11.4.2.8 MAP推定 MAP推定では，にハイパーパラメータ 0 を導入することで，の対角成分の 2が0になることに起因する行列計算における問題を防ぐことができる． 39 次元

Slide 40

Slide 40 text

11.4.3 混合エキスパートモデルのEM法混合エキスパートモデルのフィッティングは，EM法をそのまま適用することでできる． , = ෍ =1 ෍ =1 log[ ( | , 2)] , ≜ = ( = | , ) ∝ ( | , 2 ) E stepは，を, に置き換える以外は同じである． 40 (11.49) (11.50) (11.51)

Slide 41

Slide 41 text

11.4.3 混合エキスパートモデルのEM法 , = ෍ =1 ෍ =1 log[ ( | , 2)] M stepでは，(, )を , 2, に関して最大化するモデルkに対する目的関数は： , = ෍ =1 − 1 2 − 2 これは重みつき最小二乗法と考えることができる．が小さいとき，モデルのパラメータ推定の際にデータ点の誤差の寄与が小さくなることを示している 41 (11.52)

Slide 42

Slide 42 text

11.4.3 混合エキスパートモデルのEM法 , = ෍ =1 − 1 2 ( − ) この目的関数を最小化するはMLEの結果より = −1 , where k = diag(:,k ) 分散に関するMLE結果は 2 = σ =1 − 2 σ =1 42 (11.54) (11.53)

Slide 43

Slide 43 text

11.4.3 混合エキスパートモデルのEM法 , ≜ = ( = | , ) 混合比の推定は，の推定に置き換えられ，目的関数は次のようになる = ෍ ෍ log , これは，多項ロジスティック回帰の対数尤度と同等である．よって多項ロジスティック回帰と同様にを推定することができる． 43 (11.55)

Slide 44

Slide 44 text

11.4.3 潜在変数つきDGMのEM法混合エキスパートモデルにおけるEM法のアイデアを一般化することで，DGM(有向グラフィカルモデル)の MLE, MAP推定ができる．このとき，EM法は次のようになる． E step：潜在変数を予測する M step：予測した潜在変数をもとにMLE計算表記を簡単にするために，条件付き確率分布(CPD)は表形式とする．確率表は次のように計算できる , , = ෑ =1 () ෑ =1 I(=,, =) 44 (11.56)

Slide 45

Slide 45 text

11.4.3 潜在変数つきDGMのEM法完全データ対数尤度は log (|) = ෍ =1 ෍ =1 () ෍ =1 log where = σ =1 I( = , , = ) この期待値は E log = ෍ ෍ ෍ ഥ log where ഥ = σ =1 E[I( = , , = )] = σ ( = , , = | ) 45 (11.57) (11.58) (11.59)

Slide 46

Slide 46 text

11.4.3 潜在変数つきDGMのEM法 ഥ = ෍ ( = , , = | ) family marginal という ഥ は十分統計量の期待値で，E stepの出力である M stepは， መ = ഥ σ ′ ഥ ′ この結果はσ = 1という制約のもとラグランジュ法で導かれる． ഥ に疑似的な観測回数(=ハイパーパラメータ)を加えれば，ディレクレ分布を事前分布としたMAP推定に変更することができる． 46 (11.59) (11.60)