文献紹介 <文献情報> 横井 創磨, 佐藤 一誠, 中川 裕志 人工知能学会誌 Vol.31 No.6 p.AI30-C_1-9, 2016
Stochastic Gradient MCMC によるスケーラブルなトピックモデルの推定横井 創磨, 佐藤 一誠, 中川 裕志文献紹介2019/2/20長岡技術科学大学自然言語処理研究室 吉澤 亜斗武人工知能学会誌 Vol.31 No.6 p.AI30-C_1-9, 2016
View Slide
1. 概要・バッチ学習である周辺化ギブスサンプリング法(CGS)で提案されてきた効率的なサンプル方法をstochastic gradientMCMCに使うことで,データとトピックの両方にスケーラブルに対応した新しいトピックモデルの推定方法を提案・バッチ学習における従来のMCMCのSotAよりも優れた効率・更新速度であることを実証した2
2. はじめに・伝統的なMCMCではデータサイズとトピック数が大きい場合現実的な時間内にトピックモデルを推定できないという問題があり,CGSを中心に改善が行われてきた.・トピック数に関してはSparseLDA, AliasLDA, LightLDA などの手法が有効であると確認されている.・データサイズに関しては,分割して計算を行った後に統合するという手法が提案されているが,収束が保証されない3
2. はじめに・ stochastic gradient MCMC はオンライン変分ベイズ法よりも性能が良く,CGSが実行できないような大規模なデータにおいても高速に実行が可能・効率的なサンプル方法をstochastic gradient MCMC に最適化することで,データサイズ・トピック数ともにスケール可能な推定方法を提案4
3. 関連研究(Latent Dirichlet Allocation)5LDAにおける単語確率の生成過程(1) for トピック a 単語分布 ~Dir()(2) for 文書 a トピック分布 ~Dir()b for 番目のトークン in 文書 ⅰ. トピック ~Multi()ⅱ. 単語 ~Multi()
3. 関連研究( SparseLDA, AliasLDA, LightLDA )6SparseLDA:トピック数が大きいほどスパース性が現れることを利用し,非ゼロのみを計算(CGSの改善)AliasLDA : SparseLDAにalias法とMH法を適用したもの前処理でalias table を作り,それによりサンプリングメトロポリス・ヘイスティング法の棄却補正LightLDA :AliasLDAにcycle proposal を適用してもの因数ごとに交互にサンプリングをする
3. 関連研究(SGRLD)7・stochastic gradient Riemannian Langevin dynamicsミニバッチでのサンプリングを可能とするSGLDを単体上の確率ベクトルへ拡張したもの・ Langevin Monte Carlo を確率的勾配降下法に拡張したもの・正規化されていない単語分布に相当するパラメータについてミニバッチごとに次の式で更新を行う
3. 関連研究(SGRLD)8∗ = +2 − + + 12 =�∈|,,[− ]ステップサイズ = 1 + −, 正規化定数 , ノイズ コーパス全体のデータ , サブサンプルされたミニバッチデータ
・AliasLDAとLightLDAをSGRLDに最適化した,AliasSGRLDとLightSGRLD を提案.・提案手法はalias tableをイテレーションにおいて使いまわせることを理論的に示されたものであり,サンプル数を確保できる94. 提案手法
104. 提案手法:コーパスに含まれているトピック数:文書に含まれているトピック数
115.1 実験設定・ベースライン:SGRLD・提案手法:AliasSGRLD, LightSGRLD・データセット:NIPS, NYTimes, PubMed・ミニバッチのデータ数 :24,000単語・イテレーション回数:200回, バーンイン回数:100回・ステップサイズ: =0.001, =10000, =0.6
125.1 実験設定
135.1 実験設定
145.1 実験設定・学習の評価:コーパスから予め除外したテストデータを用いてperplexity(学習した単語確率とテストデータの単語頻度の相違の程度)によって評価perp = exp(−∑𝑤𝑤𝑖𝑖log(𝑖𝑖|𝑡𝑡, , ))
155.2 サンプルの有効性・AliasSGRLDは棄却を行わずに正確な分布からサンプリングするためSBRLDと一致する・LightSGRLDは棄却により事後確率の勾配の精度は低い
165.3 計算時間
175.3 perplexity (1024 topics)
185.3 perplexity (16384 topics)
・CGSで提案されてきた効率的なサンプル方法をstochasticgradient MCMCに使うことで,スケーラブルなトピックモデルの推定方法を提案・提案手法は大規模コーパスかつトピックス数が大きい状況でも高速に実行可能・特にAliasSGRLDは収束・更新速度ともに優れていることを確認した196. まとめ