Scable Inference of Topic Models by Stochastic Gradient MCMC

7b478cab8e68f81b1f6830077b6649ca?s=47 Atom
February 20, 2019
52

Scable Inference of Topic Models by Stochastic Gradient MCMC

文献紹介
<文献情報>
横井 創磨, 佐藤 一誠, 中川 裕志
人工知能学会誌 Vol.31 No.6 p.AI30-C_1-9, 2016

7b478cab8e68f81b1f6830077b6649ca?s=128

Atom

February 20, 2019
Tweet

Transcript

  1. Stochastic Gradient MCMC による スケーラブルなトピックモデルの推定 横井 創磨, 佐藤 一誠, 中川

    裕志 文献紹介 2019/2/20 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武 人工知能学会誌 Vol.31 No.6 p.AI30-C_1-9, 2016
  2. 1. 概要 ・バッチ学習である周辺化ギブスサンプリング法(CGS)で提案 されてきた効率的なサンプル方法をstochastic gradient MCMCに使うことで,データとトピックの両方にスケーラブ ルに対応した新しいトピックモデルの推定方法を提案 ・バッチ学習における従来のMCMCのSotAよりも優れた効率・ 更新速度であることを実証した 2

  3. 2. はじめに ・伝統的なMCMCではデータサイズとトピック数が大きい場合 現実的な時間内にトピックモデルを推定できないという問題が あり,CGSを中心に改善が行われてきた. ・トピック数に関してはSparseLDA, AliasLDA, LightLDA など の手法が有効であると確認されている.

    ・データサイズに関しては,分割して計算を行った後に統合する という手法が提案されているが,収束が保証されない 3
  4. 2. はじめに ・ stochastic gradient MCMC はオンライン変分ベイズ法よりも 性能が良く,CGSが実行できないような大規模なデータにおい ても高速に実行が可能 ・効率的なサンプル方法をstochastic

    gradient MCMC に最適化 することで,データサイズ・トピック数ともにスケール可能な 推定方法を提案 4
  5. 3. 関連研究(Latent Dirichlet Allocation) 5 LDAにおける単語確率の生成過程 (1) for トピック a

    単語分布 ~Dir() (2) for 文書 a トピック分布 ~Dir() b for 番目のトークン in 文書 ⅰ. トピック ~Multi( ) ⅱ. 単語 ~Multi( )
  6. 3. 関連研究( SparseLDA, AliasLDA, LightLDA ) 6 SparseLDA:トピック数が大きいほどスパース性が現れること を利用し,非ゼロのみを計算(CGSの改善) AliasLDA

    : SparseLDAにalias法とMH法を適用したもの 前処理でalias table を作り,それによりサンプリング メトロポリス・ヘイスティング法の棄却補正 LightLDA :AliasLDAにcycle proposal を適用してもの 因数ごとに交互にサンプリングをする
  7. 3. 関連研究(SGRLD) 7 ・stochastic gradient Riemannian Langevin dynamics ミニバッチでのサンプリングを可能とするSGLDを単体上の 確率ベクトルへ拡張したもの

    ・ Langevin Monte Carlo を確率的勾配降下法に拡張したもの ・正規化されていない単語分布に相当するパラメータについて ミニバッチごとに次の式で更新を行う
  8. 3. 関連研究(SGRLD) 8 ∗ = + 2 − + +

    1 2 = � ∈ |,, [ − ] ステップサイズ = 1 + − , 正規化定数 , ノイズ コーパス全体のデータ , サブサンプルされたミニバッチデータ
  9. ・AliasLDAとLightLDAをSGRLDに最適化した, AliasSGRLDとLightSGRLD を提案. ・提案手法はalias tableをイテレーションにおいて使いまわせる ことを理論的に示されたものであり,サンプル数を確保できる 9 4. 提案手法

  10. 10 4. 提案手法 :コーパスに含まれているトピック数 :文書に含まれているトピック数

  11. 11 5.1 実験設定 ・ベースライン:SGRLD ・提案手法:AliasSGRLD, LightSGRLD ・データセット:NIPS, NYTimes, PubMed ・ミニバッチのデータ数

    :24,000単語 ・イテレーション回数:200回, バーンイン回数:100回 ・ステップサイズ: =0.001, =10000, =0.6
  12. 12 5.1 実験設定

  13. 13 5.1 実験設定

  14. 14 5.1 実験設定 ・学習の評価: コーパスから予め除外したテストデータを用いてperplexity (学習した単語確率とテストデータの単語頻度の相違の程度) によって評価 perp = exp(−

    ∑𝑤𝑤𝑖𝑖 log(𝑖𝑖 |𝑡𝑡 , , ) )
  15. 15 5.2 サンプルの有効性 ・AliasSGRLDは棄却を行わずに 正確な分布からサンプリングす るためSBRLDと一致する ・LightSGRLDは棄却により事後 確率の勾配の精度は低い

  16. 16 5.3 計算時間

  17. 17 5.3 perplexity (1024 topics)

  18. 18 5.3 perplexity (16384 topics)

  19. ・CGSで提案されてきた効率的なサンプル方法をstochastic gradient MCMCに使うことで,スケーラブルなトピックモデ ルの推定方法を提案 ・提案手法は大規模コーパスかつトピックス数が大きい状況でも 高速に実行可能 ・特にAliasSGRLDは収束・更新速度ともに優れていることを 確認した 19 6.

    まとめ