Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Scable Inference of Topic Models by Stochastic Gradient MCMC

Atom
February 20, 2019
84

Scable Inference of Topic Models by Stochastic Gradient MCMC

文献紹介
<文献情報>
横井 創磨, 佐藤 一誠, 中川 裕志
人工知能学会誌 Vol.31 No.6 p.AI30-C_1-9, 2016

Atom

February 20, 2019
Tweet

Transcript

  1. Stochastic Gradient MCMC による スケーラブルなトピックモデルの推定 横井 創磨, 佐藤 一誠, 中川

    裕志 文献紹介 2019/2/20 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武 人工知能学会誌 Vol.31 No.6 p.AI30-C_1-9, 2016
  2. 3. 関連研究(Latent Dirichlet Allocation) 5 LDAにおける単語確率の生成過程 (1) for トピック a

    単語分布 ~Dir() (2) for 文書 a トピック分布 ~Dir() b for 番目のトークン in 文書 ⅰ. トピック ~Multi( ) ⅱ. 単語 ~Multi( )
  3. 3. 関連研究( SparseLDA, AliasLDA, LightLDA ) 6 SparseLDA:トピック数が大きいほどスパース性が現れること を利用し,非ゼロのみを計算(CGSの改善) AliasLDA

    : SparseLDAにalias法とMH法を適用したもの 前処理でalias table を作り,それによりサンプリング メトロポリス・ヘイスティング法の棄却補正 LightLDA :AliasLDAにcycle proposal を適用してもの 因数ごとに交互にサンプリングをする
  4. 3. 関連研究(SGRLD) 7 ・stochastic gradient Riemannian Langevin dynamics ミニバッチでのサンプリングを可能とするSGLDを単体上の 確率ベクトルへ拡張したもの

    ・ Langevin Monte Carlo を確率的勾配降下法に拡張したもの ・正規化されていない単語分布に相当するパラメータについて ミニバッチごとに次の式で更新を行う
  5. 3. 関連研究(SGRLD) 8 ∗ = + 2 − + +

    1 2 = � ∈ |,, [ − ] ステップサイズ = 1 + − , 正規化定数 , ノイズ コーパス全体のデータ , サブサンプルされたミニバッチデータ
  6. 11 5.1 実験設定 ・ベースライン:SGRLD ・提案手法:AliasSGRLD, LightSGRLD ・データセット:NIPS, NYTimes, PubMed ・ミニバッチのデータ数

    :24,000単語 ・イテレーション回数:200回, バーンイン回数:100回 ・ステップサイズ: =0.001, =10000, =0.6