Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Scable Inference of Topic Models by Stochastic Gradient MCMC

Atom
February 20, 2019
80

Scable Inference of Topic Models by Stochastic Gradient MCMC

文献紹介
<文献情報>
横井 創磨, 佐藤 一誠, 中川 裕志
人工知能学会誌 Vol.31 No.6 p.AI30-C_1-9, 2016

Atom

February 20, 2019
Tweet

More Decks by Atom

Transcript

  1. Stochastic Gradient MCMC による
    スケーラブルなトピックモデルの推定
    横井 創磨, 佐藤 一誠, 中川 裕志
    文献紹介
    2019/2/20
    長岡技術科学大学
    自然言語処理研究室 吉澤 亜斗武
    人工知能学会誌 Vol.31 No.6 p.AI30-C_1-9, 2016

    View Slide

  2. 1. 概要
    ・バッチ学習である周辺化ギブスサンプリング法(CGS)で提案
    されてきた効率的なサンプル方法をstochastic gradient
    MCMCに使うことで,データとトピックの両方にスケーラブ
    ルに対応した新しいトピックモデルの推定方法を提案
    ・バッチ学習における従来のMCMCのSotAよりも優れた効率・
    更新速度であることを実証した
    2

    View Slide

  3. 2. はじめに
    ・伝統的なMCMCではデータサイズとトピック数が大きい場合
    現実的な時間内にトピックモデルを推定できないという問題が
    あり,CGSを中心に改善が行われてきた.
    ・トピック数に関してはSparseLDA, AliasLDA, LightLDA など
    の手法が有効であると確認されている.
    ・データサイズに関しては,分割して計算を行った後に統合する
    という手法が提案されているが,収束が保証されない
    3

    View Slide

  4. 2. はじめに
    ・ stochastic gradient MCMC はオンライン変分ベイズ法よりも
    性能が良く,CGSが実行できないような大規模なデータにおい
    ても高速に実行が可能
    ・効率的なサンプル方法をstochastic gradient MCMC に最適化
    することで,データサイズ・トピック数ともにスケール可能な
    推定方法を提案
    4

    View Slide

  5. 3. 関連研究(Latent Dirichlet Allocation)
    5
    LDAにおける単語確率の生成過程
    (1) for トピック
    a 単語分布
    ~Dir()
    (2) for 文書
    a トピック分布
    ~Dir()
    b for 番目のトークン in 文書
    ⅰ. トピック
    ~Multi(
    )
    ⅱ. 単語
    ~Multi(
    )

    View Slide

  6. 3. 関連研究( SparseLDA, AliasLDA, LightLDA )
    6
    SparseLDA:トピック数が大きいほどスパース性が現れること
    を利用し,非ゼロのみを計算(CGSの改善)
    AliasLDA : SparseLDAにalias法とMH法を適用したもの
    前処理でalias table を作り,それによりサンプリング
    メトロポリス・ヘイスティング法の棄却補正
    LightLDA :AliasLDAにcycle proposal を適用してもの
    因数ごとに交互にサンプリングをする

    View Slide

  7. 3. 関連研究(SGRLD)
    7
    ・stochastic gradient Riemannian Langevin dynamics
    ミニバッチでのサンプリングを可能とするSGLDを単体上の
    確率ベクトルへ拡張したもの
    ・ Langevin Monte Carlo を確率的勾配降下法に拡張したもの
    ・正規化されていない単語分布に相当するパラメータについて
    ミニバッチごとに次の式で更新を行う

    View Slide

  8. 3. 関連研究(SGRLD)
    8

    ∗ =
    +

    2

    + +
    1
    2
    =




    |,,
    [


    ]
    ステップサイズ
    = 1 +


    , 正規化定数
    , ノイズ
    コーパス全体のデータ , サブサンプルされたミニバッチデータ

    View Slide

  9. ・AliasLDAとLightLDAをSGRLDに最適化した,
    AliasSGRLDとLightSGRLD を提案.
    ・提案手法はalias tableをイテレーションにおいて使いまわせる
    ことを理論的に示されたものであり,サンプル数を確保できる
    9
    4. 提案手法

    View Slide

  10. 10
    4. 提案手法
    :コーパスに含まれているトピック数

    :文書に含まれているトピック数

    View Slide

  11. 11
    5.1 実験設定
    ・ベースライン:SGRLD
    ・提案手法:AliasSGRLD, LightSGRLD
    ・データセット:NIPS, NYTimes, PubMed
    ・ミニバッチのデータ数
    :24,000単語
    ・イテレーション回数:200回, バーンイン回数:100回
    ・ステップサイズ: =0.001, =10000, =0.6

    View Slide

  12. 12
    5.1 実験設定

    View Slide

  13. 13
    5.1 実験設定

    View Slide

  14. 14
    5.1 実験設定
    ・学習の評価:
    コーパスから予め除外したテストデータを用いてperplexity
    (学習した単語確率とテストデータの単語頻度の相違の程度)
    によって評価
    perp = exp(−
    ∑𝑤𝑤𝑖𝑖
    log(𝑖𝑖
    |𝑡𝑡
    , , )

    )

    View Slide

  15. 15
    5.2 サンプルの有効性
    ・AliasSGRLDは棄却を行わずに
    正確な分布からサンプリングす
    るためSBRLDと一致する
    ・LightSGRLDは棄却により事後
    確率の勾配の精度は低い

    View Slide

  16. 16
    5.3 計算時間

    View Slide

  17. 17
    5.3 perplexity (1024 topics)

    View Slide

  18. 18
    5.3 perplexity (16384 topics)

    View Slide

  19. ・CGSで提案されてきた効率的なサンプル方法をstochastic
    gradient MCMCに使うことで,スケーラブルなトピックモデ
    ルの推定方法を提案
    ・提案手法は大規模コーパスかつトピックス数が大きい状況でも
    高速に実行可能
    ・特にAliasSGRLDは収束・更新速度ともに優れていることを
    確認した
    19
    6. まとめ

    View Slide