$30 off During Our Annual Pro Sale. View details »

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

Atom
November 11, 2019
75

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

文献紹介

Atom

November 11, 2019
Tweet

More Decks by Atom

Transcript

  1. Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

    文献紹介 2019/11/11 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武
  2. Abstract ・確率的勾配マルコフ連鎖モンテカルロ法を用いて RNNの重みの不確実性を学習. ・勾配ノイズを追加することでパラメータ空間の探索を強化した ベイジアン学習アルゴリズムでトレーニング. ・さまざまな実験により,確率的最適化に対して提案手法の 優位性を示した. 2

  3. 1. Introduction ・通常のRNNは過剰適合が問題であり,ベイズ学習が導入し, 不確実性を組み込むことが提案さてきた. ・従来のHMC, MCMCは大規模なトレーニングデータに スケーラブルではない. ・この論文では,自然言語処理におけるビッグデータに対応する ために,RNNのベイズ学習にSG-MCMCを利用 3

  4. 1. Introduction SG-MCMCでニューラルネットワークをトレーニングする利点 (i) トレーニングの際にノイズを注入することで パラメータ空間をより探索するよう促す (ii) モデル平均化により過剰適合を軽減し,汎用性を改善 (iii)理論的な事後推定の収束を保証 (iv)SG-MCMCはスケーラブルであり,トレーニングにおいては

    SGDと同レベルの計算コスト 4
  5. 2. Related Work 5 ・スケーラブルなベイジアン学習方法は大きく2つに別れていた ・確率的変分推論 ・SG-MCMC(RNNについてはほとんど研究されていない) ・ドロップアウトがミニバッチの変分近似推論にあたる ミニバッチの変分自由エネルギーの最小化(ELBO最大化) SG-MCMCでサンプリングで近似事後確率推定

  6. 4.1 The Pitfall of Stochastic Optimization 6 従来のMCMC(計算コスト軽減:確率的最適化MAP推定) SG-MCMC(後述のサンプリングで近似推定) ∝

    = � =1
  7. 4.2 Large-scale Bayesian Learning 7

  8. 4.3 SG-MCMC Algorithms 8 SGD SGLD pSGLD:SGRLDの近似 フィッシャー情報逆行列を RMSpropで近似

  9. 4.4 Understanding SG-MCM 9 Dropout:ノードをマスク DropConnect:エッジ(重み)をマスク ここでは,ガウスノイズによるDropConnectを採用

  10. 5 Experiment 10 ・言語モデル,画像キャプション,文の分類を行う ・ドロップアウト率:0.5 ・NVIDIA GeForce GTX TITAN X

    GPU with 12GB memory
  11. 5.1 Language Modeling 11 ・文字レベル データ:the War and Peace (WP)

    novel training/validation/test : 260/32/33 batches 128次元,隠れ層2層のRNNを使用
  12. 5.1 Language Modeling 12 ・単語レベル データ:The Penn Treebank (PTB) corpus

    training/validation/test : 929k/73k/10k words 2layer-LSTM:small/medium/large : 200/650/1500 units/layer 連続ミニバッチ :最終的な隠れ状態を次のミニバッチに使用 ランダムミニバッチ:初期の隠れ状態はゼロベクトル
  13. 5.1 Language Modeling 13

  14. 5.1 Language Modeling 14 ・小規模のLSTMではドロップアウトにより高いレベルのノイズが 入る可能性がある. ・中規模,大規模のLSTMにドロップアウトが有効であることが わかる.

  15. 5.1 Language Modeling 15

  16. 5.2 Image Caption Generation 16 画像の特徴を残差ネットワークで抽出し,条件付きRNNに入力 データセット:Flickr8k, Flickr30k 各画像に5つの文が注釈されいる モデル:単層LSTM,

    512 hidden units
  17. 5.2 Image Caption Generation 17

  18. 5.2 Image Caption Generation 18 ・pSGLDがRMSprop(+Dropout)に比べて良い結果になり 優れた正則化を行っていることがわかる ・異なるモデルサンプルが 異なる側面を捉えていることが わかる.

  19. 5.3 Sentence Classification 19 データ:MR, CR, SUBJ, MPQA, TREC TRECのみ6class,

    その他は2class 分類 モデル:単層双方向LSTM, 400 hidden units TREC以外,10-fold cross-validation TRECはtrain/test:5952/500
  20. 5.3 Sentence Classification 20

  21. 5.3 Sentence Classification 21 ・pSGLD+Dropout は訓練時ではパラメータ空間をより 探索しているため収束がおそいが,開発/テスト時は学習した 不確実性を用いて,過剰適合することなく低い誤差になる.

  22. 5.3 Sentence Classification 22

  23. 5.3 Sentence Classification 23 ・クラスの境界にある文を もってきても,単に本来の クラスターの誤差が小さい だけでなく,標準偏差も 小さい.

  24. 6 Conclusion 24 ・RNNにおいて重みの不確実性をモデル化するための SG-MCMCを使用したスケーラブルなベイジアン学習を提案 ・いくつかのタスクで確率的最適化アルゴリズム(RMSprop) よりも優れており,RNNにおける不確実性の学習の重要性 を示した.