Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

7b478cab8e68f81b1f6830077b6649ca?s=47 Atom
November 11, 2019
39

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

文献紹介

7b478cab8e68f81b1f6830077b6649ca?s=128

Atom

November 11, 2019
Tweet

Transcript

  1. Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

    文献紹介 2019/11/11 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武
  2. Abstract ・確率的勾配マルコフ連鎖モンテカルロ法を用いて RNNの重みの不確実性を学習. ・勾配ノイズを追加することでパラメータ空間の探索を強化した ベイジアン学習アルゴリズムでトレーニング. ・さまざまな実験により,確率的最適化に対して提案手法の 優位性を示した. 2

  3. 1. Introduction ・通常のRNNは過剰適合が問題であり,ベイズ学習が導入し, 不確実性を組み込むことが提案さてきた. ・従来のHMC, MCMCは大規模なトレーニングデータに スケーラブルではない. ・この論文では,自然言語処理におけるビッグデータに対応する ために,RNNのベイズ学習にSG-MCMCを利用 3

  4. 1. Introduction SG-MCMCでニューラルネットワークをトレーニングする利点 (i) トレーニングの際にノイズを注入することで パラメータ空間をより探索するよう促す (ii) モデル平均化により過剰適合を軽減し,汎用性を改善 (iii)理論的な事後推定の収束を保証 (iv)SG-MCMCはスケーラブルであり,トレーニングにおいては

    SGDと同レベルの計算コスト 4
  5. 2. Related Work 5 ・スケーラブルなベイジアン学習方法は大きく2つに別れていた ・確率的変分推論 ・SG-MCMC(RNNについてはほとんど研究されていない) ・ドロップアウトがミニバッチの変分近似推論にあたる ミニバッチの変分自由エネルギーの最小化(ELBO最大化) SG-MCMCでサンプリングで近似事後確率推定

  6. 4.1 The Pitfall of Stochastic Optimization 6 従来のMCMC(計算コスト軽減:確率的最適化MAP推定) SG-MCMC(後述のサンプリングで近似推定) ∝

    = � =1
  7. 4.2 Large-scale Bayesian Learning 7

  8. 4.3 SG-MCMC Algorithms 8 SGD SGLD pSGLD:SGRLDの近似 フィッシャー情報逆行列を RMSpropで近似

  9. 4.4 Understanding SG-MCM 9 Dropout:ノードをマスク DropConnect:エッジ(重み)をマスク ここでは,ガウスノイズによるDropConnectを採用

  10. 5 Experiment 10 ・言語モデル,画像キャプション,文の分類を行う ・ドロップアウト率:0.5 ・NVIDIA GeForce GTX TITAN X

    GPU with 12GB memory
  11. 5.1 Language Modeling 11 ・文字レベル データ:the War and Peace (WP)

    novel training/validation/test : 260/32/33 batches 128次元,隠れ層2層のRNNを使用
  12. 5.1 Language Modeling 12 ・単語レベル データ:The Penn Treebank (PTB) corpus

    training/validation/test : 929k/73k/10k words 2layer-LSTM:small/medium/large : 200/650/1500 units/layer 連続ミニバッチ :最終的な隠れ状態を次のミニバッチに使用 ランダムミニバッチ:初期の隠れ状態はゼロベクトル
  13. 5.1 Language Modeling 13

  14. 5.1 Language Modeling 14 ・小規模のLSTMではドロップアウトにより高いレベルのノイズが 入る可能性がある. ・中規模,大規模のLSTMにドロップアウトが有効であることが わかる.

  15. 5.1 Language Modeling 15

  16. 5.2 Image Caption Generation 16 画像の特徴を残差ネットワークで抽出し,条件付きRNNに入力 データセット:Flickr8k, Flickr30k 各画像に5つの文が注釈されいる モデル:単層LSTM,

    512 hidden units
  17. 5.2 Image Caption Generation 17

  18. 5.2 Image Caption Generation 18 ・pSGLDがRMSprop(+Dropout)に比べて良い結果になり 優れた正則化を行っていることがわかる ・異なるモデルサンプルが 異なる側面を捉えていることが わかる.

  19. 5.3 Sentence Classification 19 データ:MR, CR, SUBJ, MPQA, TREC TRECのみ6class,

    その他は2class 分類 モデル:単層双方向LSTM, 400 hidden units TREC以外,10-fold cross-validation TRECはtrain/test:5952/500
  20. 5.3 Sentence Classification 20

  21. 5.3 Sentence Classification 21 ・pSGLD+Dropout は訓練時ではパラメータ空間をより 探索しているため収束がおそいが,開発/テスト時は学習した 不確実性を用いて,過剰適合することなく低い誤差になる.

  22. 5.3 Sentence Classification 22

  23. 5.3 Sentence Classification 23 ・クラスの境界にある文を もってきても,単に本来の クラスターの誤差が小さい だけでなく,標準偏差も 小さい.

  24. 6 Conclusion 24 ・RNNにおいて重みの不確実性をモデル化するための SG-MCMCを使用したスケーラブルなベイジアン学習を提案 ・いくつかのタスクで確率的最適化アルゴリズム(RMSprop) よりも優れており,RNNにおける不確実性の学習の重要性 を示した.