Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
文献紹介 2019/11/11 長岡技術科学大学自然言語処理研究室吉澤亜斗武

Abstract ・確率的勾配マルコフ連鎖モンテカルロ法を用いて RNNの重みの不確実性を学習．・勾配ノイズを追加することでパラメータ空間の探索を強化したベイジアン学習アルゴリズムでトレーニング．・さまざまな実験により，確率的最適化に対して提案手法の優位性を示した． 2

1. Introduction ・通常のRNNは過剰適合が問題であり，ベイズ学習が導入し，不確実性を組み込むことが提案さてきた．・従来のHMC, MCMCは大規模なトレーニングデータにスケーラブルではない．・この論文では，自然言語処理におけるビッグデータに対応するために，RNNのベイズ学習にSG-MCMCを利用 3

1. Introduction SG-MCMCでニューラルネットワークをトレーニングする利点 (i) トレーニングの際にノイズを注入することでパラメータ空間をより探索するよう促す (ii) モデル平均化により過剰適合を軽減し，汎用性を改善 (iii)理論的な事後推定の収束を保証 (iv)SG-MCMCはスケーラブルであり，トレーニングにおいては
SGDと同レベルの計算コスト 4

2. Related Work 5 ・スケーラブルなベイジアン学習方法は大きく2つに別れていた・確率的変分推論・SG-MCMC（RNNについてはほとんど研究されていない）・ドロップアウトがミニバッチの変分近似推論にあたるミニバッチの変分自由エネルギーの最小化（ELBO最大化） SG-MCMCでサンプリングで近似事後確率推定

4.1 The Pitfall of Stochastic Optimization 6 従来のMCMC（計算コスト軽減：確率的最適化MAP推定） SG-MCMC（後述のサンプリングで近似推定） ∝
= � =1

4.2 Large-scale Bayesian Learning 7

4.3 SG-MCMC Algorithms 8 SGD SGLD pSGLD：SGRLDの近似フィッシャー情報逆行列を RMSpropで近似

4.4 Understanding SG-MCM 9 Dropout：ノードをマスク DropConnect：エッジ（重み）をマスクここでは，ガウスノイズによるDropConnectを採用

5 Experiment 10 ・言語モデル，画像キャプション，文の分類を行う・ドロップアウト率：0.5 ・NVIDIA GeForce GTX TITAN X
GPU with 12GB memory

5.1 Language Modeling 11 ・文字レベルデータ：the War and Peace (WP)
novel training/validation/test : 260/32/33 batches 128次元，隠れ層2層のRNNを使用

5.1 Language Modeling 12 ・単語レベルデータ：The Penn Treebank (PTB) corpus
training/validation/test : 929k/73k/10k words 2layer-LSTM：small/medium/large : 200/650/1500 units/layer 連続ミニバッチ：最終的な隠れ状態を次のミニバッチに使用ランダムミニバッチ：初期の隠れ状態はゼロベクトル

5.1 Language Modeling 13

5.1 Language Modeling 14 ・小規模のLSTMではドロップアウトにより高いレベルのノイズが入る可能性がある．・中規模，大規模のLSTMにドロップアウトが有効であることがわかる．

5.1 Language Modeling 15

5.2 Image Caption Generation 16 画像の特徴を残差ネットワークで抽出し，条件付きRNNに入力データセット：Flickr8k, Flickr30k 各画像に5つの文が注釈されいるモデル：単層LSTM,
512 hidden units

5.2 Image Caption Generation 17

5.2 Image Caption Generation 18 ・pSGLDがRMSprop（+Dropout）に比べて良い結果になり優れた正則化を行っていることがわかる・異なるモデルサンプルが異なる側面を捉えていることがわかる．

5.3 Sentence Classification 19 データ：MR, CR, SUBJ, MPQA, TREC TRECのみ6class,
その他は2class 分類モデル：単層双方向LSTM, 400 hidden units TREC以外，10-fold cross-validation TRECはtrain/test：5952/500

5.3 Sentence Classification 20

5.3 Sentence Classification 21 ・pSGLD+Dropout は訓練時ではパラメータ空間をより探索しているため収束がおそいが，開発/テスト時は学習した不確実性を用いて，過剰適合することなく低い誤差になる．

5.3 Sentence Classification 22

5.3 Sentence Classification 23 ・クラスの境界にある文をもってきても，単に本来のクラスターの誤差が小さいだけでなく，標準偏差も小さい．

6 Conclusion 24 ・RNNにおいて重みの不確実性をモデル化するための SG-MCMCを使用したスケーラブルなベイジアン学習を提案・いくつかのタスクで確率的最適化アルゴリズム（RMSprop）よりも優れており，RNNにおける不確実性の学習の重要性を示した．

Scalable Bayesian Learning of Recurrent Neural ...

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

Atom

More Decks by Atom

Featured

Transcript