Slide 1

Slide 1 text

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling 文献紹介 2019/11/11 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武

Slide 2

Slide 2 text

Abstract ・確率的勾配マルコフ連鎖モンテカルロ法を用いて RNNの重みの不確実性を学習. ・勾配ノイズを追加することでパラメータ空間の探索を強化した ベイジアン学習アルゴリズムでトレーニング. ・さまざまな実験により,確率的最適化に対して提案手法の 優位性を示した. 2

Slide 3

Slide 3 text

1. Introduction ・通常のRNNは過剰適合が問題であり,ベイズ学習が導入し, 不確実性を組み込むことが提案さてきた. ・従来のHMC, MCMCは大規模なトレーニングデータに スケーラブルではない. ・この論文では,自然言語処理におけるビッグデータに対応する ために,RNNのベイズ学習にSG-MCMCを利用 3

Slide 4

Slide 4 text

1. Introduction SG-MCMCでニューラルネットワークをトレーニングする利点 (i) トレーニングの際にノイズを注入することで パラメータ空間をより探索するよう促す (ii) モデル平均化により過剰適合を軽減し,汎用性を改善 (iii)理論的な事後推定の収束を保証 (iv)SG-MCMCはスケーラブルであり,トレーニングにおいては SGDと同レベルの計算コスト 4

Slide 5

Slide 5 text

2. Related Work 5 ・スケーラブルなベイジアン学習方法は大きく2つに別れていた ・確率的変分推論 ・SG-MCMC(RNNについてはほとんど研究されていない) ・ドロップアウトがミニバッチの変分近似推論にあたる ミニバッチの変分自由エネルギーの最小化(ELBO最大化) SG-MCMCでサンプリングで近似事後確率推定

Slide 6

Slide 6 text

4.1 The Pitfall of Stochastic Optimization 6 従来のMCMC(計算コスト軽減:確率的最適化MAP推定) SG-MCMC(後述のサンプリングで近似推定) ∝ = � =1

Slide 7

Slide 7 text

4.2 Large-scale Bayesian Learning 7

Slide 8

Slide 8 text

4.3 SG-MCMC Algorithms 8 SGD SGLD pSGLD:SGRLDの近似 フィッシャー情報逆行列を RMSpropで近似

Slide 9

Slide 9 text

4.4 Understanding SG-MCM 9 Dropout:ノードをマスク DropConnect:エッジ(重み)をマスク ここでは,ガウスノイズによるDropConnectを採用

Slide 10

Slide 10 text

5 Experiment 10 ・言語モデル,画像キャプション,文の分類を行う ・ドロップアウト率:0.5 ・NVIDIA GeForce GTX TITAN X GPU with 12GB memory

Slide 11

Slide 11 text

5.1 Language Modeling 11 ・文字レベル データ:the War and Peace (WP) novel training/validation/test : 260/32/33 batches 128次元,隠れ層2層のRNNを使用

Slide 12

Slide 12 text

5.1 Language Modeling 12 ・単語レベル データ:The Penn Treebank (PTB) corpus training/validation/test : 929k/73k/10k words 2layer-LSTM:small/medium/large : 200/650/1500 units/layer 連続ミニバッチ :最終的な隠れ状態を次のミニバッチに使用 ランダムミニバッチ:初期の隠れ状態はゼロベクトル

Slide 13

Slide 13 text

5.1 Language Modeling 13

Slide 14

Slide 14 text

5.1 Language Modeling 14 ・小規模のLSTMではドロップアウトにより高いレベルのノイズが 入る可能性がある. ・中規模,大規模のLSTMにドロップアウトが有効であることが わかる.

Slide 15

Slide 15 text

5.1 Language Modeling 15

Slide 16

Slide 16 text

5.2 Image Caption Generation 16 画像の特徴を残差ネットワークで抽出し,条件付きRNNに入力 データセット:Flickr8k, Flickr30k 各画像に5つの文が注釈されいる モデル:単層LSTM, 512 hidden units

Slide 17

Slide 17 text

5.2 Image Caption Generation 17

Slide 18

Slide 18 text

5.2 Image Caption Generation 18 ・pSGLDがRMSprop(+Dropout)に比べて良い結果になり 優れた正則化を行っていることがわかる ・異なるモデルサンプルが 異なる側面を捉えていることが わかる.

Slide 19

Slide 19 text

5.3 Sentence Classification 19 データ:MR, CR, SUBJ, MPQA, TREC TRECのみ6class, その他は2class 分類 モデル:単層双方向LSTM, 400 hidden units TREC以外,10-fold cross-validation TRECはtrain/test:5952/500

Slide 20

Slide 20 text

5.3 Sentence Classification 20

Slide 21

Slide 21 text

5.3 Sentence Classification 21 ・pSGLD+Dropout は訓練時ではパラメータ空間をより 探索しているため収束がおそいが,開発/テスト時は学習した 不確実性を用いて,過剰適合することなく低い誤差になる.

Slide 22

Slide 22 text

5.3 Sentence Classification 22

Slide 23

Slide 23 text

5.3 Sentence Classification 23 ・クラスの境界にある文を もってきても,単に本来の クラスターの誤差が小さい だけでなく,標準偏差も 小さい.

Slide 24

Slide 24 text

6 Conclusion 24 ・RNNにおいて重みの不確実性をモデル化するための SG-MCMCを使用したスケーラブルなベイジアン学習を提案 ・いくつかのタスクで確率的最適化アルゴリズム(RMSprop) よりも優れており,RNNにおける不確実性の学習の重要性 を示した.