Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Scalable Bayesian Learning of Recurrent Neural ...
Search
Atom
November 11, 2019
1
120
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
文献紹介
Atom
November 11, 2019
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
77
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
47
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
210
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
56
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
87
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
96
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
It's Worth the Effort
3n
183
28k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
230
52k
Designing on Purpose - Digital PM Summit 2013
jponch
116
7.1k
How to Ace a Technical Interview
jacobian
276
23k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Practical Orchestrator
shlominoach
186
10k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.5k
BBQ
matthewcrist
85
9.4k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.4k
Transcript
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
文献紹介 2019/11/11 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武
Abstract ・確率的勾配マルコフ連鎖モンテカルロ法を用いて RNNの重みの不確実性を学習. ・勾配ノイズを追加することでパラメータ空間の探索を強化した ベイジアン学習アルゴリズムでトレーニング. ・さまざまな実験により,確率的最適化に対して提案手法の 優位性を示した. 2
1. Introduction ・通常のRNNは過剰適合が問題であり,ベイズ学習が導入し, 不確実性を組み込むことが提案さてきた. ・従来のHMC, MCMCは大規模なトレーニングデータに スケーラブルではない. ・この論文では,自然言語処理におけるビッグデータに対応する ために,RNNのベイズ学習にSG-MCMCを利用 3
1. Introduction SG-MCMCでニューラルネットワークをトレーニングする利点 (i) トレーニングの際にノイズを注入することで パラメータ空間をより探索するよう促す (ii) モデル平均化により過剰適合を軽減し,汎用性を改善 (iii)理論的な事後推定の収束を保証 (iv)SG-MCMCはスケーラブルであり,トレーニングにおいては
SGDと同レベルの計算コスト 4
2. Related Work 5 ・スケーラブルなベイジアン学習方法は大きく2つに別れていた ・確率的変分推論 ・SG-MCMC(RNNについてはほとんど研究されていない) ・ドロップアウトがミニバッチの変分近似推論にあたる ミニバッチの変分自由エネルギーの最小化(ELBO最大化) SG-MCMCでサンプリングで近似事後確率推定
4.1 The Pitfall of Stochastic Optimization 6 従来のMCMC(計算コスト軽減:確率的最適化MAP推定) SG-MCMC(後述のサンプリングで近似推定) ∝
= � =1
4.2 Large-scale Bayesian Learning 7
4.3 SG-MCMC Algorithms 8 SGD SGLD pSGLD:SGRLDの近似 フィッシャー情報逆行列を RMSpropで近似
4.4 Understanding SG-MCM 9 Dropout:ノードをマスク DropConnect:エッジ(重み)をマスク ここでは,ガウスノイズによるDropConnectを採用
5 Experiment 10 ・言語モデル,画像キャプション,文の分類を行う ・ドロップアウト率:0.5 ・NVIDIA GeForce GTX TITAN X
GPU with 12GB memory
5.1 Language Modeling 11 ・文字レベル データ:the War and Peace (WP)
novel training/validation/test : 260/32/33 batches 128次元,隠れ層2層のRNNを使用
5.1 Language Modeling 12 ・単語レベル データ:The Penn Treebank (PTB) corpus
training/validation/test : 929k/73k/10k words 2layer-LSTM:small/medium/large : 200/650/1500 units/layer 連続ミニバッチ :最終的な隠れ状態を次のミニバッチに使用 ランダムミニバッチ:初期の隠れ状態はゼロベクトル
5.1 Language Modeling 13
5.1 Language Modeling 14 ・小規模のLSTMではドロップアウトにより高いレベルのノイズが 入る可能性がある. ・中規模,大規模のLSTMにドロップアウトが有効であることが わかる.
5.1 Language Modeling 15
5.2 Image Caption Generation 16 画像の特徴を残差ネットワークで抽出し,条件付きRNNに入力 データセット:Flickr8k, Flickr30k 各画像に5つの文が注釈されいる モデル:単層LSTM,
512 hidden units
5.2 Image Caption Generation 17
5.2 Image Caption Generation 18 ・pSGLDがRMSprop(+Dropout)に比べて良い結果になり 優れた正則化を行っていることがわかる ・異なるモデルサンプルが 異なる側面を捉えていることが わかる.
5.3 Sentence Classification 19 データ:MR, CR, SUBJ, MPQA, TREC TRECのみ6class,
その他は2class 分類 モデル:単層双方向LSTM, 400 hidden units TREC以外,10-fold cross-validation TRECはtrain/test:5952/500
5.3 Sentence Classification 20
5.3 Sentence Classification 21 ・pSGLD+Dropout は訓練時ではパラメータ空間をより 探索しているため収束がおそいが,開発/テスト時は学習した 不確実性を用いて,過剰適合することなく低い誤差になる.
5.3 Sentence Classification 22
5.3 Sentence Classification 23 ・クラスの境界にある文を もってきても,単に本来の クラスターの誤差が小さい だけでなく,標準偏差も 小さい.
6 Conclusion 24 ・RNNにおいて重みの不確実性をモデル化するための SG-MCMCを使用したスケーラブルなベイジアン学習を提案 ・いくつかのタスクで確率的最適化アルゴリズム(RMSprop) よりも優れており,RNNにおける不確実性の学習の重要性 を示した.