Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Scalable Bayesian Learning of Recurrent Neural ...
Search
Atom
November 11, 2019
1
120
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
文献紹介
Atom
November 11, 2019
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
76
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
45
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
200
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
54
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
86
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
90
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Featured
See All Featured
Designing for Performance
lara
604
68k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
A Modern Web Designer's Workflow
chriscoyier
693
190k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.4k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Transcript
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
文献紹介 2019/11/11 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武
Abstract ・確率的勾配マルコフ連鎖モンテカルロ法を用いて RNNの重みの不確実性を学習. ・勾配ノイズを追加することでパラメータ空間の探索を強化した ベイジアン学習アルゴリズムでトレーニング. ・さまざまな実験により,確率的最適化に対して提案手法の 優位性を示した. 2
1. Introduction ・通常のRNNは過剰適合が問題であり,ベイズ学習が導入し, 不確実性を組み込むことが提案さてきた. ・従来のHMC, MCMCは大規模なトレーニングデータに スケーラブルではない. ・この論文では,自然言語処理におけるビッグデータに対応する ために,RNNのベイズ学習にSG-MCMCを利用 3
1. Introduction SG-MCMCでニューラルネットワークをトレーニングする利点 (i) トレーニングの際にノイズを注入することで パラメータ空間をより探索するよう促す (ii) モデル平均化により過剰適合を軽減し,汎用性を改善 (iii)理論的な事後推定の収束を保証 (iv)SG-MCMCはスケーラブルであり,トレーニングにおいては
SGDと同レベルの計算コスト 4
2. Related Work 5 ・スケーラブルなベイジアン学習方法は大きく2つに別れていた ・確率的変分推論 ・SG-MCMC(RNNについてはほとんど研究されていない) ・ドロップアウトがミニバッチの変分近似推論にあたる ミニバッチの変分自由エネルギーの最小化(ELBO最大化) SG-MCMCでサンプリングで近似事後確率推定
4.1 The Pitfall of Stochastic Optimization 6 従来のMCMC(計算コスト軽減:確率的最適化MAP推定) SG-MCMC(後述のサンプリングで近似推定) ∝
= � =1
4.2 Large-scale Bayesian Learning 7
4.3 SG-MCMC Algorithms 8 SGD SGLD pSGLD:SGRLDの近似 フィッシャー情報逆行列を RMSpropで近似
4.4 Understanding SG-MCM 9 Dropout:ノードをマスク DropConnect:エッジ(重み)をマスク ここでは,ガウスノイズによるDropConnectを採用
5 Experiment 10 ・言語モデル,画像キャプション,文の分類を行う ・ドロップアウト率:0.5 ・NVIDIA GeForce GTX TITAN X
GPU with 12GB memory
5.1 Language Modeling 11 ・文字レベル データ:the War and Peace (WP)
novel training/validation/test : 260/32/33 batches 128次元,隠れ層2層のRNNを使用
5.1 Language Modeling 12 ・単語レベル データ:The Penn Treebank (PTB) corpus
training/validation/test : 929k/73k/10k words 2layer-LSTM:small/medium/large : 200/650/1500 units/layer 連続ミニバッチ :最終的な隠れ状態を次のミニバッチに使用 ランダムミニバッチ:初期の隠れ状態はゼロベクトル
5.1 Language Modeling 13
5.1 Language Modeling 14 ・小規模のLSTMではドロップアウトにより高いレベルのノイズが 入る可能性がある. ・中規模,大規模のLSTMにドロップアウトが有効であることが わかる.
5.1 Language Modeling 15
5.2 Image Caption Generation 16 画像の特徴を残差ネットワークで抽出し,条件付きRNNに入力 データセット:Flickr8k, Flickr30k 各画像に5つの文が注釈されいる モデル:単層LSTM,
512 hidden units
5.2 Image Caption Generation 17
5.2 Image Caption Generation 18 ・pSGLDがRMSprop(+Dropout)に比べて良い結果になり 優れた正則化を行っていることがわかる ・異なるモデルサンプルが 異なる側面を捉えていることが わかる.
5.3 Sentence Classification 19 データ:MR, CR, SUBJ, MPQA, TREC TRECのみ6class,
その他は2class 分類 モデル:単層双方向LSTM, 400 hidden units TREC以外,10-fold cross-validation TRECはtrain/test:5952/500
5.3 Sentence Classification 20
5.3 Sentence Classification 21 ・pSGLD+Dropout は訓練時ではパラメータ空間をより 探索しているため収束がおそいが,開発/テスト時は学習した 不確実性を用いて,過剰適合することなく低い誤差になる.
5.3 Sentence Classification 22
5.3 Sentence Classification 23 ・クラスの境界にある文を もってきても,単に本来の クラスターの誤差が小さい だけでなく,標準偏差も 小さい.
6 Conclusion 24 ・RNNにおいて重みの不確実性をモデル化するための SG-MCMCを使用したスケーラブルなベイジアン学習を提案 ・いくつかのタスクで確率的最適化アルゴリズム(RMSprop) よりも優れており,RNNにおける不確実性の学習の重要性 を示した.