Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介
Search
Atom
September 02, 2019
77
0
Share
文献紹介
Atom
September 02, 2019
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
110
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
110
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
67
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
2
2.9k
Graph Convolutional Networks
roraidolaurent
0
250
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
84
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
130
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
140
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
270
Featured
See All Featured
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
170
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
490
How to Ace a Technical Interview
jacobian
281
24k
Bash Introduction
62gerente
615
210k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
440
Evolving SEO for Evolving Search Engines
ryanjones
0
180
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
510
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
100
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
64
53k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
99
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Transcript
Bayesian Compression for Natural Language Processing 文献紹介 2019/9/2 長岡技術科学大学 自然言語処理研究室
吉澤 亜斗武
Abstract ・RNNのようなモデルは膨大なパラメータを必要とする. ・特に語彙の長さに比例してサイズが大きくなる埋め込み層に 大部分のパラメータが集中している. ・RNNのベイジアンスパース化を提案した. ・また,不要な単語を削除すことで,さらにRNNを圧縮し, 単語の選択について議論した. 2 Sparse VD
1. Introduction ・先行研究ではSparse Variational Dropout (Sparse VD) がある. ・RNNへの適用は調査されていない. ・自然言語処理のタスクでは語彙との関連がつよい最初の層
(埋め込み層)にRNNの重みの大部分が集中する. ・一部のタスクでは不要な単語が存在する場合があり, フィルタリングが必要 3
1. Introduction ・本論文では,Sparse VD をRNNに適合し,単語に重みをかけ, 語彙をスパース化させた. ・Sparse VDが大幅な品質の低下をなしに,大きなスパース性を もたらすことを示した. ・語彙のスパース化では,分類タスクでは圧縮率を高めますが,
言語モデルのタスクでは役に立たないことがわかった. 4
2. Related Work 5 ・先行研究では各ニューロンに対応するグループごとにLSTMの 重みを取り除くことを提案 ・ベイジアンNNでは重みはランダム変数として表され, 事前分布として表され,トレーニングで事後分布に変換される. ・ベイジアンスパース化はプルーニング手法と比較して, ハイパーパラメータの数が少なく,スパース性が高い.
・RNNの特徴を考慮してSparse VDを適応させる.
3.1 Notations 6 RNNについて
3.2 Sparse variational dropout for RNNs 7
3.2 Sparse variational dropout for RNNs 8
3.2 Sparse variational dropout for RNNs 9 reparametrization trick(積分を計算可能に) 先行研究では,local
reparametrization trickを用いているが, RNNでは時系列データを用いるため,厳密には使えない .
3.2 Sparse variational dropout for RNNs 10 reparametrization trick(積分を計算可能に) どのタイミングでサンプリングするかが問題になる.
先行研究では,local reparametrization trickを用いているが, RNNでは時系列データを用いるため,厳密には使えない .
3.2 Sparse variational dropout for RNNs 11 ・トレーニングの手順(ミニバッチ) (1)全ての重みをサンプリングして,通常通りRNNに適用 (2)Eq.(1)の勾配をθ,logσ,Bで計算.
・Eq.(2)より, θが極端に小さいものと,分散が大きいもの は0に近づき,スパース化される.
3.3 Multiplicative weights for vocabulary sparsification 12 ・ベイジアンスパース化の利点は,グループ(層)ごとの スパース化に拡張できる. ・入力のone-hot
ベクトルに確率的重み ∈ をかける ・ はミニバッチごとに重み同様に因子分解された正規分布で近似 ・トレーニング後, の要素が低いものをθとσの比率をもとに 削除し,その語彙に対応する単語を使用せず,重み行列から 該当する行を削除.
4 Experiments 13 ・テキスト分類のタスク ・IMDb:2値分類 ・AGNews:4クラス分類 頻度の高い20000語に両方のデータセットを揃える. ・言語モデリングのタスク ・Penn Treebankコーパス(Marcus
et al、1993) 文字レベル,単語レベル
4.1 Text Classification 14 ・品質を大幅に落とすことなく,圧縮率を高める ・分類には重要な単語のみを読めば良いことがわかる.
4.1 Text Classification 15 ・2値分類に重要そうな単語が残り,分類出来ている.
4.2 Language Modeling 16 ・文字は語彙数が少なく,すべて重要でありほとんど減らない ・単語においても,語彙数はスパース化しないほうが精度が高い.
5. Conclusions 17 ・Sparse VDをRNNに適用し,重みのθとσの比が一定以下の ものを重みを削除することで,品質を落とさずスパース化した ・分類タスクでは,かなり圧縮できたが,言語モデルのタスク では単語のほとんどが重要であり,語彙のスパース化はタスク を困難に品質の低下につながることがわかった.