Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介/ Bayesian Learning for Neural Dependency P...
Search
Atom
December 02, 2019
0
110
文献紹介/ Bayesian Learning for Neural Dependency Parsing
Atom
December 02, 2019
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
88
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
92
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
55
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.8k
Graph Convolutional Networks
roraidolaurent
0
230
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
64
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
96
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
210
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
roraidolaurent
1
140
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
71
4.8k
The Language of Interfaces
destraynor
158
25k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.5k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
750
YesSQL, Process and Tooling at Scale
rocio
172
14k
Docker and Python
trallard
44
3.4k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.6k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
Rebuilding a faster, lazier Slack
samanthasiow
81
9k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
850
Transcript
Bayesian Learning for Neural Dependency Parsing 文献紹介 2019/12/02 長岡技術科学大学 自然言語処理研究室
吉澤 亜斗武
Abstract ・Neural Dependency Parsers に小規模なデータの際に ベイジアンニューラルネットが有効であることを示した. ・SGLDによるサンプリングにより計算コストを削減し 敵対的機構を用いてタスク干渉を抑えることにより改善. ・5k未満のトレーニングデータにおいてBiLSTMよりも 優れていることを示した.
2
1. Introduction ・ニューラルネットを用いた係り受け解析では大量で高品質な ラベル付きトレーニングデータを必要とし,コストが大きい ・DNNの最尤パラメータ推定は過剰適合のリスクがあり, パラメーターの不確実性を無視している. ・トレーニングデータが小規模な場合,この問題は顕著に表れる. 3
1. Introduction ・BNNのNLPへの適応のほとんどは,言語モデルであり, 係受け解析などの予測タスク用に開発されていない. ・この論文では初めてBNNPを提案し,SGLDによる サンプリングを用いることで推論のコストに対処. ・小規模なデータでも敵対的機構を用いたマルチタスク学習により 正確な予測を行えるようにする. 4
4.2 Adversarial Training 5 ・
3.1 Stochastic Gradient Langevin Dynamics 6 確率的勾配ランジュバン動力学(SGLD)を用いてステップごとに ミニバッチのロスの勾配の確率的推定値を計算
4.2 Adversarial Training 7 ・shard BiLSTM は入力語のタスクに依存しない表現をエンコード ・共有表現はtask discriminator に転送され,クロスエントロピー
ロスを計算し,shard BiLSTM を騙すように反対の符号で勾配の 信号を逆伝搬.
3.2 Preconditioned SGLD 8 SGLDは単一の学習率に依存しているため,パラメータ空間の 幾何的情報をRMSpropで求めて考慮するpSGLDを使用
3.1 Prediciton 9 ・生成された事後サンプルを使用して,モデル平均化により 確率の期待値が近似的に求まる. ・Bayes risk を最小化 (MBR) するようにアークファクター
分解と動的プログラミングによりスコア解析して構文木を推測
5.1 Experimental Setup 10 Mono-Lingual Experiments ペルシャ語(fa), 韓国語(ko), ロシア語(ru), トルコ語(tr),
ベトナム語(vi), アイルランド語(ga) SINGLE TASK BASE:BiLSTM [Kiperwasser and Goldberg (2016)] BASE++:Character BiLSTM + 2つのBiLSTM +SHARED ENSEMBLE:9つのSHAREDモデルのアンサンブル
5.1 Experimental Setup 11 +SHARED ENSEMBLE MAP:MLEでなくMAP +SGLD:+SHAREDにSGLDによるベイジアン学習を適用 +PRECOND:+SHAREDにpSGLDによるベイジアン学習を適用 MULTI
TASK BASEMT:共有BiLSTMを削除し,デコーダを以外をタスク間で 共有したmulti task architecture + ADV:敵対的トレーニングあり
5.1 Experimental Setup 12 Cross-Lingual Experiments trainとtest 英語(en), フランス語(fr), ロシア語(ru),
ペルシャ語(fa) testのみ クルド語(kmr), モンゴル語(bxr), 北部サーミ語(sme) モデル:SINGLE TASK (BASE++) MULTI TASK (+PRECOND)
5.1 Experimental Setup 13 評価基準 ・Labeled Attachment Score 係り先と関係ラベルがともに正しいトークンの割合 ・Kolmogorov-Smirnov
検定
5.2 Hyperparameters 14 連続ミニバッチ,330 epoch (early stopping) 学習率:0.01 to 0.001
(η = ( + )−, = 0.5) RMSprop:λ = 10−5, α = 0.99 BASE:125 hidden units, 100-D word embedding, 25-D POS embedding, Dropout rate 0.33 BASE++:200 hidden units +SHARED:200 hidden units, Dropout rate 0.66
5.3 Result – Mono-Lingual Parsing 15 SINGLE TASK +SGLD,+PRECONDがすべての 言語でBASEより統計的に有意
MULTI TASK +SHAREDではタスク間の干渉のため 下がるが,+ADVで上がる. +SGLDはトレーニングデータが 小さいほど有意.
5.3 Result – Cross-Lingual Delexicalized Parsing 16 同じ言語または言語ファミリー (bxrとru, faとkmr)の場合,
高いパフォーマンスを発揮 MULTI TASK (+PRECOND)は すべてにおいてパフォーマンス を改善.
5.3 Ablation Analysis 17
5.3 Ablation Analysis 18 ・ミニバッチのサイズを1文単位にすると,学習率が早い段階で に0に近づいていってしまう. 逆にデータセット全体で1つのバッチサイズとすると,LASが 上がるが統計的に有意な改善にはならない.
6 Conclusion 19 ・Neural Dependency Parsers のベイジアンフレームワーク (BNNP)を提案. ・SGLDを用いて最適化しながら事後サンプルを生成し, 構文木を生成する.
・BNNPをマルチタスク学習のフレームワークに統合することで 5つのlow-resource言語でCoNLL17 shared taskのbest system (BiAFFINE) で最大9%のLASの向上