Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介/ Bayesian Learning for Neural Dependency P...
Search
Atom
December 02, 2019
0
90
文献紹介/ Bayesian Learning for Neural Dependency Parsing
Atom
December 02, 2019
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
76
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
45
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
200
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
54
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
86
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
roraidolaurent
1
120
Featured
See All Featured
How STYLIGHT went responsive
nonsquared
95
5.2k
How GitHub (no longer) Works
holman
311
140k
Building Your Own Lightsaber
phodgson
103
6.1k
Statistics for Hackers
jakevdp
796
220k
Making the Leap to Tech Lead
cromwellryan
133
9k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
Optimising Largest Contentful Paint
csswizardry
33
3k
GraphQLとの向き合い方2022年版
quramy
44
13k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Transcript
Bayesian Learning for Neural Dependency Parsing 文献紹介 2019/12/02 長岡技術科学大学 自然言語処理研究室
吉澤 亜斗武
Abstract ・Neural Dependency Parsers に小規模なデータの際に ベイジアンニューラルネットが有効であることを示した. ・SGLDによるサンプリングにより計算コストを削減し 敵対的機構を用いてタスク干渉を抑えることにより改善. ・5k未満のトレーニングデータにおいてBiLSTMよりも 優れていることを示した.
2
1. Introduction ・ニューラルネットを用いた係り受け解析では大量で高品質な ラベル付きトレーニングデータを必要とし,コストが大きい ・DNNの最尤パラメータ推定は過剰適合のリスクがあり, パラメーターの不確実性を無視している. ・トレーニングデータが小規模な場合,この問題は顕著に表れる. 3
1. Introduction ・BNNのNLPへの適応のほとんどは,言語モデルであり, 係受け解析などの予測タスク用に開発されていない. ・この論文では初めてBNNPを提案し,SGLDによる サンプリングを用いることで推論のコストに対処. ・小規模なデータでも敵対的機構を用いたマルチタスク学習により 正確な予測を行えるようにする. 4
4.2 Adversarial Training 5 ・
3.1 Stochastic Gradient Langevin Dynamics 6 確率的勾配ランジュバン動力学(SGLD)を用いてステップごとに ミニバッチのロスの勾配の確率的推定値を計算
4.2 Adversarial Training 7 ・shard BiLSTM は入力語のタスクに依存しない表現をエンコード ・共有表現はtask discriminator に転送され,クロスエントロピー
ロスを計算し,shard BiLSTM を騙すように反対の符号で勾配の 信号を逆伝搬.
3.2 Preconditioned SGLD 8 SGLDは単一の学習率に依存しているため,パラメータ空間の 幾何的情報をRMSpropで求めて考慮するpSGLDを使用
3.1 Prediciton 9 ・生成された事後サンプルを使用して,モデル平均化により 確率の期待値が近似的に求まる. ・Bayes risk を最小化 (MBR) するようにアークファクター
分解と動的プログラミングによりスコア解析して構文木を推測
5.1 Experimental Setup 10 Mono-Lingual Experiments ペルシャ語(fa), 韓国語(ko), ロシア語(ru), トルコ語(tr),
ベトナム語(vi), アイルランド語(ga) SINGLE TASK BASE:BiLSTM [Kiperwasser and Goldberg (2016)] BASE++:Character BiLSTM + 2つのBiLSTM +SHARED ENSEMBLE:9つのSHAREDモデルのアンサンブル
5.1 Experimental Setup 11 +SHARED ENSEMBLE MAP:MLEでなくMAP +SGLD:+SHAREDにSGLDによるベイジアン学習を適用 +PRECOND:+SHAREDにpSGLDによるベイジアン学習を適用 MULTI
TASK BASEMT:共有BiLSTMを削除し,デコーダを以外をタスク間で 共有したmulti task architecture + ADV:敵対的トレーニングあり
5.1 Experimental Setup 12 Cross-Lingual Experiments trainとtest 英語(en), フランス語(fr), ロシア語(ru),
ペルシャ語(fa) testのみ クルド語(kmr), モンゴル語(bxr), 北部サーミ語(sme) モデル:SINGLE TASK (BASE++) MULTI TASK (+PRECOND)
5.1 Experimental Setup 13 評価基準 ・Labeled Attachment Score 係り先と関係ラベルがともに正しいトークンの割合 ・Kolmogorov-Smirnov
検定
5.2 Hyperparameters 14 連続ミニバッチ,330 epoch (early stopping) 学習率:0.01 to 0.001
(η = ( + )−, = 0.5) RMSprop:λ = 10−5, α = 0.99 BASE:125 hidden units, 100-D word embedding, 25-D POS embedding, Dropout rate 0.33 BASE++:200 hidden units +SHARED:200 hidden units, Dropout rate 0.66
5.3 Result – Mono-Lingual Parsing 15 SINGLE TASK +SGLD,+PRECONDがすべての 言語でBASEより統計的に有意
MULTI TASK +SHAREDではタスク間の干渉のため 下がるが,+ADVで上がる. +SGLDはトレーニングデータが 小さいほど有意.
5.3 Result – Cross-Lingual Delexicalized Parsing 16 同じ言語または言語ファミリー (bxrとru, faとkmr)の場合,
高いパフォーマンスを発揮 MULTI TASK (+PRECOND)は すべてにおいてパフォーマンス を改善.
5.3 Ablation Analysis 17
5.3 Ablation Analysis 18 ・ミニバッチのサイズを1文単位にすると,学習率が早い段階で に0に近づいていってしまう. 逆にデータセット全体で1つのバッチサイズとすると,LASが 上がるが統計的に有意な改善にはならない.
6 Conclusion 19 ・Neural Dependency Parsers のベイジアンフレームワーク (BNNP)を提案. ・SGLDを用いて最適化しながら事後サンプルを生成し, 構文木を生成する.
・BNNPをマルチタスク学習のフレームワークに統合することで 5つのlow-resource言語でCoNLL17 shared taskのbest system (BiAFFINE) で最大9%のLASの向上