文献紹介/ Bayesian Learning for Neural Dependency Parsing

Bayesian Learning for Neural Dependency Parsing 文献紹介 2019/12/02 長岡技術科学大学自然言語処理研究室
吉澤亜斗武

Abstract ・Neural Dependency Parsers に小規模なデータの際にベイジアンニューラルネットが有効であることを示した．・SGLDによるサンプリングにより計算コストを削減し敵対的機構を用いてタスク干渉を抑えることにより改善．・5k未満のトレーニングデータにおいてBiLSTMよりも優れていることを示した．
2

1. Introduction ・ニューラルネットを用いた係り受け解析では大量で高品質なラベル付きトレーニングデータを必要とし，コストが大きい・DNNの最尤パラメータ推定は過剰適合のリスクがあり，パラメーターの不確実性を無視している．・トレーニングデータが小規模な場合，この問題は顕著に表れる． 3

1. Introduction ・BNNのNLPへの適応のほとんどは，言語モデルであり，係受け解析などの予測タスク用に開発されていない．・この論文では初めてBNNPを提案し，SGLDによるサンプリングを用いることで推論のコストに対処．・小規模なデータでも敵対的機構を用いたマルチタスク学習により正確な予測を行えるようにする． 4

4.2 Adversarial Training 5 ・

3.1 Stochastic Gradient Langevin Dynamics 6 確率的勾配ランジュバン動力学(SGLD)を用いてステップごとにミニバッチのロスの勾配の確率的推定値を計算

4.2 Adversarial Training 7 ・shard BiLSTM は入力語のタスクに依存しない表現をエンコード・共有表現はtask discriminator に転送され，クロスエントロピー
ロスを計算し，shard BiLSTM を騙すように反対の符号で勾配の信号を逆伝搬．

3.2 Preconditioned SGLD 8 SGLDは単一の学習率に依存しているため，パラメータ空間の幾何的情報をRMSpropで求めて考慮するpSGLDを使用

3.1 Prediciton 9 ・生成された事後サンプルを使用して，モデル平均化により確率の期待値が近似的に求まる．・Bayes risk を最小化 (MBR) するようにアークファクター
分解と動的プログラミングによりスコア解析して構文木を推測

5.1 Experimental Setup 10 Mono-Lingual Experiments ペルシャ語（fa）, 韓国語（ko）, ロシア語（ru）, トルコ語（tr）,
ベトナム語（vi）, アイルランド語（ga） SINGLE TASK BASE：BiLSTM [Kiperwasser and Goldberg (2016)] BASE++：Character BiLSTM + 2つのBiLSTM +SHARED ENSEMBLE：9つのSHAREDモデルのアンサンブル

5.1 Experimental Setup 11 +SHARED ENSEMBLE MAP：MLEでなくMAP ＋SGLD：+SHAREDにSGLDによるベイジアン学習を適用＋PRECOND：+SHAREDにpSGLDによるベイジアン学習を適用 MULTI
TASK BASEMT：共有BiLSTMを削除し，デコーダを以外をタスク間で共有したmulti task architecture + ADV：敵対的トレーニングあり

5.1 Experimental Setup 12 Cross-Lingual Experiments trainとtest 英語（en）, フランス語（fr）, ロシア語（ru）,
ペルシャ語（fa） testのみクルド語（kmr）, モンゴル語（bxr）, 北部サーミ語（sme）モデル：SINGLE TASK (BASE++) MULTI TASK (+PRECOND)

5.1 Experimental Setup 13 評価基準・Labeled Attachment Score 係り先と関係ラベルがともに正しいトークンの割合・Kolmogorov-Smirnov
検定

5.2 Hyperparameters 14 連続ミニバッチ，330 epoch (early stopping) 学習率：0.01 to 0.001
(η = ( + )−, = 0.5) RMSprop：λ = 10−5, α = 0.99 BASE：125 hidden units, 100-D word embedding, 25-D POS embedding, Dropout rate 0.33 BASE++：200 hidden units +SHARED：200 hidden units, Dropout rate 0.66

5.3 Result – Mono-Lingual Parsing 15 SINGLE TASK +SGLD,+PRECONDがすべての言語でBASEより統計的に有意
MULTI TASK +SHAREDではタスク間の干渉のため下がるが，+ADVで上がる． +SGLDはトレーニングデータが小さいほど有意．

5.3 Result – Cross-Lingual Delexicalized Parsing 16 同じ言語または言語ファミリー（bxrとru, faとkmr）の場合，
高いパフォーマンスを発揮 MULTI TASK (+PRECOND)はすべてにおいてパフォーマンスを改善．

5.3 Ablation Analysis 17

5.3 Ablation Analysis 18 ・ミニバッチのサイズを1文単位にすると，学習率が早い段階でに0に近づいていってしまう．逆にデータセット全体で1つのバッチサイズとすると，LASが上がるが統計的に有意な改善にはならない．

6 Conclusion 19 ・Neural Dependency Parsers のベイジアンフレームワーク（BNNP）を提案．・SGLDを用いて最適化しながら事後サンプルを生成し，構文木を生成する．
・BNNPをマルチタスク学習のフレームワークに統合することで 5つのlow-resource言語でCoNLL17 shared taskのbest system (BiAFFINE) で最大9%のLASの向上

文献紹介/ Bayesian Learning for Neural Dependency P...

文献紹介/ Bayesian Learning for Neural Dependency Parsing

Atom

More Decks by Atom

Featured

Transcript

Bayesian Learning for Neural Dependency Parsing 文献紹介 2019/12/02 長岡技術科学大学自然言語処理研究室

4.2 Adversarial Training 5 ・

3.1 Stochastic Gradient Langevin Dynamics 6 確率的勾配ランジュバン動力学(SGLD)を用いてステップごとにミニバッチのロスの勾配の確率的推定値を計算

4.2 Adversarial Training 7 ・shard BiLSTM は入力語のタスクに依存しない表現をエンコード・共有表現はtask discriminator に転送され，クロスエントロピー

3.2 Preconditioned SGLD 8 SGLDは単一の学習率に依存しているため，パラメータ空間の幾何的情報をRMSpropで求めて考慮するpSGLDを使用

3.1 Prediciton 9 ・生成された事後サンプルを使用して，モデル平均化により確率の期待値が近似的に求まる．・Bayes risk を最小化 (MBR) するようにアークファクター

5.1 Experimental Setup 10 Mono-Lingual Experiments ペルシャ語（fa）, 韓国語（ko）, ロシア語（ru）, トルコ語（tr）,

5.1 Experimental Setup 11 +SHARED ENSEMBLE MAP：MLEでなくMAP ＋SGLD：+SHAREDにSGLDによるベイジアン学習を適用＋PRECOND：+SHAREDにpSGLDによるベイジアン学習を適用 MULTI

5.1 Experimental Setup 12 Cross-Lingual Experiments trainとtest 英語（en）, フランス語（fr）, ロシア語（ru）,

5.1 Experimental Setup 13 評価基準・Labeled Attachment Score 係り先と関係ラベルがともに正しいトークンの割合・Kolmogorov-Smirnov

5.2 Hyperparameters 14 連続ミニバッチ，330 epoch (early stopping) 学習率：0.01 to 0.001

5.3 Result – Mono-Lingual Parsing 15 SINGLE TASK +SGLD,+PRECONDがすべての言語でBASEより統計的に有意

5.3 Result – Cross-Lingual Delexicalized Parsing 16 同じ言語または言語ファミリー（bxrとru, faとkmr）の場合，

5.3 Ablation Analysis 17

5.3 Ablation Analysis 18 ・ミニバッチのサイズを1文単位にすると，学習率が早い段階でに0に近づいていってしまう．逆にデータセット全体で1つのバッチサイズとすると，LASが上がるが統計的に有意な改善にはならない．

6 Conclusion 19 ・Neural Dependency Parsers のベイジアンフレームワーク（BNNP）を提案．・SGLDを用いて最適化しながら事後サンプルを生成し，構文木を生成する．