Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介/ Bayesian Learning for Neural Dependency Parsing

Atom
December 02, 2019
84

文献紹介/ Bayesian Learning for Neural Dependency Parsing

Atom

December 02, 2019
Tweet

More Decks by Atom

Transcript

  1. 5.1 Experimental Setup 10 Mono-Lingual Experiments ペルシャ語(fa), 韓国語(ko), ロシア語(ru), トルコ語(tr),

    ベトナム語(vi), アイルランド語(ga) SINGLE TASK BASE:BiLSTM [Kiperwasser and Goldberg (2016)] BASE++:Character BiLSTM + 2つのBiLSTM +SHARED ENSEMBLE:9つのSHAREDモデルのアンサンブル
  2. 5.1 Experimental Setup 11 +SHARED ENSEMBLE MAP:MLEでなくMAP +SGLD:+SHAREDにSGLDによるベイジアン学習を適用 +PRECOND:+SHAREDにpSGLDによるベイジアン学習を適用 MULTI

    TASK BASEMT:共有BiLSTMを削除し,デコーダを以外をタスク間で 共有したmulti task architecture + ADV:敵対的トレーニングあり
  3. 5.1 Experimental Setup 12 Cross-Lingual Experiments trainとtest 英語(en), フランス語(fr), ロシア語(ru),

    ペルシャ語(fa) testのみ クルド語(kmr), モンゴル語(bxr), 北部サーミ語(sme) モデル:SINGLE TASK (BASE++) MULTI TASK (+PRECOND)
  4. 5.2 Hyperparameters 14 連続ミニバッチ,330 epoch (early stopping) 学習率:0.01 to 0.001

    (η = ( + )−, = 0.5) RMSprop:λ = 10−5, α = 0.99 BASE:125 hidden units, 100-D word embedding, 25-D POS embedding, Dropout rate 0.33 BASE++:200 hidden units +SHARED:200 hidden units, Dropout rate 0.66
  5. 5.3 Result – Mono-Lingual Parsing 15 SINGLE TASK +SGLD,+PRECONDがすべての 言語でBASEより統計的に有意

    MULTI TASK +SHAREDではタスク間の干渉のため 下がるが,+ADVで上がる. +SGLDはトレーニングデータが 小さいほど有意.
  6. 5.3 Result – Cross-Lingual Delexicalized Parsing 16 同じ言語または言語ファミリー (bxrとru, faとkmr)の場合,

    高いパフォーマンスを発揮 MULTI TASK (+PRECOND)は すべてにおいてパフォーマンス を改善.
  7. 6 Conclusion 19 ・Neural Dependency Parsers のベイジアンフレームワーク (BNNP)を提案. ・SGLDを用いて最適化しながら事後サンプルを生成し, 構文木を生成する.

    ・BNNPをマルチタスク学習のフレームワークに統合することで 5つのlow-resource言語でCoNLL17 shared taskのbest system (BiAFFINE) で最大9%のLASの向上