$30 off During Our Annual Pro Sale. View Details »

文献紹介/ Bayesian Learning for Neural Dependency Parsing

Atom
December 02, 2019
75

文献紹介/ Bayesian Learning for Neural Dependency Parsing

Atom

December 02, 2019
Tweet

More Decks by Atom

Transcript

  1. Bayesian Learning
    for Neural Dependency Parsing
    文献紹介
    2019/12/02
    長岡技術科学大学
    自然言語処理研究室 吉澤 亜斗武

    View Slide

  2. Abstract
    ・Neural Dependency Parsers に小規模なデータの際に
    ベイジアンニューラルネットが有効であることを示した.
    ・SGLDによるサンプリングにより計算コストを削減し
    敵対的機構を用いてタスク干渉を抑えることにより改善.
    ・5k未満のトレーニングデータにおいてBiLSTMよりも
    優れていることを示した.
    2

    View Slide

  3. 1. Introduction
    ・ニューラルネットを用いた係り受け解析では大量で高品質な
    ラベル付きトレーニングデータを必要とし,コストが大きい
    ・DNNの最尤パラメータ推定は過剰適合のリスクがあり,
    パラメーターの不確実性を無視している.
    ・トレーニングデータが小規模な場合,この問題は顕著に表れる.
    3

    View Slide

  4. 1. Introduction
    ・BNNのNLPへの適応のほとんどは,言語モデルであり,
    係受け解析などの予測タスク用に開発されていない.
    ・この論文では初めてBNNPを提案し,SGLDによる
    サンプリングを用いることで推論のコストに対処.
    ・小規模なデータでも敵対的機構を用いたマルチタスク学習により
    正確な予測を行えるようにする.
    4

    View Slide

  5. 4.2 Adversarial Training
    5

    View Slide

  6. 3.1 Stochastic Gradient Langevin Dynamics
    6
    確率的勾配ランジュバン動力学(SGLD)を用いてステップごとに
    ミニバッチのロスの勾配の確率的推定値を計算

    View Slide

  7. 4.2 Adversarial Training
    7
    ・shard BiLSTM は入力語のタスクに依存しない表現をエンコード
    ・共有表現はtask discriminator に転送され,クロスエントロピー
    ロスを計算し,shard BiLSTM を騙すように反対の符号で勾配の
    信号を逆伝搬.

    View Slide

  8. 3.2 Preconditioned SGLD
    8
    SGLDは単一の学習率に依存しているため,パラメータ空間の
    幾何的情報をRMSpropで求めて考慮するpSGLDを使用

    View Slide

  9. 3.1 Prediciton
    9
    ・生成された事後サンプルを使用して,モデル平均化により
    確率の期待値が近似的に求まる.
    ・Bayes risk を最小化 (MBR) するようにアークファクター
    分解と動的プログラミングによりスコア解析して構文木を推測

    View Slide

  10. 5.1 Experimental Setup
    10
    Mono-Lingual Experiments
    ペルシャ語(fa), 韓国語(ko), ロシア語(ru),
    トルコ語(tr), ベトナム語(vi), アイルランド語(ga)
    SINGLE TASK
    BASE:BiLSTM [Kiperwasser and Goldberg (2016)]
    BASE++:Character BiLSTM + 2つのBiLSTM
    +SHARED ENSEMBLE:9つのSHAREDモデルのアンサンブル

    View Slide

  11. 5.1 Experimental Setup
    11
    +SHARED ENSEMBLE MAP:MLEでなくMAP
    +SGLD:+SHAREDにSGLDによるベイジアン学習を適用
    +PRECOND:+SHAREDにpSGLDによるベイジアン学習を適用
    MULTI TASK
    BASEMT:共有BiLSTMを削除し,デコーダを以外をタスク間で
    共有したmulti task architecture
    + ADV:敵対的トレーニングあり

    View Slide

  12. 5.1 Experimental Setup
    12
    Cross-Lingual Experiments
    trainとtest
    英語(en), フランス語(fr), ロシア語(ru), ペルシャ語(fa)
    testのみ
    クルド語(kmr), モンゴル語(bxr), 北部サーミ語(sme)
    モデル:SINGLE TASK (BASE++)
    MULTI TASK (+PRECOND)

    View Slide

  13. 5.1 Experimental Setup
    13
    評価基準
    ・Labeled Attachment Score
    係り先と関係ラベルがともに正しいトークンの割合
    ・Kolmogorov-Smirnov 検定

    View Slide

  14. 5.2 Hyperparameters
    14
    連続ミニバッチ,330 epoch (early stopping)
    学習率:0.01 to 0.001 (η = ( + )−, = 0.5)
    RMSprop:λ = 10−5, α = 0.99
    BASE:125 hidden units, 100-D word embedding,
    25-D POS embedding, Dropout rate 0.33
    BASE++:200 hidden units
    +SHARED:200 hidden units, Dropout rate 0.66

    View Slide

  15. 5.3 Result – Mono-Lingual Parsing
    15
    SINGLE TASK
    +SGLD,+PRECONDがすべての
    言語でBASEより統計的に有意
    MULTI TASK
    +SHAREDではタスク間の干渉のため
    下がるが,+ADVで上がる.
    +SGLDはトレーニングデータが
    小さいほど有意.

    View Slide

  16. 5.3 Result – Cross-Lingual Delexicalized Parsing
    16
    同じ言語または言語ファミリー
    (bxrとru, faとkmr)の場合,
    高いパフォーマンスを発揮
    MULTI TASK (+PRECOND)は
    すべてにおいてパフォーマンス
    を改善.

    View Slide

  17. 5.3 Ablation Analysis
    17

    View Slide

  18. 5.3 Ablation Analysis
    18
    ・ミニバッチのサイズを1文単位にすると,学習率が早い段階で
    に0に近づいていってしまう.
    逆にデータセット全体で1つのバッチサイズとすると,LASが
    上がるが統計的に有意な改善にはならない.

    View Slide

  19. 6 Conclusion
    19
    ・Neural Dependency Parsers のベイジアンフレームワーク
    (BNNP)を提案.
    ・SGLDを用いて最適化しながら事後サンプルを生成し,
    構文木を生成する.
    ・BNNPをマルチタスク学習のフレームワークに統合することで
    5つのlow-resource言語でCoNLL17 shared taskのbest
    system (BiAFFINE) で最大9%のLASの向上

    View Slide