Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介2022後期(ACL2022)_DEEP: DEnoising Entity Pre-training for Neural Machine Translation

maskcott
November 18, 2022
16

論文紹介2022後期(ACL2022)_DEEP: DEnoising Entity Pre-training for Neural Machine Translation

maskcott

November 18, 2022
Tweet

More Decks by maskcott

Transcript

  1. Introduction 3 先行研究 • ルールベースの手法(Wan and Verspoor, 1998) • 統計的アライメントを用いた手法(

    Huang et al., 2003, 2004) • Web マイニングを用いた手法 (Huang et al., 2005; Wu and Chang, 2007; Yang et al., 2009) ↓ • 文脈を無視した翻訳 ◦ 文脈から曖昧性を解消することが難しい • 多くが “固有表現抽出→翻訳” という2段階 ◦ 構造が複雑 ◦ カスケード故障となりやすい
  2. Introduction 4 先行研究 • MASS(Song et al.) や mBART(Liu et

    al.) などの事前学習を用いたNMT → (low, medium)-resourceな設定で翻訳精度を向上させる ↓ • この事前学習を固有表現に特化したい気持ち
  3. 実験設定 • 事前学習データ:Wikipedia • ファインチューニング(テスト)データ: • モデル:Transformer • 比較手法 ◦

    Random→MT:事前学習なし、ランダムに初期化、MTのファインチューニング ◦ DAE→MT:mBART(Liu et al.)同様の事前学習、MTのファインチューニング ◦ DEEP→MT:提案手法で事前学習、MTのファインチューニング ◦ DAE→DAE+MT:mBART(Liu et al.)同様の事前学習、マルチタスク学習 ◦ DEEP→DEEP+M:提案手法で事前学習、マルチタスク学習 • 事前学習 50Kstep, ファインチューニング 40Kstep 11 言語 En-Ru En-Uk En-Ne データ WMT18 TED FLORES
  4. 実験結果 コーパスレベルの評価 • 事前学習の手法はBLEU, chrFの観点から有効 • low-resourceな設定(En-Ne)でDEEPはDAEよりも有効 • En-Ru, En-Neではマルチタスク学習の効果がみられる

    • ファインチューニング時、DEEPの学習は他よりも早い(付録1) ◦ 事前学習における固有表現の翻訳によってより良い初期化がなされているためでは 12
  5. 固有表現の種類ごとの分析(En-Ru) • PFT, FT の精度が高い → ファインチューニングに含まれているので直感的 • low-resource で学習の初期段階ほど提案手法の優位性が顕著にみられる

    • マルチタスク学習の効果は PT の固有表現に効果が見られる ◦ 事前学習で学習したことを忘れていないことの裏付け 14