文献紹介:Reference Network for Neural Machine Translation

9e650916f36300d64c9c61eeb4ab697e?s=47 Taichi Aida
February 10, 2020

文献紹介:Reference Network for Neural Machine Translation

Reference Network for Neural Machine Translation
Han Fu, Chenghao Liu, Jianling Sun
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3002-3012, Florence, July 2019.

9e650916f36300d64c9c61eeb4ab697e?s=128

Taichi Aida

February 10, 2020
Tweet

Transcript

  1. Reference Network for Neural Machine Translation Han Fu, Chenghao Liu,

    Jianling Sun Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3002-3012, Florence, July 2019.
  2. 概要 - 訓練データの情報を生成時に参照する Reference Network を NMT に採用 - NIST、WMT

    の翻訳タスクで従来の関連する 手法を上回った 2
  3. Reference Network - 先行研究: 最近翻訳した入力文-出力文の情 報を保持する手法がいくつかあるが、保持で きる文の量に制限がある - 本研究: 生成時に訓練データの情報を用いる

    3
  4. 例:人間が翻訳する場合 翻訳対象の文に訳すのが難しい単語/フレーズがあったら… 1. 翻訳しやすい単語/フレーズに言い換える ◦ (例: 日→英 翻訳)「斟酌(しんしゃく)する」→? ◦ 「斟酌する」→「考慮する」

    2. 入力言語-対象言語の間で対応の取れた単語/ フレーズのリストを参照し、そこから用いる ◦ 「斟酌する」⇄ “consider” 4
  5. 提案手法 以下の2つを提案 - Monolingual RefNet - 入力言語の翻訳が難しい単語/フレーズを言い換るた めの情報を訓練データから獲得できるように設計 - Bilingual

    RefNet - 訓練データにおける、入力言語-対象言語の単語/フ レーズの対応する情報を用いるように設計 5
  6. Monolingual RefNet (M-RefNet) 6

  7. Monolingual RefNet (M-RefNet) 7 NMT


  8. Monolingual RefNet (M-RefNet) 8 訓練データ (原文側)の 情報を利用

  9. Monolingual RefNet (M-RefNet) 9 Local Coordinate Coding (LCC) へ入力 出力を文脈情報として

    NMT へ渡す LCC: 訓練データの情 報を直接保存するのは 無理なので、意味情報 を圧縮する手法
  10. Bilingual RefNet (B-RefNet) 10

  11. Bilingual RefNet (B-RefNet) 11 NMT


  12. Bilingual RefNet (B-RefNet) 12 ・原文の文脈情報 c t ・訳文の文脈情報 s t-1

    ・前回の出力 y t-1 を利用
  13. Bilingual RefNet (B-RefNet) 13 訓練データの情報に基づいて 参照可能な単語を提供

  14. 実験 2つの実験を行った(中国語-英語がメイン) - 中国語-英語 (Zh-En) 翻訳 - 既存手法と BLEU を比較

    - 出力文を比較 - (付録) パラメータ数、学習/生成速度 - (付録) 出力文の BLEU/文長の分布 - 英語-ドイツ語 (En-De) 翻訳 - NMT の強いモデルと BLEU を比較 14
  15. 中国語-英語 (Zh-En) 翻訳 - データセット - 訓練データ: LCD2002-2005 (1.25M 文のペア)

    - 開発データ: NIST MT02 - テストデータ: NIST MT05/06/08 - 提案手法の NMT 部分 - Seq2seq with attention - エンコーダ: 双方向 RNN - デコーダ: 一層の RNN 15
  16. 中国語-英語 (Zh-En) 翻訳 - 比較対象のモデル(既存手法) - CS-NMT (Wang et al.,

    2017): デコーダに過去3つの対 訳ペアの文ベクトル表現を用いる - LC-NMT (Jean et al., 2017): 今翻訳する文と過去に翻 訳した文を同時にエンコードする - CC-NMT (Tu et al., 2018): 直近25文の翻訳履歴をメモ リ形式で保存する - DC-NMT (Maruf and Haffari, 2018): CCの文書レベル 16
  17. 中国語-英語 (Zh-En) 翻訳 - 比較対象のモデル(既存手法) - CS-NMT (Wang et al.,

    2017): デコーダに過去3つの対 訳ペアの文ベクトル表現を用いる - LC-NMT (Jean et al., 2017): 今翻訳する文と過去に翻 訳した文を同時にエンコードする - CC-NMT (Tu et al., 2018): 直近25文の翻訳履歴をメモ リ形式で保存する - DC-NMT (Maruf and Haffari, 2018): CCの文書レベル 17 翻訳履歴を ベクトル形式 で保存 翻訳履歴を メモリ形式 で保存
  18. 英語-ドイツ語 (En-De) 翻訳 - データセット - 訓練データ: WMT14 (4.5M 文のペア)

    - 開発データ: Newstest2012/2013 - テストデータ: Newstest2014 - 提案手法の NMT 部分 - Deep Linear Associative Unit model (DeepLAU) - GRU を拡張した LAU を用いたもの - エンコーダ 、デコーダ共に4層 18
  19. 英語-ドイツ語 (En-De) 翻訳 - 比較対象のモデル(NMT の強いモデル) - GNMT: 8層の LSTM

    から構成される Seq2seq - Robust NMT: 2層の GRU + 敵対的学習 - ConvS2S: 15層の CNN から構成される Seq2seq - Transformer (big): 6層、16つのヘッド 19
  20. 結果 (Zh-En) 20 RefNet を追加 したことで BLEU が向上

  21. 結果 (Zh-En) 21 先行研究の 結果も上回る

  22. 出力例 (Zh-En) 22 NMT で訳せなかった単語 “lichang” を訳せるようになった

  23. 出力例 (Zh-En) 23 NMT で未知語となるフレーズも RefNet では うまく訳せている(訓練データにそういう対訳があった?)

  24. 結果 (En-De) 24 RefNet を用いる前は GNMT ~ ConvS2S に負けているが…

  25. 結果 (En-De) 25 RefNet を用いることで GNMT ~ ConvS2S を上回るようになった

  26. 結論 - 訓練データの情報を生成時に参照する Reference Network を NMT に採用 - NIST、WMT

    の翻訳タスクで従来の関連する 手法を上回った 26
  27. 参考文献(先行研究) - Longyue Wang, Zhaopeng Tu, Andy Way, and Qun

    Liu. Exploiting cross-sentence context for neural machine translation. In Proc. of EMNLP, pp.2826-2831, 2017. - Sebastien Jean, Stanislas Lauly, Orhan Firat, and Kyunghyun Cho. Does neural machine translation benefit from larger context? arXiv preprint arXiv:1704.05135, 2017. - Zhaopeng Tu, Yang Liu, Shuming Shi, and Tong Zhang. Learning to remember translation history with a continuous cache. Trans. of ACL, 6:407-420, 2018. - Sameen Maruf and Gholamreza Haffari. Document context neural machine translation with memory networks. In Proc. of ACL, pp.1275-1284, 2018. 27
  28. 付録 28

  29. パラメータ数、速度 (Zh-En) 29

  30. 出力文の品質と文長 (Zh-En) 30