Slide 1

Slide 1 text

Reference Network for Neural Machine Translation Han Fu, Chenghao Liu, Jianling Sun Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3002-3012, Florence, July 2019.

Slide 2

Slide 2 text

概要 - 訓練データの情報を生成時に参照する Reference Network を NMT に採用 - NIST、WMT の翻訳タスクで従来の関連する 手法を上回った 2

Slide 3

Slide 3 text

Reference Network - 先行研究: 最近翻訳した入力文-出力文の情 報を保持する手法がいくつかあるが、保持で きる文の量に制限がある - 本研究: 生成時に訓練データの情報を用いる 3

Slide 4

Slide 4 text

例:人間が翻訳する場合 翻訳対象の文に訳すのが難しい単語/フレーズがあったら… 1. 翻訳しやすい単語/フレーズに言い換える ○ (例: 日→英 翻訳)「斟酌(しんしゃく)する」→? ○ 「斟酌する」→「考慮する」 2. 入力言語-対象言語の間で対応の取れた単語/ フレーズのリストを参照し、そこから用いる ○ 「斟酌する」⇄ “consider” 4

Slide 5

Slide 5 text

提案手法 以下の2つを提案 - Monolingual RefNet - 入力言語の翻訳が難しい単語/フレーズを言い換るた めの情報を訓練データから獲得できるように設計 - Bilingual RefNet - 訓練データにおける、入力言語-対象言語の単語/フ レーズの対応する情報を用いるように設計 5

Slide 6

Slide 6 text

Monolingual RefNet (M-RefNet) 6

Slide 7

Slide 7 text

Monolingual RefNet (M-RefNet) 7 NMT


Slide 8

Slide 8 text

Monolingual RefNet (M-RefNet) 8 訓練データ (原文側)の 情報を利用

Slide 9

Slide 9 text

Monolingual RefNet (M-RefNet) 9 Local Coordinate Coding (LCC) へ入力 出力を文脈情報として NMT へ渡す LCC: 訓練データの情 報を直接保存するのは 無理なので、意味情報 を圧縮する手法

Slide 10

Slide 10 text

Bilingual RefNet (B-RefNet) 10

Slide 11

Slide 11 text

Bilingual RefNet (B-RefNet) 11 NMT


Slide 12

Slide 12 text

Bilingual RefNet (B-RefNet) 12 ・原文の文脈情報 c t ・訳文の文脈情報 s t-1 ・前回の出力 y t-1 を利用

Slide 13

Slide 13 text

Bilingual RefNet (B-RefNet) 13 訓練データの情報に基づいて 参照可能な単語を提供

Slide 14

Slide 14 text

実験 2つの実験を行った(中国語-英語がメイン) - 中国語-英語 (Zh-En) 翻訳 - 既存手法と BLEU を比較 - 出力文を比較 - (付録) パラメータ数、学習/生成速度 - (付録) 出力文の BLEU/文長の分布 - 英語-ドイツ語 (En-De) 翻訳 - NMT の強いモデルと BLEU を比較 14

Slide 15

Slide 15 text

中国語-英語 (Zh-En) 翻訳 - データセット - 訓練データ: LCD2002-2005 (1.25M 文のペア) - 開発データ: NIST MT02 - テストデータ: NIST MT05/06/08 - 提案手法の NMT 部分 - Seq2seq with attention - エンコーダ: 双方向 RNN - デコーダ: 一層の RNN 15

Slide 16

Slide 16 text

中国語-英語 (Zh-En) 翻訳 - 比較対象のモデル(既存手法) - CS-NMT (Wang et al., 2017): デコーダに過去3つの対 訳ペアの文ベクトル表現を用いる - LC-NMT (Jean et al., 2017): 今翻訳する文と過去に翻 訳した文を同時にエンコードする - CC-NMT (Tu et al., 2018): 直近25文の翻訳履歴をメモ リ形式で保存する - DC-NMT (Maruf and Haffari, 2018): CCの文書レベル 16

Slide 17

Slide 17 text

中国語-英語 (Zh-En) 翻訳 - 比較対象のモデル(既存手法) - CS-NMT (Wang et al., 2017): デコーダに過去3つの対 訳ペアの文ベクトル表現を用いる - LC-NMT (Jean et al., 2017): 今翻訳する文と過去に翻 訳した文を同時にエンコードする - CC-NMT (Tu et al., 2018): 直近25文の翻訳履歴をメモ リ形式で保存する - DC-NMT (Maruf and Haffari, 2018): CCの文書レベル 17 翻訳履歴を ベクトル形式 で保存 翻訳履歴を メモリ形式 で保存

Slide 18

Slide 18 text

英語-ドイツ語 (En-De) 翻訳 - データセット - 訓練データ: WMT14 (4.5M 文のペア) - 開発データ: Newstest2012/2013 - テストデータ: Newstest2014 - 提案手法の NMT 部分 - Deep Linear Associative Unit model (DeepLAU) - GRU を拡張した LAU を用いたもの - エンコーダ 、デコーダ共に4層 18

Slide 19

Slide 19 text

英語-ドイツ語 (En-De) 翻訳 - 比較対象のモデル(NMT の強いモデル) - GNMT: 8層の LSTM から構成される Seq2seq - Robust NMT: 2層の GRU + 敵対的学習 - ConvS2S: 15層の CNN から構成される Seq2seq - Transformer (big): 6層、16つのヘッド 19

Slide 20

Slide 20 text

結果 (Zh-En) 20 RefNet を追加 したことで BLEU が向上

Slide 21

Slide 21 text

結果 (Zh-En) 21 先行研究の 結果も上回る

Slide 22

Slide 22 text

出力例 (Zh-En) 22 NMT で訳せなかった単語 “lichang” を訳せるようになった

Slide 23

Slide 23 text

出力例 (Zh-En) 23 NMT で未知語となるフレーズも RefNet では うまく訳せている(訓練データにそういう対訳があった?)

Slide 24

Slide 24 text

結果 (En-De) 24 RefNet を用いる前は GNMT ~ ConvS2S に負けているが…

Slide 25

Slide 25 text

結果 (En-De) 25 RefNet を用いることで GNMT ~ ConvS2S を上回るようになった

Slide 26

Slide 26 text

結論 - 訓練データの情報を生成時に参照する Reference Network を NMT に採用 - NIST、WMT の翻訳タスクで従来の関連する 手法を上回った 26

Slide 27

Slide 27 text

参考文献(先行研究) - Longyue Wang, Zhaopeng Tu, Andy Way, and Qun Liu. Exploiting cross-sentence context for neural machine translation. In Proc. of EMNLP, pp.2826-2831, 2017. - Sebastien Jean, Stanislas Lauly, Orhan Firat, and Kyunghyun Cho. Does neural machine translation benefit from larger context? arXiv preprint arXiv:1704.05135, 2017. - Zhaopeng Tu, Yang Liu, Shuming Shi, and Tong Zhang. Learning to remember translation history with a continuous cache. Trans. of ACL, 6:407-420, 2018. - Sameen Maruf and Gholamreza Haffari. Document context neural machine translation with memory networks. In Proc. of ACL, pp.1275-1284, 2018. 27

Slide 28

Slide 28 text

付録 28

Slide 29

Slide 29 text

パラメータ数、速度 (Zh-En) 29

Slide 30

Slide 30 text

出力文の品質と文長 (Zh-En) 30