NMTの低頻度語問題 l NMTは訓練データの語彙サイズを制限する必要がある 低頻度な単語はUNK記号に置き換えられてしまい、翻訳できない l ⾮ネイティブの⽂章には低頻度語だけでなく、スペルミスも含まれ ている スペルミスを訂正できない Original sentence I am goign to make a plan System hypothesis I am UNK to make a plan Gold standard I am going to make a plan 4 /13
低頻度語問題のアプローチ 2ステップのアプローチを提案 (1) 出⼒⽂と⼊⼒⽂の単語アライメントをとり、出⼒⽂中に出現するUNK の元の単語を取得する Original sentence I am goign to make a plan System hypothesis I am UNK to make a plan →UNKの元の単語はgoing 5 /13
低頻度語問題のアプローチ 2ステップのアプローチを提案 (2) 単語レベルの翻訳モデルを事前に構築しておき、UNKの元の単語を後 処理で置き換える 単語レベル翻訳モデル:goign → going Original sentence I am goign to make a plan System hypothesis I am going to make a plan 6 /13
低頻度語問題のアプローチ 単語レベルの翻訳モデルの構築: GIZA++:単語アライメントツール GIZA++に学習者コーパスを訓練、単語アライメントデータを作成 I am goign to make a plan → I am going to make a plan METEORを併⽤することで語幹や同義語、⾔い換えも考慮する 7 /13 I → I am → am goign → going to → to a → a plan → plan
実験結果 Original sentence There are kidnaps everywhere and not all of the family can afford the ransom ... SMT hypothesis There are kidnaps everywhere and not all of the families can afford the ransom ... NMT hypothesis There are kidnappings everywhere and not all of the families can afford the ransom ... Gold standard There are kidnappings everywhere and not all of the families can afford the ransom ... (kidnaps→kidnappings)がSMTのフレーズテーブルにない→SMT× この2つの単語は訓練データに存在→NMT○ 12 /13
参考文献 [1] Thang Luong, Ilya Sutskever, Quoc Le, Oriol Vinyals, and Wojciech Zaremba. 2015. Addressing the Rare Word Problem in Neural Machine Translation. In Pro- ceedings of the ACL- IJCNLP, pages 11–19. 14 /13