文献紹介: Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

Slide 1

Slide 1 text

Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search Chris Hokamp, Qun Liu Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pages 1535–1546, 2017. 文献紹介 ’18/03/28 長岡技術科学大学　自然言語処理研究室　稲岡夢人

Slide 2

Slide 2 text

Abstract ❖ 事前に指定した語彙制約を含むようなBeam Searchを拡張したGrid Beam Searchの提案 ❖ 出力文に存在しなければならない句や単語を語彙制約としてあらかじめ指定 ❖ モデルや訓練データの変更は不要 ❖ Neural Interactive-Predictive Translationと Domain Adaptation for NMTの実験において実現可能性と柔軟性を示す

Slide 3

Slide 3 text

Introduction ❖ テキスト生成時に最適な出力文を探索できるよう追加情報が有効な場合がある ❖ 例えば機械翻訳では自動翻訳結果とユーザ入力を組み合わせて最終的な翻訳を生成 ❖ 画像キャプション、対話生成、要約、質問応答で有効

Slide 4

Slide 4 text

Beam Search ❖ デコーダでもっとも確率の高い系列の近似解を探す手法 ❖ モデル, 訓練データの変更不要出典 : 坪井祐太, 海野裕也, 鈴木潤. 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ), 講談社, page 84.

Slide 5

Slide 5 text

Grid Beam Search (GBS) ❖ 指定した句や単語の制約を加えた Beam Search ❖ 制約の句や単語を正しく配置し，それ以外の出力を生成

Slide 6

Slide 6 text

Grid Beam Search (GBS) ❖ open hypotheses では制約の句・単語またはモデルの分布から生成 ❖ closed hypotheses では現在の未完了の制約の次のトークンを生成 t : timestep c: そのbeamがカバーする制約のトークン数 numC: 全制約の合計トークン数

Slide 7

Slide 7 text

Grid Beam Search (GBS) ❖ 英語やドイツ語で見られる不連続な句動詞では探索でフィルタを追加することでGBSに組み込む ❖ “ask out”という句であれば constraint₀ : ask　constraint₁ : out　として 1. constraint₁はconstraint₀より先に使用できない 2. 制約の間には少なくとも1つの生成トークンが必要の2つのフィルタで実現

Slide 8

Slide 8 text

Efficiency ❖ 一般的なBeam Search：O(kt) ❖ GBSの愚直な実装 : O(ktc) ❖ 各列は並列化できる＆出力候補の計算に最も時間がかかる → O(kt)に近づけられる k: beam width t : 出力の系列長 c: 全制約の合計トークン数

Slide 9

Slide 9 text

Experiments (model) ❖ bi-directional GRUs ❖ gradient updater : AdaDelta ❖ gradient clipping : 1.0 ❖ dropout rate : 0.5 ❖ L2正則化α : 1e-5

Slide 10

Slide 10 text

Experiments (corpora) ❖ English-German 4.4M segments from the Europarl and CommonCrawl corpora ❖ English-French 4.9M segments from the Europal and CommonCrawl corpora ❖ English-Portuguese 28.5M segments from the Europarl, JRC-Aquis and OpenSubtitles corpora

Slide 11

Slide 11 text

Experiments (Pick-Revise for Interactive Post Editing) ❖ 繰り返しの相互作用を持つMTのPE ❖ ユーザが元出力から欠けている3語までの単語列を 3回与えると仮定して実験 ❖ 制約として与える単語列が完全に元出力から欠落している場合と最初の単語だけが欠落していればいい場合の2つを実験

Slide 12

Slide 12 text

Results (Pick-Revise for Interactive Post Editing) ❖ 全ての言語ペアでBLEUが20ポイント以上向上

Slide 13

Slide 13 text

Experiments (Domain Adaptation via Terminology) ❖ ドメイン特有の用語の使用は実際のMTでは一般的 ❖ ドメイン特有の用語の抽出：元言語, 目的言語側のそれぞれのn-gramのNPMIを計算しそれが0.9以上で5回以上出現するセットを収集 ❖ 比較として制約をベースライン出力のランダムな位置や先頭に挿入してBLEUの変化を確認 ❖ 実験するドメイン： Autodesk Post-Editing corpus (software localization)

Slide 14

Slide 14 text

Results (Domain Adaptation via Terminology) ❖ 全ての言語ペアでBLEUが向上 ❖ EN-PTでは特に訓練データのドメインが大きく異なるため改善が大きいと考えられる ❖ 今回は用語を自動抽出したが人手で作成すればさらに向上する可能性がある

Slide 15

Slide 15 text

Analysis ❖

Slide 16

Slide 16 text

Conclusion ❖ 語彙制約デコードはモデルの出力に任意の句や単語を組み込む柔軟な手法 ❖ ユーザが翻訳のエラーを修正する場面において翻訳品質を大幅に向上させることを確認 ❖ ドメイン特有の用語を使用して目的言語側の制約を加えることでドメインの適応ができることを確認

Slide 17

Slide 17 text

Future Work ❖ 自動要約、画像キャプション、対話生成などでも評価 ❖ 語彙制約を超えて第二のattention機構として新しい制約モデルの導入

Slide 18

Slide 18 text

Shanbo Cheng, Shujian Huang, Huadong Chen, Xinyu Dai, and Jiajun Chen. PRIMT: A pickrevise framework for interactive machine translation. In NAACL HLT 2016, pages 1240–1249.