文献紹介: Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search
Chris Hokamp, Qun Liu Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pages 1535–1546, 2017. 文献紹介 ’18/03/28 長岡技術科学大学　自然言語処理研究室　稲岡夢人

Abstract ❖ 事前に指定した語彙制約を含むようなBeam Searchを拡張したGrid Beam Searchの提案 ❖ 出力文に存在しなければならない句や単語を語彙制約としてあらかじめ指定
❖ モデルや訓練データの変更は不要 ❖ Neural Interactive-Predictive Translationと Domain Adaptation for NMTの実験において実現可能性と柔軟性を示す

Introduction ❖ テキスト生成時に最適な出力文を探索できるよう追加情報が有効な場合がある ❖ 例えば機械翻訳では自動翻訳結果とユーザ入力を組み合わせて最終的な翻訳を生成 ❖ 画像キャプション、対話生成、要約、質問応答で有効

Beam Search ❖ デコーダでもっとも確率の高い系列の近似解を探す手法 ❖ モデル, 訓練データの変更不要出典 : 坪井
祐太, 海野裕也, 鈴木潤. 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ), 講談社, page 84.

Grid Beam Search (GBS) ❖ 指定した句や単語の制約を加えた Beam Search ❖
制約の句や単語を正しく配置し，それ以外の出力を生成

Grid Beam Search (GBS) ❖ open hypotheses では制約の句・単語またはモデルの分布から生成
❖ closed hypotheses では現在の未完了の制約の次のトークンを生成 t : timestep c: そのbeamがカバーする制約のトークン数 numC: 全制約の合計トークン数

Grid Beam Search (GBS) ❖ 英語やドイツ語で見られる不連続な句動詞では探索でフィルタを追加することでGBSに組み込む ❖ “ask <someone>
out”という句であれば constraint₀ : ask　constraint₁ : out　として 1. constraint₁はconstraint₀より先に使用できない 2. 制約の間には少なくとも1つの生成トークンが必要の2つのフィルタで実現

Efficiency ❖ 一般的なBeam Search：O(kt) ❖ GBSの愚直な実装 : O(ktc) ❖ 各列は並列化できる
＆出力候補の計算に最も時間がかかる → O(kt)に近づけられる k: beam width t : 出力の系列長 c: 全制約の合計トークン数

Experiments (model) ❖ bi-directional GRUs ❖ gradient updater : AdaDelta
❖ gradient clipping : 1.0 ❖ dropout rate : 0.5 ❖ L2正則化α : 1e-5

Experiments (corpora) ❖ English-German 4.4M segments from the Europarl and
CommonCrawl corpora ❖ English-French 4.9M segments from the Europal and CommonCrawl corpora ❖ English-Portuguese 28.5M segments from the Europarl, JRC-Aquis and OpenSubtitles corpora

Experiments (Pick-Revise for Interactive Post Editing) ❖ 繰り返しの相互作用を持つMTのPE ❖ ユーザが元出力から欠けている3語までの単語列を
3回与えると仮定して実験 ❖ 制約として与える単語列が完全に元出力から欠落している場合と最初の単語だけが欠落していればいい場合の2つを実験

Results (Pick-Revise for Interactive Post Editing) ❖ 全ての言語ペアでBLEUが20ポイント以上向上

Experiments (Domain Adaptation via Terminology) ❖ ドメイン特有の用語の使用は実際のMTでは一般的 ❖ ドメイン特有の用語の抽出：元言語,
目的言語側のそれぞれのn-gramのNPMIを計算しそれが0.9以上で5回以上出現するセットを収集 ❖ 比較として制約をベースライン出力のランダムな位置や先頭に挿入してBLEUの変化を確認 ❖ 実験するドメイン： Autodesk Post-Editing corpus (software localization)

Results (Domain Adaptation via Terminology) ❖ 全ての言語ペアでBLEUが向上 ❖ EN-PTでは特に訓練データのドメインが大きく異なるため
改善が大きいと考えられる ❖ 今回は用語を自動抽出したが人手で作成すればさらに向上する可能性がある

Analysis ❖

Conclusion ❖ 語彙制約デコードはモデルの出力に任意の句や単語を組み込む柔軟な手法 ❖ ユーザが翻訳のエラーを修正する場面において翻訳品質を大幅に向上させることを確認 ❖ ドメイン特有の用語を使用して目的言語側の制約を加えることでドメインの適応ができることを確認

Future Work ❖ 自動要約、画像キャプション、対話生成などでも評価 ❖ 語彙制約を超えて第二のattention機構として新しい制約モデルの導入

Shanbo Cheng, Shujian Huang, Huadong Chen, Xinyu Dai, and Jiajun
Chen. PRIMT: A pickrevise framework for interactive machine translation. In NAACL HLT 2016, pages 1240–1249.

文献紹介: Lexically Constrained Decoding for Sequen...

文献紹介: Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

Abstract ❖ 事前に指定した語彙制約を含むようなBeam Searchを拡張したGrid Beam Searchの提案 ❖ 出力文に存在しなければならない句や単語を語彙制約としてあらかじめ指定

Beam Search ❖ デコーダでもっとも確率の高い系列の近似解を探す手法 ❖ モデル, 訓練データの変更不要出典 : 坪井

Grid Beam Search (GBS) ❖ 指定した句や単語の制約を加えた Beam Search ❖

Grid Beam Search (GBS) ❖ open hypotheses では制約の句・単語またはモデルの分布から生成

Grid Beam Search (GBS) ❖ 英語やドイツ語で見られる不連続な句動詞では探索でフィルタを追加することでGBSに組み込む ❖ “ask <someone>

Efficiency ❖ 一般的なBeam Search：O(kt) ❖ GBSの愚直な実装 : O(ktc) ❖ 各列は並列化できる

Experiments (model) ❖ bi-directional GRUs ❖ gradient updater : AdaDelta

Experiments (corpora) ❖ English-German 4.4M segments from the Europarl and

Experiments (Pick-Revise for Interactive Post Editing) ❖ 繰り返しの相互作用を持つMTのPE ❖ ユーザが元出力から欠けている3語までの単語列を

Results (Pick-Revise for Interactive Post Editing) ❖ 全ての言語ペアでBLEUが20ポイント以上向上

Experiments (Domain Adaptation via Terminology) ❖ ドメイン特有の用語の使用は実際のMTでは一般的 ❖ ドメイン特有の用語の抽出：元言語,

Results (Domain Adaptation via Terminology) ❖ 全ての言語ペアでBLEUが向上 ❖ EN-PTでは特に訓練データのドメインが大きく異なるため

Analysis ❖

Future Work ❖ 自動要約、画像キャプション、対話生成などでも評価 ❖ 語彙制約を超えて第二のattention機構として新しい制約モデルの導入

Shanbo Cheng, Shujian Huang, Huadong Chen, Xinyu Dai, and Jiajun