Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Lexically Constrained Decoding for Sequen...

文献紹介: Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

2018/03/28の文献紹介で発表

Yumeto Inaoka

March 28, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

    Chris Hokamp, Qun Liu Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pages 1535–1546, 2017. 文献紹介 ’18/03/28 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Abstract ❖ 事前に指定した語彙制約を含むようなBeam Searchを 拡張したGrid Beam Searchの提案 ❖ 出力文に存在しなければならない句や単語を 語彙制約としてあらかじめ指定

    ❖ モデルや訓練データの変更は不要 ❖ Neural Interactive-Predictive Translationと Domain Adaptation for NMTの実験において 実現可能性と柔軟性を示す
  3. Beam Search ❖ デコーダでもっとも確率の高い系列の近似解を探す手法 ❖ モデル, 訓練データの変更不要 出典 : 坪井

    祐太, 海野 裕也, 鈴木 潤. 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ), 講談社, page 84.
  4. Grid Beam Search (GBS) ❖ 指定した句や単語の 制約を加えた Beam Search ❖

    制約の句や単語を 正しく配置し,それ 以外の出力を生成
  5. Grid Beam Search (GBS) ❖ open hypotheses では 制約の句・単語または モデルの分布から生成

    ❖ closed hypotheses では 現在の未完了の制約の 次のトークンを生成 t : timestep c: そのbeamがカバーする 制約のトークン数 numC: 全制約の合計トークン数
  6. Grid Beam Search (GBS) ❖ 英語やドイツ語で見られる不連続な句動詞では探索で フィルタを追加することでGBSに組み込む ❖ “ask <someone>

    out”という句であれば constraint₀ : ask constraint₁ : out として 1. constraint₁はconstraint₀より先に使用できない 2. 制約の間には少なくとも1つの生成トークンが必要 の2つのフィルタで実現
  7. Efficiency ❖ 一般的なBeam Search:O(kt) ❖ GBSの愚直な実装 : O(ktc) ❖ 各列は並列化できる

    & 出力候補の計算に最も時間が かかる → O(kt)に近づけられる k: beam width t : 出力の系列長 c: 全制約の合計トークン数
  8. Experiments (model) ❖ bi-directional GRUs ❖ gradient updater : AdaDelta

    ❖ gradient clipping : 1.0 ❖ dropout rate : 0.5 ❖ L2正則化α : 1e-5
  9. Experiments (corpora) ❖ English-German 4.4M segments from the Europarl and

    CommonCrawl corpora ❖ English-French 4.9M segments from the Europal and CommonCrawl corpora ❖ English-Portuguese 28.5M segments from the Europarl, JRC-Aquis and OpenSubtitles corpora
  10. Experiments (Pick-Revise for Interactive Post Editing) ❖ 繰り返しの相互作用を持つMTのPE ❖ ユーザが元出力から欠けている3語までの単語列を

    3回与えると仮定して実験 ❖ 制約として与える単語列が完全に元出力から欠落して いる場合と最初の単語だけが欠落していればいい場合 の2つを実験
  11. Experiments (Domain Adaptation via Terminology) ❖ ドメイン特有の用語の使用は実際のMTでは一般的 ❖ ドメイン特有の用語の抽出: 元言語,

    目的言語側のそれぞれのn-gramのNPMIを計算し それが0.9以上で5回以上出現するセットを収集 ❖ 比較として制約をベースライン出力のランダムな位置や 先頭に挿入してBLEUの変化を確認 ❖ 実験するドメイン: Autodesk Post-Editing corpus (software localization)
  12. Results (Domain Adaptation via Terminology) ❖ 全ての言語ペアでBLEUが向上 ❖ EN-PTでは特に訓練データの ドメインが大きく異なるため

    改善が大きいと考えられる ❖ 今回は用語を自動抽出したが 人手で作成すればさらに向上する 可能性がある
  13. Shanbo Cheng, Shujian Huang, Huadong Chen, Xinyu Dai, and Jiajun

    Chen. PRIMT: A pickrevise framework for interactive machine translation. In NAACL HLT 2016, pages 1240–1249.