Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

文献紹介: Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

2018/03/28の文献紹介で発表

Yumeto Inaoka

March 28, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Lexically Constrained Decoding for
    Sequence Generation Using Grid Beam Search
    Chris Hokamp, Qun Liu
    Proceedings of the 55th Annual Meeting of the Association for Computational
    Linguistics, pages 1535–1546, 2017.
    文献紹介 ’18/03/28
    長岡技術科学大学 自然言語処理研究室 稲岡 夢人

    View Slide

  2. Abstract
    ❖ 事前に指定した語彙制約を含むようなBeam Searchを
    拡張したGrid Beam Searchの提案
    ❖ 出力文に存在しなければならない句や単語を
    語彙制約としてあらかじめ指定
    ❖ モデルや訓練データの変更は不要
    ❖ Neural Interactive-Predictive Translationと
    Domain Adaptation for NMTの実験において
    実現可能性と柔軟性を示す

    View Slide

  3. Introduction
    ❖ テキスト生成時に最適な出力文を探索できるよう
    追加情報が有効な場合がある
    ❖ 例えば機械翻訳では自動翻訳結果とユーザ入力を組み合わ
    せて最終的な翻訳を生成
    ❖ 画像キャプション、対話生成、要約、質問応答で有効

    View Slide

  4. Beam Search
    ❖ デコーダでもっとも確率の高い系列の近似解を探す手法
    ❖ モデル, 訓練データの変更不要
    出典 : 坪井 祐太, 海野 裕也, 鈴木 潤. 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ), 講談社, page 84.

    View Slide

  5. Grid Beam Search (GBS)
    ❖ 指定した句や単語の
    制約を加えた
    Beam Search
    ❖ 制約の句や単語を
    正しく配置し,それ
    以外の出力を生成

    View Slide

  6. Grid Beam Search (GBS)
    ❖ open hypotheses では
    制約の句・単語または
    モデルの分布から生成
    ❖ closed hypotheses では
    現在の未完了の制約の
    次のトークンを生成
    t : timestep
    c: そのbeamがカバーする
    制約のトークン数
    numC: 全制約の合計トークン数

    View Slide

  7. Grid Beam Search (GBS)
    ❖ 英語やドイツ語で見られる不連続な句動詞では探索で
    フィルタを追加することでGBSに組み込む
    ❖ “ask out”という句であれば
    constraint₀ : ask constraint₁ : out として
    1. constraint₁はconstraint₀より先に使用できない
    2. 制約の間には少なくとも1つの生成トークンが必要
    の2つのフィルタで実現

    View Slide

  8. Efficiency
    ❖ 一般的なBeam Search:O(kt)
    ❖ GBSの愚直な実装 : O(ktc)
    ❖ 各列は並列化できる &
    出力候補の計算に最も時間が
    かかる
    → O(kt)に近づけられる
    k: beam width
    t : 出力の系列長
    c: 全制約の合計トークン数

    View Slide

  9. Experiments (model)
    ❖ bi-directional GRUs
    ❖ gradient updater : AdaDelta
    ❖ gradient clipping : 1.0
    ❖ dropout rate : 0.5
    ❖ L2正則化α : 1e-5

    View Slide

  10. Experiments (corpora)
    ❖ English-German
    4.4M segments from the Europarl and CommonCrawl corpora
    ❖ English-French
    4.9M segments from the Europal and CommonCrawl corpora
    ❖ English-Portuguese
    28.5M segments from the Europarl, JRC-Aquis and OpenSubtitles corpora

    View Slide

  11. Experiments (Pick-Revise for Interactive Post Editing)
    ❖ 繰り返しの相互作用を持つMTのPE
    ❖ ユーザが元出力から欠けている3語までの単語列を
    3回与えると仮定して実験
    ❖ 制約として与える単語列が完全に元出力から欠落して
    いる場合と最初の単語だけが欠落していればいい場合
    の2つを実験

    View Slide

  12. Results (Pick-Revise for Interactive Post Editing)
    ❖ 全ての言語ペアでBLEUが20ポイント以上向上

    View Slide

  13. Experiments (Domain Adaptation via Terminology)
    ❖ ドメイン特有の用語の使用は実際のMTでは一般的
    ❖ ドメイン特有の用語の抽出:
    元言語, 目的言語側のそれぞれのn-gramのNPMIを計算し
    それが0.9以上で5回以上出現するセットを収集
    ❖ 比較として制約をベースライン出力のランダムな位置や
    先頭に挿入してBLEUの変化を確認
    ❖ 実験するドメイン:
    Autodesk Post-Editing corpus (software localization)

    View Slide

  14. Results (Domain Adaptation via Terminology)
    ❖ 全ての言語ペアでBLEUが向上
    ❖ EN-PTでは特に訓練データの
    ドメインが大きく異なるため
    改善が大きいと考えられる
    ❖ 今回は用語を自動抽出したが
    人手で作成すればさらに向上する
    可能性がある

    View Slide

  15. Analysis

    View Slide

  16. Conclusion
    ❖ 語彙制約デコードはモデルの出力に任意の句や単語を
    組み込む柔軟な手法
    ❖ ユーザが翻訳のエラーを修正する場面において
    翻訳品質を大幅に向上させることを確認
    ❖ ドメイン特有の用語を使用して目的言語側の制約を
    加えることでドメインの適応ができることを確認

    View Slide

  17. Future Work
    ❖ 自動要約、画像キャプション、対話生成などでも評価
    ❖ 語彙制約を超えて第二のattention機構として
    新しい制約モデルの導入

    View Slide

  18. Shanbo Cheng, Shujian Huang, Huadong Chen, Xinyu Dai, and Jiajun Chen.
    PRIMT: A pickrevise framework for interactive machine translation. In NAACL HLT 2016, pages 1240–1249.

    View Slide