Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Mention Flags (MF): Constraining Transformer-based Text Generators

【論文紹介】Mention Flags (MF): Constraining Transformer-based Text Generators

社内の論文読み会にて発表した論文です。
元論文はこちらです。
https://aclanthology.org/2021.acl-long.9/

Mention Flags (MF): Constraining Transformer-based Text Generators
Yufei Wang, Ian Wood, Stephen Wan, Mark Dras, Mark Johnson
Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)

8b0bb245cc397fd6ca91d143edd4a149?s=128

Soichiro Murakami

September 07, 2021
Tweet

More Decks by Soichiro Murakami

Other Decks in Research

Transcript

  1. Soichiro MURAKAMI(NLPチーム) 
 Paperfriday(2021/08/30) 
 論文紹介


  2. Summary
 • Goal
 ◦ 入力に含まれる特定のキーワードを出力テキストで生成 したい
 • Motivation
 ◦ コピー機構では必ず制約を満たすわけではない,

    
 ◦ 制約付きデコード手法(e.g., GBS)は計算コストが高い & 生成品質が低い
 • Contribution
 ◦ 語彙制約を満たしつつ、上記のベースライン手法より品 質の高いテキストが生成可能に 
 ◦ 3種のデータセットでSOTAを達成した 

  3. Background
 • S2S Training approaches
 ◦ Pretrained-model (T5, BART)
 ◦

    Copy Mechanism
 • Constrained decoding approaches
 ◦ Constrained Beam Search
 ◦ Grid Beam Search
 ◦ 様々なDato−to−TextタスクでSOTA 
 ✕ 出力をコントロールしづらい 
 ✕ 必ず語彙制約を保証できる訳ではない 
 ◦ 必ず語彙制約を保証できる 
 ✕ 計算コストが高い 
 ✕ 流暢性が欠けた文章が生成される 
 ※デコード時のBeam探索において、必ず特定の語彙 を含むように生成する方法

  4. Method


  5. Task: S2S Constrained Text Generation
 • エンコーダに与えられたXから
 
 
 •

    デコーダでテキストYを生成するタスク
 ここで、入力中の1つ以上の単語(xi)が語彙制約に相当する
 ここで、tは現在のタイムステップ数を表す 
 Vaswani et al., 2017

  6. Mention Flag
 • Mention Flagとは各ステップtにおいて語彙制約を満たしたかどうかを表す “フラグ”である
 ◦ 0: 制約ではない, 1:

    まだ言及されていない, 2: 既に言及されている
 語彙制約
 入力
 出力
 出力で言及されたの1から2へ変更 
 複数単語の制約も可能. 
 全ての単語が生成された ので1から2へ変更
 ※語形変化や類義語も 制約に導入可能

  7. Integration with S2S Transformer(1/2)
 
 一般的な S2S Transformer モデル
 •

    デコーダ側のSelf-Attention(SA) 
 • エンコーダ・デコーダのCross-Attention(CA) 
 ※KV → Key-Value Self-Attention, proposed by Vaswani et al., (2017) 

  8. Integration with S2S Transformer(2/2)
 • Mention Flag Matrix as Relative

    Position
 Mention Flag embedding
 エンコーダ側の K, V に mを加算

  9. Experiments


  10. Experimental settings
 • データセット
 ◦ Commonsense Generative Reasoning (CommonGen)
 ◦

    End-to-End restaurants dialog (E2ENLG)
 ◦ Novel Object Captioning (nocaps)
 • モデル
 ◦ w/o Pre-training
 ▪ Transformer, L3 (three-layers)
 ▪ Transformer, L3 + MF (Mention Flag)
 ◦ w/ Pre-training
 ▪ T5-Base
 ▪ T5-Base+G (Grid Beam Search)
 ▪ T5-Base+MF
 ▪ T5-Base+MF+G
 ▪ T5-Large
 ▪ T5-Large+MF など... 

  11. Experimental results on “CommonGen”(タスク設定)
 • “Concept”と呼ばれる単語集 合か一貫性のある文章を生 成するタスク
 • 語彙制約


    ◦ Concept-Set
 ◦ 例) “dog”, “frisbee”, “catch”, “throw”が生成 テキストに含まれている か?
 引用:https://github.com/INK-USC/CommonGen
  12. Experimental results on “CommonGen”(結果)
 • 高い水準で語彙制約を満たすことが可能 & 生成テキス トの品質が高い
 •

    学習中に出現していない単語(“Novel”)にも強い
 ◦ 語彙と独立して制約(MF embedding)を学習して いるので未知の語彙に強くなった
 生成例
 語彙制約をどのくら い満たすか?
 生成テキスト
 の品質

  13. Experimental results on “E2ENLG”(タスク設定)
 • Key-Valueペアからなる MR(meaning representation)から発 話文(utterance)を生成するタスク
 •

    語彙制約
 ◦ Value (キーワード)
 ◦ 例) “The Eagle”, “coffee shop”, “French”, ..etc が生成 テキストに含まれるか?
 Key → “name”
 Value → “The Eagle” 

  14. Experimental results on “E2ENLG”(結果)
 • 生成テキストの品質が高い かつ 語彙制約を高い水準で満たしている
 ◦ w/o

    Pre-trainingの場合でも同様

  15. Experimental results on “nocaps”(タスク設定)
 • 画像の説明テキスト(caption)を生成する タスク
 • 語彙制約
 ◦

    object label (e.g., “goat”, “artichoke”, “accordion”)
 ◦ 例) object labelが生成テキストに 含まれるか?
 • オブジェクト検出器
 ◦ 実験ではobject labelを予測するオ ブジェクト検出器を用いた

  16. Experimental results on “nocaps”(結果)
 • w/o Pre-trainingの設定において, 飛躍的な性能向上を確認 
 •

    学習データには出現しなかった未知のオブジェクト (out-of-dom.)に対しても高い性能を発揮 
 • 前述の2タスクよりも語彙制約の性能が低かった 
 ◦ →オブジェクト検出器の誤りでobject label自体が誤ってい ることがあったため (e.g., “ラバ”, “馬”) 

  17. Model Efficiency
 • Grid Beam Search(GBS)と比べて、実行時間(RT), メモリ使用量(#M)を大幅に改善可能 
 • ベースライン(T5-Base)と比べて、実行時間はわずかに増加

  18. Low-Resource Learning
 • Low-resourceの設定におけるモデル性能を検証 
 ◦ 元々の学習データの0.1%, 1%, 10%だけを使用した場合 


    • 全ての場合においてベースラインよりも性能向上を確認 
 ◦ 少量データでもMention Flag embeddingsの学習ができていることが推察できる 

  19. Human Evaluation
 • どちらの生成テキストが“より人間らしいか(more human-like)”を人手評価
 ◦ 各データセットで100件ずつを3人で評価
 • 比較モデル
 ◦

    Baseline:T5-base
 ◦ MF:T5-base + MF
 多くのケースでより自然なテキストを生 成できていることが推察できる 

  20. まとめ
 • 語彙制約を満たしたかどうかを表す “Mention Flag” {0,1,2} を提案 
 ◦ Cross

    AttentionにMention Flag Embeddingを組み込む 
 • 異なる3つのタスクにおいて、提案手法によりテキストの品質の高い かつ 語彙制約を高い水準で満 たすことを示した
 • Future work
 ◦ より長いテキストを想定した実験(翻訳, 要約), より大きい粒度の制約(文単位) 

  21. 個人的な感想
 • 良いところ
 ◦ “生成テキストの品質向上”と“語彙制約の高い水準”を実現した上で、実行時間も通常の モデルとほとんど遜色ない(かつ、実装も難しくない)のは画期的な手法 
 • 気になったところ
 ◦

    語彙制約がかなり多い場合、生成テキストの品質にどのような影響を与えるのか 
 ◦ 複数単語からなる語彙制約の場合、“未知の長さ”にはどのくらい対応できるのか 
 ◦ 入力テキストが長い場合(>100tokens)、どのような性能になるのか 
 ▪ 特に、翻訳タスク、要約タスクにおける性能