【論文紹介】Mention Flags (MF): Constraining Transformer-based Text Generators

Soichiro MURAKAMI（NLPチーム）   Paperfriday（2021/08/30）   論文紹介 

Summary  • Goal  ◦ 入力に含まれる特定のキーワードを出力テキストで生成したい  • Motivation  ◦ コピー機構では必ず制約を満たすわけではない,
  ◦ 制約付きデコード手法（e.g., GBS）は計算コストが高い & 生成品質が低い  • Contribution  ◦ 語彙制約を満たしつつ、上記のベースライン手法より品質の高いテキストが生成可能に   ◦ 3種のデータセットでSOTAを達成した  

Background  • S2S Training approaches  ◦ Pretrained-model （T5, BART）  ◦
Copy Mechanism  • Constrained decoding approaches  ◦ Constrained Beam Search  ◦ Grid Beam Search  ◦ 様々なDato−to−TextタスクでSOTA   ✕ 出力をコントロールしづらい   ✕ 必ず語彙制約を保証できる訳ではない   ◦ 必ず語彙制約を保証できる   ✕ 計算コストが高い   ✕ 流暢性が欠けた文章が生成される   ※デコード時のBeam探索において、必ず特定の語彙を含むように生成する方法 

Method 

Task: S2S Constrained Text Generation  • エンコーダに与えられたXから      •
デコーダでテキストYを生成するタスク  ここで、入力中の１つ以上の単語（xi）が語彙制約に相当する  ここで、tは現在のタイムステップ数を表す   Vaswani et al., 2017 

Mention Flag  • Mention Flagとは各ステップtにおいて語彙制約を満たしたかどうかを表す “フラグ”である  ◦ 0: 制約ではない, 1:
まだ言及されていない, 2: 既に言及されている  語彙制約  入力  出力  出力で言及されたの1から2へ変更   複数単語の制約も可能.   全ての単語が生成されたので1から2へ変更  ※語形変化や類義語も制約に導入可能 

Integration with S2S Transformer（1/2）    一般的な S2S Transformer モデル  •
デコーダ側のSelf-Attention（SA）   • エンコーダ・デコーダのCross-Attention（CA）   ※KV → Key-Value Self-Attention, proposed by Vaswani et al., (2017)  

Integration with S2S Transformer（2/2）  • Mention Flag Matrix as Relative
Position  Mention Flag embedding  エンコーダ側の K, V に mを加算 

Experiments 

Experimental settings  • データセット  ◦ Commonsense Generative Reasoning (CommonGen)  ◦
End-to-End restaurants dialog (E2ENLG)  ◦ Novel Object Captioning (nocaps)  • モデル  ◦ w/o Pre-training  ▪ Transformer, L3 (three-layers)  ▪ Transformer, L3 + MF (Mention Flag)  ◦ w/ Pre-training  ▪ T5-Base  ▪ T5-Base+G (Grid Beam Search)  ▪ T5-Base+MF  ▪ T5-Base+MF+G  ▪ T5-Large  ▪ T5-Large+MF など...  

Experimental results on “CommonGen”（タスク設定）  • “Concept”と呼ばれる単語集合か一貫性のある文章を生成するタスク  • 語彙制約 
◦ Concept-Set  ◦ 例) “dog”, “frisbee”, “catch”, “throw”が生成テキストに含まれているか？  引用：https://github.com/INK-USC/CommonGen

Experimental results on “CommonGen”（結果）  • 高い水準で語彙制約を満たすことが可能 & 生成テキストの品質が高い  •
学習中に出現していない単語（“Novel”）にも強い  ◦ 語彙と独立して制約（MF embedding）を学習しているので未知の語彙に強くなった  生成例  語彙制約をどのくらい満たすか?  生成テキスト  の品質 

Experimental results on “E2ENLG”（タスク設定）  • Key-Valueペアからなる MR(meaning representation)から発話文(utterance)を生成するタスク  •
語彙制約  ◦ Value (キーワード)  ◦ 例) “The Eagle”, “coffee shop”, “French”, ..etc が生成テキストに含まれるか?  Key → “name”  Value → “The Eagle”  

Experimental results on “E2ENLG”（結果）  • 生成テキストの品質が高いかつ語彙制約を高い水準で満たしている  ◦ w/o
Pre-trainingの場合でも同様 

Experimental results on “nocaps”（タスク設定）  • 画像の説明テキスト(caption)を生成するタスク  • 語彙制約  ◦
object label (e.g., “goat”, “artichoke”, “accordion”)  ◦ 例) object labelが生成テキストに含まれるか？  • オブジェクト検出器  ◦ 実験ではobject labelを予測するオブジェクト検出器を用いた 

Experimental results on “nocaps”（結果）  • w/o Pre-trainingの設定において, 飛躍的な性能向上を確認   •
学習データには出現しなかった未知のオブジェクト（out-of-dom.）に対しても高い性能を発揮   • 前述の2タスクよりも語彙制約の性能が低かった   ◦ →オブジェクト検出器の誤りでobject label自体が誤っていることがあったため (e.g., “ラバ”, “馬”)  

Model Efficiency  • Grid Beam Search(GBS)と比べて、実行時間(RT), メモリ使用量(#M)を大幅に改善可能   • ベースライン(T5-Base)と比べて、実行時間はわずかに増加
 

Low-Resource Learning  • Low-resourceの設定におけるモデル性能を検証   ◦ 元々の学習データの0.1%, 1%, 10%だけを使用した場合  
• 全ての場合においてベースラインよりも性能向上を確認   ◦ 少量データでもMention Flag embeddingsの学習ができていることが推察できる  

Human Evaluation  • どちらの生成テキストが“より人間らしいか(more human-like)”を人手評価  ◦ 各データセットで100件ずつを3人で評価  • 比較モデル  ◦
Baseline：T5-base  ◦ MF：T5-base + MF  多くのケースでより自然なテキストを生成できていることが推察できる  

まとめ  • 語彙制約を満たしたかどうかを表す “Mention Flag” {0,1,2} を提案   ◦ Cross
AttentionにMention Flag Embeddingを組み込む   • 異なる3つのタスクにおいて、提案手法によりテキストの品質の高いかつ語彙制約を高い水準で満たすことを示した  • Future work  ◦ より長いテキストを想定した実験（翻訳, 要約）, より大きい粒度の制約（文単位）  

個人的な感想  • 良いところ  ◦ “生成テキストの品質向上”と“語彙制約の高い水準”を実現した上で、実行時間も通常のモデルとほとんど遜色ない（かつ、実装も難しくない）のは画期的な手法   • 気になったところ  ◦
語彙制約がかなり多い場合、生成テキストの品質にどのような影響を与えるのか   ◦ 複数単語からなる語彙制約の場合、“未知の長さ”にはどのくらい対応できるのか   ◦ 入力テキストが長い場合（>100tokens）、どのような性能になるのか   ▪ 特に、翻訳タスク、要約タスクにおける性能  

【論文紹介】Mention Flags (MF): Constraining Transfor...

【論文紹介】Mention Flags (MF): Constraining Transformer-based Text Generators

Soichiro Murakami

More Decks by Soichiro Murakami

Other Decks in Research

Featured

Transcript

Soichiro MURAKAMI（NLPチーム）   Paperfriday（2021/08/30）   論文紹介

Summary  • Goal  ◦ 入力に含まれる特定のキーワードを出力テキストで生成したい  • Motivation  ◦ コピー機構では必ず制約を満たすわけではない,

Background  • S2S Training approaches  ◦ Pretrained-model （T5, BART）  ◦

Method

Task: S2S Constrained Text Generation  • エンコーダに与えられたXから      •

Mention Flag  • Mention Flagとは各ステップtにおいて語彙制約を満たしたかどうかを表す “フラグ”である  ◦ 0: 制約ではない, 1:

Integration with S2S Transformer（1/2）    一般的な S2S Transformer モデル  •

Integration with S2S Transformer（2/2）  • Mention Flag Matrix as Relative

Experiments

Experimental settings  • データセット  ◦ Commonsense Generative Reasoning (CommonGen)  ◦

Experimental results on “CommonGen”（タスク設定）  • “Concept”と呼ばれる単語集合か一貫性のある文章を生成するタスク  • 語彙制約

Experimental results on “CommonGen”（結果）  • 高い水準で語彙制約を満たすことが可能 & 生成テキストの品質が高い  •

Experimental results on “E2ENLG”（タスク設定）  • Key-Valueペアからなる MR(meaning representation)から発話文(utterance)を生成するタスク  •

Experimental results on “E2ENLG”（結果）  • 生成テキストの品質が高いかつ語彙制約を高い水準で満たしている  ◦ w/o

Experimental results on “nocaps”（タスク設定）  • 画像の説明テキスト(caption)を生成するタスク  • 語彙制約  ◦

Experimental results on “nocaps”（結果）  • w/o Pre-trainingの設定において, 飛躍的な性能向上を確認   •

Model Efficiency  • Grid Beam Search(GBS)と比べて、実行時間(RT), メモリ使用量(#M)を大幅に改善可能   • ベースライン(T5-Base)と比べて、実行時間はわずかに増加

Low-Resource Learning  • Low-resourceの設定におけるモデル性能を検証   ◦ 元々の学習データの0.1%, 1%, 10%だけを使用した場合

Human Evaluation  • どちらの生成テキストが“より人間らしいか(more human-like)”を人手評価  ◦ 各データセットで100件ずつを3人で評価  • 比較モデル  ◦

まとめ  • 語彙制約を満たしたかどうかを表す “Mention Flag” {0,1,2} を提案   ◦ Cross