論文読み会 SNLP2021 A Distributional Approach to Controlled Text Generation

A Distributional Approach To Controlled Text Generation. In: ICLR 2021
Muhammad Khalifa, Hady Elsahar, Marc Dymetman 第13回最先端NLP勉強会 Titech Okazaki Lab/Hottolink: Sakae Mizuki 2021/09/17 ※ スライド中の図表・数式は，断りのないかぎり本論文からの引用です

Overview of the Research 2

多様で高品質なテキスト生成を制御する • 目的 • 大規模言語モデルのおかげで，高品質かつ多様なテキスト生成が可能になった． • 次は，生成されるテキストの内容（=言語モデルのふるまい）を制御したい． • たとえば「ポジティブなレビュー文」を狙って生成できるようにしたい． •
課題 • 内容を制御すると，生成文の多様性が失われてしまう（degeneration）． • 人間と協働して執筆するときは，多様な候補文を生成してほしい． • 仮説 • 元の言語モデルからの乖離を抑えれば，高品質・多様性を維持できるのではないか． • つまり 1)要求される制約を満たしつつ 2)元の言語モデルに近いカスタム言語モデルを作ることができれば，制御性・高品質・多様性をすべて充足できるのでは？ • 提案手法 • Generation with Distributional Control(=GDC)を提案する． • GDCは，生成文の分布（Distributional Approach）に対して制約や報酬を定義する． • 文単位で報酬を与えないことによりdegenerationを回避． 3

つまり，カスタム言語モデルの作り方の提案 • 本研究は，要求される制約ℂを満たしつつ，元の言語モデル𝑎にもっとも近いカスタム言語モデル𝑝を学習する方法を提案するもの． 4 元の言語モデル要求される制約（を満たす言語モデルの集合）もっとも近いカスタム言語モデル

結果は良好です • センチメントが”very positive”という制約のもとで，１万文を生成． • 提案手法(GDC)は制約を満たしつつ(𝜙 𝑥 = 1)，流暢な文を重複ゼロ(Reps=1)で生成． 5
重複文の数制約の充足度単語繰り返しが発生多様性ゼロ(Reps=10k) 流暢かつ多様重複文多数(Reps>4k) ※ ハイライトは，単語の生成頻度を表す．提案手法ベースライン

Methodology 6

事前準備：言語モデルと制約条件のセットアップ • まず，多様性と流暢性を備えた言語モデル𝑎を用意する（例：GPT-2）． • つぎに，制御したい内容（例：女性科学者）を，文を入力にとる関数 𝜙 として定義する． • 例：𝜙𝑠ℎ𝑒 =
{she, her, hersを含むなら1を返す} • 最後に，各内容の充足度を，定数𝜇として定義する． • 点制約ならば0または1を指定（例：”scientist”は必須ワードにしたい→ 𝜇𝑠𝑐𝑖𝑒𝑛𝑡𝑖𝑠𝑡 = 1.0）． • 分布制約ならば0～1の実数を指定（例：生成文の半分は女性にしたい→ 𝜇𝑠ℎ𝑒 = 0.5 ）．本研究のnoveltyのひとつ． Distributional Approachの副産物でもある．

カスタム言語モデルを求める • 前項で定義した制約条件{𝜙𝑖 , 𝜇𝑖 }を満たしつつ，元の言語モデル𝑎とのKL距離 𝐷𝐾𝐿 (𝑝||𝑎)が最小のカスタム言語モデル𝑝を求める． • 実をいうと𝑝はEnergy-Based
Modelとして解析的に記述できる[Theorem 1][Csiszar & Shields, 2004]．おわり？ 𝑝 𝑥 = 1 𝑍 𝑃 𝑥 𝑃 𝑥 = 𝑎 𝑥 exp ෍ 𝑖 𝜆𝑖 𝜙𝑖 𝑥 𝑍 = ෍ 𝑥∈𝑋 𝑃 𝑥 分配関数エネルギー関数(※) カスタム言語モデル ※ 変数𝜆𝑖 は{𝜙𝑖 , 𝜇𝑖 }から導出できる(1次のmoment matching)．詳細は論文のAlgorithm 1を参照． She is a renowned scientist… 𝑝 元のLM 制約を満たす文をlift

カスタム言語モデルを近似する • カスタム言語モデル𝑝は，テキスト生成には使えない． • 制約用関数𝜙が自己回帰ではないので，系列サンプリングができない． • MCMCならサンプリング可能だが，効率性追求のため自己回帰にこだわる． • しかし，エネルギー関数𝑃に文を入力すれば好ましさのスコアが出せる． •
そこで𝑃を先導役にして，𝑝 とのKL距離が最小の言語モデル𝜋𝜃 を学習する． … 𝑝 𝑝 𝑥 = 1 𝑍 𝑃 𝑥 𝑃 𝑥 = 𝑎 𝑥 exp ෍ 𝑖 𝜆𝑖 𝜙𝑖 𝑥 𝑍 = ෍ 𝑥∈𝑋 𝑃 𝑥 分配関数エネルギー関数カスタム言語モデル勾配をガイド 𝜋𝜃 ≡ min𝑐 𝐷𝐾𝐿 (𝑐||𝑝) She is a renowned scientist… 𝜋𝜃 三平方により 𝑎 とのKL距離最小化も保証．詳細はTheorem 1を参照． 𝑝とのKL距離を最小化

近似言語モデルの学習アルゴリズム • 𝜋𝜃 を，流暢・多様性を備えた言語モデル𝑎で初期化．反復計算(𝑡 = 1,2, …)して𝑝に近づける． • ISによりKL距離の勾配を推定．前の世代𝜋𝜃 𝑡−1を提案分布𝑞，エネルギー関数𝑃を重みとする．
t世代目の反復 𝜋𝜃 を𝑎で初期化(𝜋𝜃 0 = 𝑎) 提案分布(= 𝑞 = 𝜋𝜃 𝑡−1)からN個の文 𝑥𝑖 𝑖=1 𝑁 を生成文𝑥𝑖 を𝑃で重み付けして KL距離の勾配：𝛻𝜃 𝐷𝐾𝐿 𝑝||𝜋𝜃 を推定 𝑝を𝑞 = 𝜋𝜃 𝑡−1に測度変換している．分配関数𝑍は定数のため𝛼に吸収．前の世代(= 𝜋𝜃 𝑡−1)よりも𝑝に近づいたか確認提案分布を更新 𝜋𝜃 ≡ min𝑐 𝐷𝐾𝐿 (𝑐||𝑝) objective KL距離を極小化する勾配 importance sampling

よくある(？)質問 Q. 制約を満たす文のみが生成される保証はあるのか． A. その保証はない．実験結果も制約の充足が不完全だと示唆している（後述）． • 学習終了時に𝜋𝜃 = 𝑝とは限らないので，制約を満たさない文も生成されうる． Q.
ふつうのREINFORCEアルゴリズムとなにがちがうのか． A. 報酬の単位がちがう．文ではなく，文の集合に報酬をつける(=Distributional Approach)． Q. 文の集合(で測るKL距離)に報酬をつけると，なぜdegenerationが抑制できるのか． A. KL距離に生成文の多様性が織り込まれるため． • 目的の言語モデル𝑝は，元の言語モデル𝑎に制約文のみ確率を上乗せしたもの． • 提案手法の言語モデル𝜋𝜃 は，確率を上乗せしたうえで𝑝との分布も似せようとする． • 文単位で報酬をつける(例：REINFORCE)と，制約文のごく一部に確率が集中(=degeneration)．文1 文2 … 文N 生成確率元の言語モデル𝑎 制約を満たす文それ以外目的の言語モデル𝑝 提案手法のモデル𝜋𝜃 制約を満たす文それ以外 degenerationモデル𝑝′ 制約を満たす文それ以外 KL最小 KL最小化

Experiments 12

提案手法の性能を調べる • 提案手法をGPT-2に適用して，実効性・制御性・多様性を調べる． • 報酬の与え方が異なる既存の制御手法をベースラインとして，優位性を調べる． • セットアップ • 元の言語モデル(= 𝑎)：GPT-2
small • 制御の内容(= 𝜙) ：a.必須ワード指定 b.必須ワードリスト指定 c.文分類指定の3種類・17通り • 評価指標 • 実効性：元の言語モデルとの近さ；𝐷𝐾𝐿 𝜋𝜃 ||𝑎 • 制御性：制約を満たす生成文(n=10k)の割合；𝐸𝑥~𝜋𝜃 [𝜙(𝑥)] • 多様性：生成文(n=10k)のSelf-BLEU-5 および重複文の数 • ベースライン • REINFORCE：制約を満たす生成文の割合を最大化；max{𝐸𝑥~𝜋𝜃 𝜙 𝑥 } • REINFORCEp：目的の言語モデル𝑝のエネルギー関数𝑃を最大化；max{𝐸𝑥~𝜋𝜃 𝑃 𝑥 } • ZIEGLER[Ziegler+, 2019]：制約とKL距離の和を最大化；max{𝐸𝑥~𝜋𝜃 𝜙 𝑥 − 𝛽𝐷𝐾𝐿 𝜋𝜃 ||𝑎 } ”Canada”∈x [”food”,”vegetable”] ∈x sentiment(x)=“positive”

総合的な結果 • センチメントが”very positive”になるよう制御した事例を示す． • 提案手法(GDC)は制約を満たしつつ(𝜙 𝑥 = 1)，流暢な文を重複ゼロ(Reps=1)で生成． 14
重複文の数制約の充足度単語繰り返しが発生提案手法多様性ゼロ(Reps=10k) 流暢かつ多様重複文多数(Reps>4k) ※ ハイライトは，単語の生成頻度を表す．

個別の結果：実効性 • 提案手法(青色)のモデルは，元の言語モデルにもっとも近づく (𝐷𝐾𝐿 𝜋𝜃 ||𝑎 が最小)． • 想定どおりに「元のモデルに近いカスタム言語モデルを作る」ことができている． 15
元の言語モデルとの距離 𝐷𝐾𝐿 𝜋𝜃 ||𝑎 が最小 ※ すべての制御例(17通り)の平均

個別の結果：制御性 • 提案手法(青色)のモデルは，制約の充足が不完全(𝐸𝑥~𝜋𝜃 𝜙 𝑥 ≈ 0.6)． • 制御性についてはベースラインのほうが優れている． 16
制約を満たす文の割合制約を満たす文は約6割 ※ すべての制御例(17通り)の平均

個別の結果：多様性 • 提案手法(青色)のモデルは，生成文(n=10k)の多様性が高い(Self-BLEU-5が最小)． • 「元の言語モデル(GPT-2)が持つ多様性を引き継ぐ」ことができているようだ． 17 重複文・単語繰り返しが少ない ※ すべての制御例(17通り)の平均生
成文どうしの類似度

Conclusion 18

論文のまとめ • 制約付き言語モデルの学習法；Generation with Distributional Control(GDC)を提案． • GDCは，生成文の集合に対して制約や報酬を定義(Distributional Approach)．制約条件を満たしつつ，元の言語モデル𝑎とのKL距離を最小化する言語モデル𝜋𝜃
を学習． • 提案手法をGPT-2に適用して，実効性・制御性・多様性を検証．想定通り，KL距離の最小化および多様な文を生成できることを実証． • 制御性は機能するも完全ではない．制約を満たさない文を生成することもある． • 生成文の品質は未評価．perplexity(Appendixには載ってる) または人手評価が望まれる． 19 要求される制約を満たしつつ，元の言語モデルに近いモデルを作れば制御性・高品質・多様性をすべて充足できるのでは？最近の言語モデルは，高品質かつ多様なテキスト生成が可能．しかし内容を制御すると，生成文の多様性が失われる．課題仮説

発表者の感想 • コンセプトが明確である． • 「流暢・多様な言語モデルからの乖離を抑える」という原理が貫かれている． • アルゴリズムがかしこい． • 学習を安定化させる工夫がある（提案分布の逐次更新，更新パラメータの採否判定）．
• 柔軟性が高い． • さまざまな制御；単語，単語リスト，文分類に対応できる． • Plug & Play LM[Dathathri+, 2020]と異なり，promptが不要． • CTRL[Keskar+, 2019]と異なり，単語ブラックリストの指定が可能． • 計算負荷が大きい． • 学習過程で大量の文を生成する必要がある． • 制御内容ごとにモデルを作る必要がある． • AdapterFusion [Pfeiffer+, EACL2021] が適用できれば，楽になるかもしれない 20

Appendix 21

1ページで提案手法を理解する ref: https://github.com/naver/gdc

簡易なバイアス解消にも応用できそう • 提案手法を応用して，略歴生成に特化した言語モデル(GPT2bio [Lebret+, 2016])が持つ性別・職業バイアスの修正を試みる． • 修正前(Before：緑枠)と修正後(After：青枠)を比較すると，制約を満たす文の割合が設定値(Desired：赤枠)に近づいている．バイアスの修正にも有効なことを示唆． 23
She is a renowned scientist… He is one of the greatest researcher…

強力な既存手法との比較 • 近年のテキスト制御手法；Plug & Play LM[Dathathri+, 2020] およびCTRL[Keskar+, 2019] と比較．
• 提案手法は流暢性(Perplexity) と制御性(𝐸[𝜙(𝑥)]) で優位．多様性はコンパラ． 24

制約の充足とKL距離最小化の両立はむずかしい • 論文中の実験では，制御性は機能するも完全ではないことが示された． • 原因は，元の言語モデルとの乖離(KL距離)最小化の不可避な副作用かもしれない． • 実証実験として，制約を満たす文を訓練データとしてGPT-2を教師あり学習した． • 汎化誤差最小(左図)のとき，制約を満たす文の割合は56%(右図)にすぎなかった．つまり制約の充足と乖離最小化の両立は，教師あり学習ですら容易ではない．
25

カスタム言語モデルのパラメータ推定 • カスタム言語モデルのエネルギー関数𝑃には，liftを制御するパラメータ𝜆がある． • 𝜆が大きいほど，制約を満たす文のスコアが高くなる． • 𝜆は制約条件{𝜙𝑖 , 𝜇𝑖 }から導出できる．具体的には1次のmoment
matching； 𝐸𝑥~𝑝 𝝓 𝑥 = 𝝁 を満たす値を求める．求解方法はAlgorithm 1のとおり． 26 𝑝 𝑥 = 1 𝑍 𝑃 𝑥 𝑃 𝑥 = 𝑎 𝑥 exp ෍ 𝑖 𝜆𝑖 𝜙𝑖 𝑥 𝑍 = ෍ 𝑥∈𝑋 𝑃 𝑥 分配関数エネルギー関数カスタム言語モデル

KL距離の勾配の導出 • 近似言語モデル𝜋𝜃 の学習は，ISにより推定したKL距離の勾配を用いる． • 勾配の導出は以下の通り． 27 ∇𝜃 𝐷KL (𝑝|
𝜋𝜃 = ∇𝜃 𝐸𝑥~𝑝 log 𝑝 𝑥 𝜋𝜃 𝑥 = −𝐸𝑥~𝑝 ∇𝜃 log𝜋𝜃 𝑥 = −𝐸𝑥~𝑞 𝑝(𝑥) 𝑞(𝑥) ∇𝜃 log𝜋𝜃 𝑥 = −𝐸𝑥~𝑞 𝑍−1𝑃 𝑥 𝑞 𝑥 ∇𝜃 log𝜋𝜃 𝑥 = −𝑍−1𝐸𝑥~𝑞 𝑃(𝑥) 𝑞(𝑥) ∇𝜃 log𝜋𝜃 𝑥

主な参考文献 • Imre Csiszar and Paul C. Shields. Information theory
and statistics: A tutorial. Commun. Inf. Theory, 1(4):417–528, December 2004. • Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Fine-tuning language models from human preferences. CoRR, abs/1909.08593, 2019. • Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu. Plug and play language models: A simple approach to controlled text generation. In 8th International Conference on Learning Representations, ICLR 2020. (PPLM: Plug-and-Play Language Model) • Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher. CTRL: A conditional transformer language model for controllable generation. CoRR, abs/1909.05858, 2019. (CTRL: Conditional Transformer Language Model) 28

論文読み会 SNLP2021 A Distributional Approach to Con...

論文読み会 SNLP2021 A Distributional Approach to Controlled Text Generation

S

More Decks by S

Other Decks in Research

Featured

Transcript

A Distributional Approach To Controlled Text Generation. In: ICLR 2021

Overview of the Research 2

結果は良好です • センチメントが”very positive”という制約のもとで，１万文を生成． • 提案手法(GDC)は制約を満たしつつ(𝜙 𝑥 = 1)，流暢な文を重複ゼロ(Reps=1)で生成． 5

Methodology 6

カスタム言語モデルを求める • 前項で定義した制約条件{𝜙𝑖 , 𝜇𝑖 }を満たしつつ，元の言語モデル𝑎とのKL距離 𝐷𝐾𝐿 (𝑝||𝑎)が最小のカスタム言語モデル𝑝を求める． • 実をいうと𝑝はEnergy-Based

Experiments 12

総合的な結果 • センチメントが”very positive”になるよう制御した事例を示す． • 提案手法(GDC)は制約を満たしつつ(𝜙 𝑥 = 1)，流暢な文を重複ゼロ(Reps=1)で生成． 14

個別の結果：実効性 • 提案手法(青色)のモデルは，元の言語モデルにもっとも近づく (𝐷𝐾𝐿 𝜋𝜃 ||𝑎 が最小)． • 想定どおりに「元のモデルに近いカスタム言語モデルを作る」ことができている． 15

個別の結果：制御性 • 提案手法(青色)のモデルは，制約の充足が不完全(𝐸𝑥~𝜋𝜃 𝜙 𝑥 ≈ 0.6)． • 制御性についてはベースラインのほうが優れている． 16

Conclusion 18

Appendix 21

1ページで提案手法を理解する ref: https://github.com/naver/gdc

強力な既存手法との比較 • 近年のテキスト制御手法；Plug & Play LM[Dathathri+, 2020] およびCTRL[Keskar+, 2019] と比較．

KL距離の勾配の導出 • 近似言語モデル𝜋𝜃 の学習は，ISにより推定したKL距離の勾配を用いる． • 勾配の導出は以下の通り． 27 ∇𝜃 𝐷KL (𝑝|

主な参考文献 • Imre Csiszar and Paul C. Shields. Information theory