Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 SNLP2021 A Distributional Approach to Controlled Text Generation

S
May 17, 2023

論文読み会 SNLP2021 A Distributional Approach to Controlled Text Generation

第13回最先端NLP勉強会
A Distributional Approach to Controlled Text Generation (ICLR 2021)
https://sites.google.com/view/snlp-jp/home/

S

May 17, 2023
Tweet

More Decks by S

Other Decks in Research

Transcript

  1. A Distributional Approach To Controlled Text Generation. In: ICLR 2021

    Muhammad Khalifa, Hady Elsahar, Marc Dymetman 第13回 最先端NLP勉強会 Titech Okazaki Lab/Hottolink: Sakae Mizuki 2021/09/17 ※ スライド中の図表・数式は,断りのないかぎり本論文からの引用です
  2. 多様で高品質なテキスト生成を制御する • 目的 • 大規模言語モデルのおかげで,高品質かつ多様なテキスト生成が可能になった. • 次は,生成されるテキストの内容(=言語モデルのふるまい)を制御したい. • たとえば「ポジティブなレビュー文」を狙って生成できるようにしたい. •

    課題 • 内容を制御すると,生成文の多様性が失われてしまう(degeneration). • 人間と協働して執筆するときは,多様な候補文を生成してほしい. • 仮説 • 元の言語モデルからの乖離を抑えれば,高品質・多様性を維持できるのではないか. • つまり 1)要求される制約を満たしつつ 2)元の言語モデルに近い カスタム言語モデル を作ることができれば,制御性・高品質・多様性をすべて充足できるのでは? • 提案手法 • Generation with Distributional Control(=GDC)を提案する. • GDCは,生成文の分布(Distributional Approach)に対して制約や報酬を定義する. • 文単位で報酬を与えないことによりdegenerationを回避. 3
  3. 結果は良好です • センチメントが”very positive”という制約のもとで,1万文を生成. • 提案手法(GDC)は制約を満たしつつ(𝜙 𝑥 = 1),流暢な文を重複ゼロ(Reps=1)で生成. 5

    重複文の数 制約の充足度 単語繰り返しが発生 多様性ゼロ(Reps=10k) 流暢かつ多様 重複文多数(Reps>4k) ※ ハイライトは,単語の生成頻度を表す. 提案手法 ベースライン
  4. 事前準備:言語モデルと制約条件のセットアップ • まず,多様性と流暢性を備えた言語モデル𝑎を用意する(例:GPT-2). • つぎに,制御したい内容(例:女性科学者)を,文を入力にとる関数 𝜙 として定義する. • 例:𝜙𝑠ℎ𝑒 =

    {she, her, hersを含むなら1を返す} • 最後に,各内容の充足度を,定数𝜇として定義する. • 点制約ならば0または1を指定(例:”scientist”は必須ワードにしたい→ 𝜇𝑠𝑐𝑖𝑒𝑛𝑡𝑖𝑠𝑡 = 1.0) . • 分布制約ならば0~1の実数を指定(例:生成文の半分は女性にしたい→ 𝜇𝑠ℎ𝑒 = 0.5 ). 本研究のnoveltyのひとつ. Distributional Approachの副産物でもある.
  5. カスタム言語モデルを求める • 前項で定義した制約条件{𝜙𝑖 , 𝜇𝑖 }を満たしつつ,元の言語モデル𝑎とのKL距離 𝐷𝐾𝐿 (𝑝||𝑎)が最小のカスタム言語モデル𝑝を求める. • 実をいうと𝑝はEnergy-Based

    Modelとして解析的に記述できる[Theorem 1][Csiszar & Shields, 2004].おわり? 𝑝 𝑥 = 1 𝑍 𝑃 𝑥 𝑃 𝑥 = 𝑎 𝑥 exp ෍ 𝑖 𝜆𝑖 𝜙𝑖 𝑥 𝑍 = ෍ 𝑥∈𝑋 𝑃 𝑥 分配関数 エネルギー関数(※) カスタム言語モデル ※ 変数𝜆𝑖 は{𝜙𝑖 , 𝜇𝑖 }から導出できる(1次のmoment matching). 詳細は論文のAlgorithm 1を参照. She is a renowned scientist… 𝑝 元のLM 制約を満たす文をlift
  6. カスタム言語モデルを近似する • カスタム言語モデル𝑝は,テキスト生成には使えない. • 制約用関数𝜙が自己回帰ではないので,系列サンプリングができない. • MCMCならサンプリング可能だが,効率性追求のため自己回帰にこだわる. • しかし,エネルギー関数𝑃に文を入力すれば好ましさのスコアが出せる. •

    そこで𝑃を先導役にして,𝑝 とのKL距離が最小の言語モデル𝜋𝜃 を学習する. … 𝑝 𝑝 𝑥 = 1 𝑍 𝑃 𝑥 𝑃 𝑥 = 𝑎 𝑥 exp ෍ 𝑖 𝜆𝑖 𝜙𝑖 𝑥 𝑍 = ෍ 𝑥∈𝑋 𝑃 𝑥 分配関数 エネルギー関数 カスタム言語モデル 勾配をガイド 𝜋𝜃 ≡ min𝑐 𝐷𝐾𝐿 (𝑐||𝑝) She is a renowned scientist… 𝜋𝜃 三平方により 𝑎 とのKL距離最小化も保証. 詳細はTheorem 1を参照. 𝑝とのKL距離を最小化
  7. 近似言語モデルの学習アルゴリズム • 𝜋𝜃 を,流暢・多様性を備えた言語モデル𝑎で初期化.反復計算(𝑡 = 1,2, …)して𝑝に近づける. • ISによりKL距離の勾配を推定.前の世代𝜋𝜃 𝑡−1を提案分布𝑞,エネルギー関数𝑃を重みとする.

    t世代目の反復 𝜋𝜃 を𝑎で初期化(𝜋𝜃 0 = 𝑎) 提案分布(= 𝑞 = 𝜋𝜃 𝑡−1)からN個の文 𝑥𝑖 𝑖=1 𝑁 を生成 文𝑥𝑖 を𝑃で重み付けして KL距離の勾配:𝛻𝜃 𝐷𝐾𝐿 𝑝||𝜋𝜃 を推定 𝑝を𝑞 = 𝜋𝜃 𝑡−1に測度変換している.分配関数𝑍は定数のため𝛼に吸収. 前の世代(= 𝜋𝜃 𝑡−1)よりも𝑝に近づいたか確認 提案分布を更新 𝜋𝜃 ≡ min𝑐 𝐷𝐾𝐿 (𝑐||𝑝) objective KL距離を極小化する勾配 importance sampling
  8. よくある(?)質問 Q. 制約を満たす文のみが生成される保証はあるのか. A. その保証はない.実験結果も制約の充足が不完全だと示唆している(後述). • 学習終了時に𝜋𝜃 = 𝑝とは限らないので,制約を満たさない文も生成されうる. Q.

    ふつうのREINFORCEアルゴリズムとなにがちがうのか. A. 報酬の単位がちがう.文ではなく,文の集合に報酬をつける(=Distributional Approach). Q. 文の集合(で測るKL距離)に報酬をつけると,なぜdegenerationが抑制できるのか. A. KL距離に生成文の多様性が織り込まれるため. • 目的の言語モデル𝑝は,元の言語モデル𝑎に制約文のみ確率を上乗せしたもの. • 提案手法の言語モデル𝜋𝜃 は,確率を上乗せしたうえで𝑝との分布も似せようとする. • 文単位で報酬をつける(例:REINFORCE)と,制約文のごく一部に確率が集中(=degeneration). 文1 文2 … 文N 生 成 確 率 元の言語モデル𝑎 制約を満たす文 それ以外 目的の言語モデル𝑝 提案手法のモデル𝜋𝜃 制約を満たす文 それ以外 degenerationモデル𝑝′ 制約を満たす文 それ以外 KL最小 KL最小化
  9. 提案手法の性能を調べる • 提案手法をGPT-2に適用して,実効性・制御性・多様性を調べる. • 報酬の与え方が異なる既存の制御手法をベースラインとして,優位性を調べる. • セットアップ • 元の言語モデル(= 𝑎):GPT-2

    small • 制御の内容(= 𝜙) :a.必須ワード指定 b.必須ワードリスト指定 c.文分類指定 の3種類・17通り • 評価指標 • 実効性:元の言語モデルとの近さ;𝐷𝐾𝐿 𝜋𝜃 ||𝑎 • 制御性:制約を満たす生成文(n=10k)の割合;𝐸𝑥~𝜋𝜃 [𝜙(𝑥)] • 多様性:生成文(n=10k)のSelf-BLEU-5 および 重複文の数 • ベースライン • REINFORCE:制約を満たす生成文の割合を最大化;max{𝐸𝑥~𝜋𝜃 𝜙 𝑥 } • REINFORCEp:目的の言語モデル𝑝のエネルギー関数𝑃を最大化;max{𝐸𝑥~𝜋𝜃 𝑃 𝑥 } • ZIEGLER[Ziegler+, 2019]:制約とKL距離の和を最大化;max{𝐸𝑥~𝜋𝜃 𝜙 𝑥 − 𝛽𝐷𝐾𝐿 𝜋𝜃 ||𝑎 } ”Canada”∈x [”food”,”vegetable”] ∈x sentiment(x)=“positive”
  10. 総合的な結果 • センチメントが”very positive”になるよう制御した事例を示す. • 提案手法(GDC)は制約を満たしつつ(𝜙 𝑥 = 1),流暢な文を重複ゼロ(Reps=1)で生成. 14

    重複文の数 制約の充足度 単語繰り返しが発生 提案手法 多様性ゼロ(Reps=10k) 流暢かつ多様 重複文多数(Reps>4k) ※ ハイライトは,単語の生成頻度を表す.
  11. 論文のまとめ • 制約付き言語モデルの学習法;Generation with Distributional Control(GDC)を提案. • GDCは,生成文の集合に対して制約や報酬を定義(Distributional Approach).制約条件 を満たしつつ,元の言語モデル𝑎とのKL距離を最小化する言語モデル𝜋𝜃

    を学習. • 提案手法をGPT-2に適用して,実効性・制御性・多様性を検証.想定通り,KL距 離の最小化および多様な文を生成できることを実証. • 制御性は機能するも完全ではない.制約を満たさない文を生成することもある. • 生成文の品質は未評価.perplexity(Appendixには載ってる) または人手評価が望まれる. 19 要求される制約を満たしつつ,元の言語モデルに近いモデルを作れば 制御性・高品質・多様性をすべて充足できるのでは? 最近の言語モデルは,高品質かつ多様なテキスト生成が可能. しかし内容を制御すると,生成文の多様性が失われる. 課題 仮説
  12. 発表者の感想 • コンセプトが明確である. • 「流暢・多様な言語モデルからの乖離を抑える」という原理が貫かれている. • アルゴリズムがかしこい. • 学習を安定化させる工夫がある(提案分布の逐次更新,更新パラメータの採否判定) .

    • 柔軟性が高い. • さまざまな制御;単語,単語リスト,文分類に対応できる. • Plug & Play LM[Dathathri+, 2020]と異なり,promptが不要. • CTRL[Keskar+, 2019]と異なり,単語ブラックリストの指定が可能. • 計算負荷が大きい. • 学習過程で大量の文を生成する必要がある. • 制御内容ごとにモデルを作る必要がある. • AdapterFusion [Pfeiffer+, EACL2021] が適用できれば,楽になるかもしれない 20
  13. 強力な既存手法との比較 • 近年のテキスト制御手法;Plug & Play LM[Dathathri+, 2020] およびCTRL[Keskar+, 2019] と比較.

    • 提案手法は流暢性(Perplexity) と制御性(𝐸[𝜙(𝑥)]) で優位.多様性はコンパラ. 24
  14. カスタム言語モデルのパラメータ推定 • カスタム言語モデルのエネルギー関数𝑃には,liftを制御するパラメータ𝜆がある. • 𝜆が大きいほど,制約を満たす文のスコアが高くなる. • 𝜆は制約条件{𝜙𝑖 , 𝜇𝑖 }から導出できる.具体的には1次のmoment

    matching; 𝐸𝑥~𝑝 𝝓 𝑥 = 𝝁 を満たす値を求める.求解方法はAlgorithm 1のとおり. 26 𝑝 𝑥 = 1 𝑍 𝑃 𝑥 𝑃 𝑥 = 𝑎 𝑥 exp ෍ 𝑖 𝜆𝑖 𝜙𝑖 𝑥 𝑍 = ෍ 𝑥∈𝑋 𝑃 𝑥 分配関数 エネルギー関数 カスタム言語モデル
  15. KL距離の勾配の導出 • 近似言語モデル𝜋𝜃 の学習は,ISにより推定したKL距離の勾配を用いる. • 勾配の導出は以下の通り. 27 ∇𝜃 𝐷KL (𝑝|

    𝜋𝜃 = ∇𝜃 𝐸𝑥~𝑝 log 𝑝 𝑥 𝜋𝜃 𝑥 = −𝐸𝑥~𝑝 ∇𝜃 log𝜋𝜃 𝑥 = −𝐸𝑥~𝑞 𝑝(𝑥) 𝑞(𝑥) ∇𝜃 log𝜋𝜃 𝑥 = −𝐸𝑥~𝑞 𝑍−1𝑃 𝑥 𝑞 𝑥 ∇𝜃 log𝜋𝜃 𝑥 = −𝑍−1𝐸𝑥~𝑞 𝑃(𝑥) 𝑞(𝑥) ∇𝜃 log𝜋𝜃 𝑥
  16. 主な参考文献 • Imre Csiszar and Paul C. Shields. Information theory

    and statistics: A tutorial. Commun. Inf. Theory, 1(4):417–528, December 2004. • Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Fine-tuning language models from human preferences. CoRR, abs/1909.08593, 2019. • Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu. Plug and play language models: A simple approach to controlled text generation. In 8th International Conference on Learning Representations, ICLR 2020. (PPLM: Plug-and-Play Language Model) • Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher. CTRL: A conditional transformer language model for controllable generation. CoRR, abs/1909.05858, 2019. (CTRL: Conditional Transformer Language Model) 28