Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CoCon
Search
Zhang Yixiao
December 16, 2020
Science
0
350
CoCon
Zhang Yixiao
December 16, 2020
Tweet
Share
More Decks by Zhang Yixiao
See All by Zhang Yixiao
vq-cpc
ldzhangyx
0
350
MixPoet
ldzhangyx
4
380
diora
ldzhangyx
0
250
drummernet
ldzhangyx
0
210
ON-LSTM
ldzhangyx
0
160
Other Decks in Science
See All in Science
03_草原和博_広島大学大学院人間社会科学研究科教授_デジタル_シティズンシップシティで_新たな_学び__をつくる.pdf
sip3ristex
0
470
モンテカルロDCF法による事業価値の算出(モンテカルロ法とベイズモデリング) / Business Valuation Using Monte Carlo DCF Method (Monte Carlo Simulation and Bayesian Modeling)
ikuma_w
0
170
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
920
05_山中真也_室蘭工業大学大学院工学研究科教授_だてプロの挑戦.pdf
sip3ristex
0
500
白金鉱業Meetup Vol.16_【初学者向け発表】 数理最適化のはじめの一歩 〜身近な問題で学ぶ最適化の面白さ〜
brainpadpr
11
2.2k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
130
Valuable Lessons Learned on Kaggle’s ARC AGI LLM Challenge (PyDataGlobal 2024)
ianozsvald
0
390
システム数理と応用分野の未来を切り拓くロードマップ・エンターテインメント(スポーツ)への応用 / Applied mathematics for sports entertainment
konakalab
1
330
Iniciativas independentes de divulgação científica: o caso do Movimento #CiteMulheresNegras
taisso
0
1.5k
07_浮世満理子_アイディア高等学院学院長_一般社団法人全国心理業連合会代表理事_紹介資料.pdf
sip3ristex
0
480
動的トリートメント・レジームを推定するDynTxRegimeパッケージ
saltcooky12
0
140
高校生就活へのDA導入の提案
shunyanoda
0
300
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Gamification - CAS2011
davidbonilla
81
5.3k
Facilitating Awesome Meetings
lara
54
6.4k
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
Side Projects
sachag
455
42k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Fireside Chat
paigeccino
37
3.5k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
VelocityConf: Rendering Performance Case Studies
addyosmani
331
24k
Transcript
CoCon: A Self-Supervised Approach for Controlled Text Generation Presenter: Yixiao
Zhang
TL;DR • 任务:用文本指导文本,进行可控生成 • 亮点: • 让文本成为控制变量:更加灵活 • 漂亮的损失函数 •
模型是自监督训练的 • 结果表明显著加强了语言模型的可控性
Introduction • 基于Transformer的预训练LM成为了新的浪潮,但是从头训练LM 的成本巨大 • 问题:不改变预训练LM的情况下,LM如何进行控制? • 解决办法1:PPLM,通过属性模型控制生成文本 • 缺点:不够精细,可能造成巨大差异
Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu. Plug and play language models: a simple approach to controlled text generation. arXiv preprint arXiv:1912.02164, 2019.
Related Work • 生成包含所需属性的文本 • 早期工作 • 条件生成模型,可通过RL或GAN训练 • 缺陷:对预定属性的要求限制了生成文本的可能类型
• CTRL • 使用control code(预置的metadata)生成文本 • 缺陷:control code也是预先设定的 • PPLM(最相似) • 在LM上插拔一个模块,不重新训练实现生成 • 区别: • 本文旨在在更局部的内容上控制 • CoCon自监督学习,免去了标签数据
Related Work • 文本风格迁移 • 少数研究采用AE以分离表示 • 另外一些模型能识别attribute markers •
一些特定风格相关的n-grams • 通过替换的方式编辑文本风格
CoCon • 模型目标: • 给定引导文本1:−1 和控制文本,模型 生成: • 过程: •
分别编码c和x • 自注意力交互,得 到新的特征 • 进行下一个词预测
CoCon • CoCon是一个单层 Transformer Block • 首先得到x和c的QKV • 将KV拼起来过self-attn
Loss Function • 自重构损失(Self Reconstruction Loss) • 令c = ,使得模型能够学习结合控制文本的内容
• 无文本损失(Null Content Loss) • 令 = ∅,使得模型退化成LM,以生成流畅的文本
Loss Function • 循环重构损失(Cycle Reconstruction Loss) • 在inference中,生成文本不太可能与引导文本共存 • 给定两个不同的文本(,
′)
Loss Function • 对抗损失(Adversarial Loss) • 总优化目标
实验 • 文本引导的文本生成评估指标有BLEU、NIST、METEOR、PPL和 Dist-1/2/3
实验 • 文本引导的文本生成评估指标有BLEU、NIST、METEOR、PPL和 Dist-1/2/3
例子
多个控制