Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Direct Preference Optimization
Search
Henry Cui
February 24, 2024
Science
0
230
Direct Preference Optimization
Henry Cui
February 24, 2024
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
0
34
Diffusion Model with Perceptual Loss
zchenry
0
140
レンズの下のLLM / LLM under the Lens
zchenry
0
130
Go with the Prompt Flow
zchenry
0
110
Mojo Dojo
zchenry
1
160
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
280
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
140
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
70
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
130
Other Decks in Science
See All in Science
統計的因果探索の方法
sshimizu2006
1
990
Xpenologyなるアングラプロジェクト周りについて語るやつ
sushi514
0
880
HAS Dark Site Orientation
astronomyhouston
0
5.1k
『データ可視化学入門』を PythonからRに翻訳した話
bob3bob3
1
430
Презентация программы бакалавриата СПбГУ "Искусственный интеллект и наука о данных"
dscs
0
400
The Incredible Machine: Developer Productivity and the Impact of AI
tomzimmermann
0
270
構造設計のための3D生成AI-最新の取り組みと今後の展開-
kojinishiguchi
0
280
HIBINO Aiko
genomethica
0
520
大規模言語モデルの開発
chokkan
PRO
80
27k
ベイズ最適化をゼロから
brainpadpr
2
360
20240127_OpenRadiossエアバッグ解析
kamakiri1225
0
210
山形とさくらんぼに関するレクチャー(YG-900)
07jp27
1
160
Featured
See All Featured
WebSockets: Embracing the real-time Web
robhawkes
59
7.2k
Web Components: a chance to create the future
zenorocha
307
41k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
StorybookのUI Testing Handbookを読んだ
zakiyama
15
4.9k
Designing for Performance
lara
604
67k
Music & Morning Musume
bryan
43
5.9k
Rebuilding a faster, lazier Slack
samanthasiow
78
8.5k
Infographics Made Easy
chrislema
238
18k
Producing Creativity
orderedlist
PRO
340
39k
How STYLIGHT went responsive
nonsquared
93
5k
How GitHub Uses GitHub to Build GitHub
holman
471
290k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
662
120k
Transcript
Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24
内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪
著者に有名な先生が多い 2
モチベーション ▪ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) • 大量コードの平均能力でなく、少量存在の優れたコードに • 一般大衆のもつ誤認識でなく、それを修正すべき ▪ Alignmentを達成するために、現状2段階の複雑な強化学習
手法を使うので、それと理論上等価なシンプルな手法を提案 3
RLHFアプローチの3ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定
• BTの仮定で導出する損失関数 ▪ RL Fine-tune • Rewardモデルを使って、下記損失関数でfine-tune ▪ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4
提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model
Is Secretly a Reward Model ▪ Rewardモデルを学習する損失関数に代入する • BTモデルのお陰で、Zが消える • Directに言語モデルを最適化できるようになる 5
実験 ▪ 3つのタスクで評価 • controlled sentiment generation • summarization •
single-turn dialogue ▪ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ▪ 多数のオープンソース言語モデルに実装 6