Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Direct Preference Optimization
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Henry Cui
February 24, 2024
Science
470
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Direct Preference Optimization
Henry Cui
February 24, 2024
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
1
250
Diffusion Model with Perceptual Loss
zchenry
0
520
レンズの下のLLM / LLM under the Lens
zchenry
0
230
Go with the Prompt Flow
zchenry
0
230
Mojo Dojo
zchenry
0
270
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
720
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
330
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
210
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
210
Other Decks in Science
See All in Science
ITTF卓球世界ランキングのポイント比を用いた試合結果予測モデルの性能評価 / Performance evaluation of match result prediction models using the point ratio of the ITTF Table Tennis World Ranking
konakalab
0
130
AIPシンポジウム 2025年度 成果報告会 「因果推論チーム」
sshimizu2006
3
540
水耕栽培を始める前に知っておきたい植物の科学
grow_design_lab
0
250
ダメな自分の育て方―性格タイプの「劣等機能」から理解するニガテ克服術
ppillc
0
180
大黒市で発生した大規模インシデント の ポストモーテムから読み解く、 記憶媒体消去の大切さ
shucho0103
0
200
ハミルトン・ヤコビ方程式の解の性質と物理的意味
enakai00
0
700
KISHIMOTO Atsuo
genomethica
0
150
Utiliser Bitcoin sans Internet
rlifchitz
0
260
因果推論と機械学習
sshimizu2006
1
1.2k
データベース08: 実体関連モデルとは?
trycycle
PRO
0
1.2k
イロレーティングを活用した関東大学サッカーの定量的実力評価 / A quantitative performance evaluation of Kanto University Football Association using Elo rating
konakalab
0
280
【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65回 コンピュータビジョン勉強会@関東
shun6211
5
2.5k
Featured
See All Featured
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
450
Producing Creativity
orderedlist
PRO
348
40k
Are puppies a ranking factor?
jonoalderson
1
3.7k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
220
Building Applications with DynamoDB
mza
96
7.1k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
210
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
170
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Git: the NoSQL Database
bkeepers
PRO
432
67k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
Tell your own story through comics
letsgokoyo
1
980
Transcript
Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24
内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪
著者に有名な先生が多い 2
モチベーション ▪ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) • 大量コードの平均能力でなく、少量存在の優れたコードに • 一般大衆のもつ誤認識でなく、それを修正すべき ▪ Alignmentを達成するために、現状2段階の複雑な強化学習
手法を使うので、それと理論上等価なシンプルな手法を提案 3
RLHFアプローチの3ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定
• BTの仮定で導出する損失関数 ▪ RL Fine-tune • Rewardモデルを使って、下記損失関数でfine-tune ▪ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4
提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model
Is Secretly a Reward Model ▪ Rewardモデルを学習する損失関数に代入する • BTモデルのお陰で、Zが消える • Directに言語モデルを最適化できるようになる 5
実験 ▪ 3つのタスクで評価 • controlled sentiment generation • summarization •
single-turn dialogue ▪ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ▪ 多数のオープンソース言語モデルに実装 6