Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Direct Preference Optimization
Search
Henry Cui
February 24, 2024
Science
0
320
Direct Preference Optimization
Henry Cui
February 24, 2024
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
0
110
Diffusion Model with Perceptual Loss
zchenry
0
280
レンズの下のLLM / LLM under the Lens
zchenry
0
160
Go with the Prompt Flow
zchenry
0
140
Mojo Dojo
zchenry
1
180
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
440
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
190
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
92
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
150
Other Decks in Science
See All in Science
Snowflakeによる統合バイオインフォマティクス
ktatsuya
PRO
0
560
重複排除・高速バックアップ・ランサムウェア対策 三拍子そろったExaGrid × Veeam連携セミナー
climbteam
0
160
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
3
30k
Visual Analytics for R&D Intelligence @Funding the Commons & DeSci Tokyo 2024
hayataka88
0
120
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
970
The thin line between reconstruction, classification, and hallucination in brain decoding
ykamit
1
1.1k
Spectral Sparsification of Hypergraphs
tasusu
0
220
Mechanistic Interpretability の紹介
sohtakahashi
0
480
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
tomoaki0705
0
300
拡散モデルの原理紹介
brainpadpr
3
5.4k
WeMeet Group - 採用資料
wemeet
0
4.1k
JSol'Ex : traitement d'images solaires en Java
melix
0
130
Featured
See All Featured
A Philosophy of Restraint
colly
203
16k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Become a Pro
speakerdeck
PRO
26
5.1k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
192
16k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
KATA
mclloyd
29
14k
The World Runs on Bad Software
bkeepers
PRO
66
11k
How to train your dragon (web standard)
notwaldorf
89
5.8k
jQuery: Nuts, Bolts and Bling
dougneiner
62
7.6k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Designing for humans not robots
tammielis
250
25k
Transcript
Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24
内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪
著者に有名な先生が多い 2
モチベーション ▪ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) • 大量コードの平均能力でなく、少量存在の優れたコードに • 一般大衆のもつ誤認識でなく、それを修正すべき ▪ Alignmentを達成するために、現状2段階の複雑な強化学習
手法を使うので、それと理論上等価なシンプルな手法を提案 3
RLHFアプローチの3ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定
• BTの仮定で導出する損失関数 ▪ RL Fine-tune • Rewardモデルを使って、下記損失関数でfine-tune ▪ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4
提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model
Is Secretly a Reward Model ▪ Rewardモデルを学習する損失関数に代入する • BTモデルのお陰で、Zが消える • Directに言語モデルを最適化できるようになる 5
実験 ▪ 3つのタスクで評価 • controlled sentiment generation • summarization •
single-turn dialogue ▪ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ▪ 多数のオープンソース言語モデルに実装 6