Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Direct Preference Optimization
Search
Henry Cui
February 24, 2024
Science
0
260
Direct Preference Optimization
Henry Cui
February 24, 2024
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
0
57
Diffusion Model with Perceptual Loss
zchenry
0
200
レンズの下のLLM / LLM under the Lens
zchenry
0
140
Go with the Prompt Flow
zchenry
0
130
Mojo Dojo
zchenry
1
170
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
320
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
160
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
77
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
140
Other Decks in Science
See All in Science
20231211ベクトル解析の計算
kamakiri1225
0
180
最新のAI技術を使った材料シミュレーションで材料研究現場に変革を
matlantis
0
710
Machine Learning for Materials (Lecture 9)
aronwalsh
0
190
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
hurutoriya
3
1.5k
The thin line between reconstruction, classification, and hallucination in brain decoding
ykamit
1
690
Introduction to Graph Neural Networks
joisino
PRO
4
1.8k
Coqで選択公理を形式化してみた
soukouki
0
160
マテリアルズ・インフォマティクスの先端で起きていること / What's Happening at the Cutting Edge of Materials Informatics
snhryt
1
110
Science of Scienceおよび科学計量学に関する研究論文の俯瞰可視化_ポスター版
hayataka88
0
100
小杉考司(専修大学)
kosugitti
1
440
早わかり W3C Community Group
takanorip
0
360
ベイズのはなし
techmathproject
0
220
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
38
9.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
230
130k
No one is an island. Learnings from fostering a developers community.
thoeni
18
2.9k
Statistics for Hackers
jakevdp
793
220k
Gamification - CAS2011
davidbonilla
79
4.9k
How to Think Like a Performance Engineer
csswizardry
16
920
Principles of Awesome APIs and How to Build Them.
keavy
125
16k
Designing with Data
zakiwarfel
98
5k
Documentation Writing (for coders)
carmenintech
65
4.3k
What's new in Ruby 2.0
geeforr
340
31k
Happy Clients
brianwarren
96
6.6k
Done Done
chrislema
180
16k
Transcript
Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24
内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪
著者に有名な先生が多い 2
モチベーション ▪ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) • 大量コードの平均能力でなく、少量存在の優れたコードに • 一般大衆のもつ誤認識でなく、それを修正すべき ▪ Alignmentを達成するために、現状2段階の複雑な強化学習
手法を使うので、それと理論上等価なシンプルな手法を提案 3
RLHFアプローチの3ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定
• BTの仮定で導出する損失関数 ▪ RL Fine-tune • Rewardモデルを使って、下記損失関数でfine-tune ▪ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4
提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model
Is Secretly a Reward Model ▪ Rewardモデルを学習する損失関数に代入する • BTモデルのお陰で、Zが消える • Directに言語モデルを最適化できるようになる 5
実験 ▪ 3つのタスクで評価 • controlled sentiment generation • summarization •
single-turn dialogue ▪ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ▪ 多数のオープンソース言語モデルに実装 6