Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Direct Preference Optimization
Search
Henry Cui
February 24, 2024
Science
0
170
Direct Preference Optimization
Henry Cui
February 24, 2024
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
Diffusion Model with Perceptual Loss
zchenry
0
85
レンズの下のLLM / LLM under the Lens
zchenry
0
100
Go with the Prompt Flow
zchenry
0
100
Mojo Dojo
zchenry
1
140
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
210
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
130
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
65
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
120
MLOps初心者がApache Airflowを触る / Apache Airflow Introduction for an MLOps Beginner
zchenry
0
170
Other Decks in Science
See All in Science
Machine Learning for Materials (Lecture 2)
aronwalsh
0
600
Science of Scienceおよび科学計量学に関する研究論文の俯瞰可視化_LT版
hayataka88
0
540
ultraArmをモニター提供してもらった話
miura55
0
120
ウェーブレットおきもち講座
aikiriao
1
710
Machine Learning for Materials (Lecture 9)
aronwalsh
0
130
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
120
解説!データ基盤の進化を後押しする手順とタイミング
shomaekawa
0
160
20240127_OpenRadiossエアバッグ解析
kamakiri1225
0
160
拡散モデルの概要 −§1. 拡散モデルで使われる確率微分⽅程式について−
nearme_tech
0
110
名古屋市立大学データサイエンス学部 夏のオープンキャンパス模擬授業20230818
ncu_ds
0
1.6k
Design of three-dimensional binary manipulators based on the KS statistic and maximum empty circles (IECON2023)
konakalab
0
250
OptimizationNight~機械学習と数理最適化の融合~
hidenari
0
330
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
17
2.7k
The Power of CSS Pseudo Elements
geoffreycrofte
62
5k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
18
7k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
Fashionably flexible responsive web design (full day workshop)
malarkey
398
65k
Fantastic passwords and where to find them - at NoRuKo
philnash
39
2.5k
BBQ
matthewcrist
80
8.8k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
41
4.5k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Writing Fast Ruby
sferik
622
60k
What's new in Ruby 2.0
geeforr
338
31k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
275
13k
Transcript
Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24
内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪
著者に有名な先生が多い 2
モチベーション ▪ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) • 大量コードの平均能力でなく、少量存在の優れたコードに • 一般大衆のもつ誤認識でなく、それを修正すべき ▪ Alignmentを達成するために、現状2段階の複雑な強化学習
手法を使うので、それと理論上等価なシンプルな手法を提案 3
RLHFアプローチの3ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定
• BTの仮定で導出する損失関数 ▪ RL Fine-tune • Rewardモデルを使って、下記損失関数でfine-tune ▪ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4
提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model
Is Secretly a Reward Model ▪ Rewardモデルを学習する損失関数に代入する • BTモデルのお陰で、Zが消える • Directに言語モデルを最適化できるようになる 5
実験 ▪ 3つのタスクで評価 • controlled sentiment generation • summarization •
single-turn dialogue ▪ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ▪ 多数のオープンソース言語モデルに実装 6