×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24
Slide 2
Slide 2 text
内容 ■ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ■ 著者に有名な先生が多い 2
Slide 3
Slide 3 text
モチベーション ■ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) ● 大量コードの平均能力でなく、少量存在の優れたコードに ● 一般大衆のもつ誤認識でなく、それを修正すべき ■ Alignmentを達成するために、現状2段階の複雑な強化学習 手法を使うので、それと理論上等価なシンプルな手法を提案 3
Slide 4
Slide 4 text
RLHFアプローチの3ステップ ■ SFT: Supervised fine-tuning ■ Rewardモデルを学習する ● RewardモデルがBradley-Terry (BT)に従う想定 ● BTの仮定で導出する損失関数 ■ RL Fine-tune ● Rewardモデルを使って、下記損失関数でfine-tune ■ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4
Slide 5
Slide 5 text
提案法DPO ■ RL Fine-tuneの損失関数の最適解 ■ 上記最適解をrewardモデルを取り出すよう書き換える ● Your Language Model Is Secretly a Reward Model ■ Rewardモデルを学習する損失関数に代入する ● BTモデルのお陰で、Zが消える ● Directに言語モデルを最適化できるようになる 5
Slide 6
Slide 6 text
実験 ■ 3つのタスクで評価 ● controlled sentiment generation ● summarization ● single-turn dialogue ■ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ■ 多数のオープンソース言語モデルに実装 6