Slide 1

Slide 1 text

Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24

Slide 2

Slide 2 text

内容 ■ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ■ 著者に有名な先生が多い 2

Slide 3

Slide 3 text

モチベーション ■ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) ● 大量コードの平均能力でなく、少量存在の優れたコードに ● 一般大衆のもつ誤認識でなく、それを修正すべき ■ Alignmentを達成するために、現状2段階の複雑な強化学習 手法を使うので、それと理論上等価なシンプルな手法を提案 3

Slide 4

Slide 4 text

RLHFアプローチの3ステップ ■ SFT: Supervised fine-tuning ■ Rewardモデルを学習する ● RewardモデルがBradley-Terry (BT)に従う想定 ● BTの仮定で導出する損失関数 ■ RL Fine-tune ● Rewardモデルを使って、下記損失関数でfine-tune ■ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4

Slide 5

Slide 5 text

提案法DPO ■ RL Fine-tuneの損失関数の最適解 ■ 上記最適解をrewardモデルを取り出すよう書き換える ● Your Language Model Is Secretly a Reward Model ■ Rewardモデルを学習する損失関数に代入する ● BTモデルのお陰で、Zが消える ● Directに言語モデルを最適化できるようになる 5

Slide 6

Slide 6 text

実験 ■ 3つのタスクで評価 ● controlled sentiment generation ● summarization ● single-turn dialogue ■ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ■ 多数のオープンソース言語モデルに実装 6