Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DeepSeek-R1: Incentivizing Reasoning Capability...
Search
ほき
February 09, 2025
Technology
0
30
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
AcademiX論文読み会#58で発表した資料です
元論文:
https://doi.org/10.48550/arXiv.2501.12948
ほき
February 09, 2025
Tweet
Share
More Decks by ほき
See All by ほき
脳波を用いた嗜好マッチングシステム
hokkey621
0
170
GeminiとUnityで実現するインタラクティブアート
hokkey621
0
1.1k
イベントを主催してわかった運営のノウハウ
hokkey621
0
57
Google AI “Gemini”を使ったチャットBot
hokkey621
0
54
Solution Challenge 2024 で作ったもの紹介
hokkey621
0
26
不器用な人のためのfish shell/fishshell-is-good-to-bungler
hokkey621
0
44
Other Decks in Technology
See All in Technology
Goで作って学ぶWebSocket
ryuichi1208
3
2.3k
短縮URLをお手軽に導入しよう
nakasho
0
110
システム・ML活用を広げるdbtのデータモデリング / Expanding System & ML Use with dbt Modeling
i125
1
250
AndroidXR 開発ツールごとの できることできないこと
donabe3
0
130
ローカルLLMを活用したコード生成と、ローコード開発ツールへの応用
kazuhitoyokoi
0
130
Helm , Kustomize に代わる !? 次世代 k8s パッケージマネージャー Glasskube 入門 / glasskube-entry
parupappa2929
0
270
データマネジメントのトレードオフに立ち向かう
ikkimiyazaki
6
1.2k
Developers Summit 2025 浅野卓也(13-B-7 LegalOn Technologies)
legalontechnologies
PRO
1
1.3k
開発組織のための セキュアコーディング研修の始め方
flatt_security
3
2.7k
ビジネスモデリング道場 目的と背景
masuda220
PRO
9
670
ユーザーストーリーマッピングから始めるアジャイルチームと並走するQA / Starting QA with User Story Mapping
katawara
0
260
明日からできる!技術的負債の返済を加速するための実践ガイド~『ホットペッパービューティー』の事例をもとに~
recruitengineers
PRO
3
510
Featured
See All Featured
Faster Mobile Websites
deanohume
306
31k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Docker and Python
trallard
44
3.3k
How GitHub (no longer) Works
holman
314
140k
Producing Creativity
orderedlist
PRO
344
39k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Git: the NoSQL Database
bkeepers
PRO
427
64k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
The Invisible Side of Design
smashingmag
299
50k
Transcript
https://www.academix.jp/ AcademiX 論文輪読会 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning ほき 2025/02/08
概要 • 背景 ◦ LLMはCoTの導入により,数学,コーディング,科学的推論などのタスクで大きな改善を達成 ◦ 効果的なテスト時のスケーリングは未解決の問題であり,汎用的な推論性能は未達成 • 目的 ◦
LLMの推論能力をRLで向上 • 方法 ◦ DeepSeek-V3-BaseをRLやSFTで学習 • 結果 ◦ OpenAI o1に匹敵する高い性能を発揮 2
書誌情報 • タイトル:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement
Learning • 著者:DeepSeek-AI et al. • 公開日:2025/01/22 (arXiv) • 論文リンク:https://doi.org/10.48550/arXiv.2501.12948 • GitHubリンク:https://github.com/deepseek-ai/DeepSeek-R1 • Hugging Faceリンク:https://huggingface.co/deepseek-ai/DeepSeek-R1 ※参考文献情報のない図は本論文より引用 3
背景 • ポストトレーニングはトレーニングパイプラインの重要な要素 ◦ 推論タスクの精度を高める ◦ ユーザーの嗜好に適応 • OpenAI のo1モデルは推論時間のスケーリングをして高い推論性能を達成
◦ Chain-of-Thought(CoT)の推論プロセスを拡張 ◦ 数学・コーディング・科学的推論において大幅改善 • 効果的な推論時間のスケーリングは未解決 ◦ プロセスベースの報酬モデル・探索アルゴリズム(モンテカルロ木・ビームサーチ)も o1モデルに匹敵する性能は未達成 4 OpenAI (2024) Uesato (2022), Wang (2023) Kumar (2024)
目的とアプローチ • 目的:LLMの推論能力を強化学習(Reinforcement Learning; RL)で向上 • アプローチ ◦ DeepSeek-R1-Zero ▪
DeepSeek-V3-Baseをベースに教師なしRL • 新しいRLフレームワーク • ルールベースの報酬モデル ◦ DeepSeek-R1 ▪ DeepSeek-R1-Zeroをマルチステージ学習 • 2段階のRL • 2段階の教師ありファインチューニング(Supervised Fine-Tuning; SFT) 5 DeepSeek-AI (2024)
補足:DeepSeek-V3 • モデル概要 ◦ 総パラメーター数 671B ◦ Mixture-of-Expertsモデル ◦ Multi-head
Latent Attentionを採用 ◦ Multi-Token Prediction トレーニング ◦ FP8混合精度学習 • 性能 ◦ MMLU, GPQA, MATH などの多様なベン チマークで高いスコアを達成 ◦ GPT-4 などの商用モデルと同等の性能 ◦ 他の大規模モデルに比べて低コストで学習 可能 6 DeepSeek-AI (2024)
補足:PPO • Proximal Policy Optimization(PPO)はTrust Region Policy Optimization (TRPO)をシンプル化した手法 •
LLMのFTで広く使われているActor-Criticアルゴリズム 7 Schulman (2017) Ouyang (2022) • 𝜋𝜃: 方策モデル • 𝑞, 𝑜: 質問と出力 • 𝐴𝑡: アドバンテージ ◦ Generalized Advantage Estimationにより計算 ◦ 方策モデルとともに価値関数を学習
GRPO Group Relative Policy Optimization(GRPO)は価値モデルの代わりにグループ スコアからベースラインを推定するため,学習リソースを大幅に削減 8 Shao (2024)
GRPOの工夫 • アドバンテージの算出 ◦ 報酬のみでアドバンテージを算出 ◦ 状態価値の関数近似が不要 • 参照モデルからのKullback-Leibler距離成約 ◦
目的関数内にペナルティとして追加 ◦ 報酬の計算を単純化 9
報酬設計 • ルールベースの報酬関数を使用 ◦ ニューラル報酬モデルは報酬ハッキングの懸念やトレーニングパイプラインが複雑 • 2種類の報酬関数を設計 ◦ 精度報酬 ▪
応答が正しいかどうかを評価 ◦ フォーマット報酬 ▪ モデルが思考プロセスを<think>タグで囲むように強制 10
ベンチマーク • AIME 2024 (AI Math Evaluation) ◦ 評価内容: 数式処理,多段階推論の正確性を評価
◦ 評価指標: pass@1(モデルが最初の試行で正しい答えを出せたかを評価) ◦ 具体例: 「円と接線の交点を求めよ」といった複雑な数学問題への正答率を比較 • Codeforces ◦ 評価内容: アルゴリズム設計,実装力,バグ修正をテスト ◦ 評価指標: percentile(モデルの他モデルに対する相対的な順位を示す) ◦ 具体例: グラフ理論の最短経路問題を正確にコード化し,正しい出力を得られるか確認 • GPQA Diamond (General Purpose Question Answering - Diamond Subset) ◦ 評価内容: 高難度な質問に対する文脈理解と深い推論を評価 ◦ 評価指標: pass@1(1回目の回答が完全に正確であるかを確認) ◦ 具体例: 歴史的出来事の因果関係や科学理論の説明など,複雑な問いに正確に回答 11
ベンチマーク • MATH-500 ◦ 評価内容: 定理の適用,数式処理,段階的解法提示を評価 ◦ 評価指標: pass@1(最初の解答が問題の完全な正解であるかを確認) ◦
具体例: 「行列の固有値を求めよ」などの高度な数学問題で解法の正確性を検証 • MMLU (Massive Multitask Language Understanding) ◦ 評価内容: 多分野にまたがる知識統合力と推論力を評価 ◦ 評価指標: pass@1(最初の回答が正解かどうかを評価) ◦ 具体例: 医学や法律など異なる分野の質問に対して,専門的な正確な回答ができるか確認 • SWE-bench Verified ◦ 評価内容: コード生成,プログラム検証,バグ修正能力を評価 ◦ 評価指標: resolved(修正後にバグが正しく修正されたかを確認) ◦ 具体例: Pythonコードに含まれるロジックエラーを特定し,自動で修正できるかを評価 12
結果 • GRPO+ルールベース報酬のみのRLによってSFTなしにロバストな推論能力 を獲得できることを示唆 • 多数決を適用することでさらに向上可能 ※以降の結果も含め検定結果の記載はなし 13
Aha Moment • 問題に対する思考時間をより多く 割り当て • 自身の行動を人間的なトーンで再考する ことを学習したことを示唆 例 待て,待て.待ってくれ.これはハッとさせ
られる瞬間だ. 正しい和が - - - - になるかどうかを確認する ために,ステップ・バイ・ステップで再評価 してみよう. 14
DeepSeek-R1-Zeroの課題 • RLの学習初期が不安定で収束に時間が必要(コールドスタート問題) • 思考過程における言語の混合・可読性低 15
仮説 • RLの学習初期が不安定で収束に時間が必要(コールドスタート問題) 少量の高品質データを取り入れると収束が加速? • 思考過程における言語の混合・可読性低 回答を要約させたり可読性の低いものを除外すれば改善? 16
DeepSeek-R1のアプローチ • コールドスタートデータセットの導入 • 言語一貫性報酬の導入 • マルチステージトレーニングパイプラインを使用 17
コールドスタートデータによるSFT • アプローチ ◦ 数千のCoTデータセットを収集 ▪ モデルに長いCoT解答を生成 ▪ 人間が適切な形に整形 ◦
DeepSeek-V3-BaseをSFT • 利点 ◦ 可読性(Readability) ▪ 読みづらいものをフィルタリング ▪ 各回答の末尾にサマリを含有 出力形式を|special_token|<reasoning_process>|special_token|<summary>と定義 ◦ 可能性(Potential) ▪ SFTとRLを反復 18
推論思考の強化 • SFT済みDeepSeek-V3-BaseをDeepSeek-R1-Zeroと同様にRL • RL訓練中に言語一貫性報酬を導入 ◦ 言語の混合があるとペナルティを課す? • 人間が読みやすい出力を生成可能 19
追加のSFT • RL済みモデルを追加でSFT • データセット ◦ Reasoning Data ▪ 600kサンプル
▪ RL済みモデルの出力からキュレートしたデータを使用 ▪ ルールベースで評価できないデータも追加 ◦ Non-Reasoning Data ▪ 200kサンプル ▪ ライティングやQ&A,翻訳 20
DeepSeekシリーズで最高の性能を発揮 • DeepSeek-R1はDeepSeekV3を上回る • DeepSeek-R1はDeepSeek-R1-Zeroを 上回る? 21
STEM関連タスク・長文QAで強みを発揮 • パフォーマンスの全体評価 ◦ 教育系ベンチマーク(MMLU、MMLU-Pro、 GPQA Diamond)で優位 ◦ STEM関連の質問で特に精度が向上 ◦
長文依存型QA(FRAMESタスク)でも高 い文書分析能力を証明 ◦ 事実ベースの質問でもDeepSeek-V3を上 回る • 課題:Chinese SimpleQA ◦ Safety RLが正確な回答を妨げる場面があ り,DeepSeek-R1がDeepSeek-V3より低 いスコアを記録 ◦ ただし,Safety RLを外せば70%以上の精 度が可能 22
フォーマット指示への従順性と文章生成タスクに優れる • フォーマット遵守能力 ◦ DeepSeek-R1は、IF-Evalで高いスコアを 記録 ◦ 最終段階のSFTと強化学習での指示追従デ ータの追加が主な要因 •
文章生成・オープンドメインQAでの強さ ◦ AlpacaEval 2.0およびArenaHardで優れた 結果を達成 ◦ DeepSeek-R1は文章生成やオープンドメ インQAでDeepSeek-V3を大きく上回る • 出力の簡潔さと長さバイアスの回避 ◦ ArenaHard平均トークン数:689 AlpacaEval 2.0の文字数:2,218 ◦ DeepSeek-R1はGPTベース評価時に長さ バイアスを回避しつつ,簡潔かつ適切な要 約を生成可能 23
数学・コーディングタスクでも高い性能 • 数学タスクでの高い性能 ◦ 数学タスクでOpenAI-o1-1217と同等の性 能を発揮 • アルゴリズム・コーディングタスクの強 み ◦
LiveCodeBenchやCodeforcesで優れた結 果を達成 ◦ 推論能力を重視するモデルが優位を占める 中高いパフォーマンスを示す • コーディングタスクの課題と展望 ◦ AiderではOpenAI-o1-1217が上回るが, SWE Verifiedではほぼ同等の性能 ◦ 関連する強化学習データが現状少ないこと が原因 ◦ 今後,エンジニアリング関連データが充実 することで更なる向上が期待 24
うまくいかなかったこと • Process Reward Model ◦ センテンスレベルやトークンレベルでの報酬を計算 ◦ コスパが悪い •
モンテカルロ木探索 ◦ モデルが解空間を系統的に探索できるように解答をより小さな部分に分割 ◦ 各ノードに最大拡張制限を設定することによる局所最適解の可能性 ◦ 価値モデルの生成の質の担保が困難 25
今後の課題 • 汎化性能 ◦ 関数呼び出しやマルチターン対話,複雑なロールプレイング,json出力においてDeepSeek- V3に劣る • 多言語対応 英語と中国語以外にも最適化 •
プロンプトエンジニアリング ◦ プロンプトの影響を受けやすい ◦ 問題をシンプルに記述しゼロショットで実行を推奨 • ソフトウェアエンジニアリング ◦ 評価時間が長いため十分に学習できていない 26
まとめ • RLを通じてLLMの推論能力を向上 • 教師なしデータだけで高い性能を発揮 • RLとSFTを組み合わせることでOpen AI o1に匹敵する性能を達成 27
コメント • 教師データを使わずにRLを使って性能を向上する点が面白かった • 思考過程のフォーマットを制限することで性能が落ちたことから,人間と似 ているけどちょっとちがう思考をしていそうなことが興味深いと思った • 蒸留の話も面白いのでぜひ元論文をよんでください(時間が足りなくて紹介 できず) •
DeepSeekシリーズはもV3も結構面白いのでぜひこちらもよんでください (特にパイプラインやV2から使っているMLAは参考になります) 28