DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

https://www.academix.jp/ AcademiX 論文輪読会 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning ほき 2025/02/08

概要 • 背景 ◦ LLMはCoTの導入により，数学，コーディング，科学的推論などのタスクで大きな改善を達成 ◦ 効果的なテスト時のスケーリングは未解決の問題であり，汎用的な推論性能は未達成 • 目的 ◦
LLMの推論能力をRLで向上 • 方法 ◦ DeepSeek-V3-BaseをRLやSFTで学習 • 結果 ◦ OpenAI o1に匹敵する高い性能を発揮 2

書誌情報 • タイトル：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement
Learning • 著者：DeepSeek-AI et al. • 公開日：2025/01/22 (arXiv) • 論文リンク：https://doi.org/10.48550/arXiv.2501.12948 • GitHubリンク：https://github.com/deepseek-ai/DeepSeek-R1 • Hugging Faceリンク：https://huggingface.co/deepseek-ai/DeepSeek-R1 ※参考文献情報のない図は本論文より引用 3

背景 • ポストトレーニングはトレーニングパイプラインの重要な要素 ◦ 推論タスクの精度を高める ◦ ユーザーの嗜好に適応 • OpenAI のo1モデルは推論時間のスケーリングをして高い推論性能を達成
◦ Chain-of-Thought（CoT）の推論プロセスを拡張 ◦ 数学・コーディング・科学的推論において大幅改善 • 効果的な推論時間のスケーリングは未解決 ◦ プロセスベースの報酬モデル・探索アルゴリズム（モンテカルロ木・ビームサーチ）も o1モデルに匹敵する性能は未達成 4 OpenAI (2024) Uesato (2022), Wang (2023) Kumar (2024)

目的とアプローチ • 目的：LLMの推論能力を強化学習（Reinforcement Learning; RL）で向上 • アプローチ ◦ DeepSeek-R1-Zero ▪
DeepSeek-V3-Baseをベースに教師なしRL • 新しいRLフレームワーク • ルールベースの報酬モデル ◦ DeepSeek-R1 ▪ DeepSeek-R1-Zeroをマルチステージ学習 • 2段階のRL • 2段階の教師ありファインチューニング（Supervised Fine-Tuning; SFT） 5 DeepSeek-AI (2024)

補足：DeepSeek-V3 • モデル概要 ◦ 総パラメーター数 671B ◦ Mixture-of-Expertsモデル ◦ Multi-head
Latent Attentionを採用 ◦ Multi-Token Prediction トレーニング ◦ FP8混合精度学習 • 性能 ◦ MMLU, GPQA, MATH などの多様なベンチマークで高いスコアを達成 ◦ GPT-4 などの商用モデルと同等の性能 ◦ 他の大規模モデルに比べて低コストで学習可能 6 DeepSeek-AI (2024)

補足：PPO • Proximal Policy Optimization（PPO）はTrust Region Policy Optimization （TRPO）をシンプル化した手法 •
LLMのFTで広く使われているActor-Criticアルゴリズム 7 Schulman (2017) Ouyang (2022) • 𝜋𝜃: 方策モデル • 𝑞, 𝑜: 質問と出力 • 𝐴𝑡: アドバンテージ ◦ Generalized Advantage Estimationにより計算 ◦ 方策モデルとともに価値関数を学習

GRPO Group Relative Policy Optimization（GRPO）は価値モデルの代わりにグループスコアからベースラインを推定するため，学習リソースを大幅に削減 8 Shao (2024)

GRPOの工夫 • アドバンテージの算出 ◦ 報酬のみでアドバンテージを算出 ◦ 状態価値の関数近似が不要 • 参照モデルからのKullback-Leibler距離成約 ◦
目的関数内にペナルティとして追加 ◦ 報酬の計算を単純化 9

報酬設計 • ルールベースの報酬関数を使用 ◦ ニューラル報酬モデルは報酬ハッキングの懸念やトレーニングパイプラインが複雑 • 2種類の報酬関数を設計 ◦ 精度報酬 ▪
応答が正しいかどうかを評価 ◦ フォーマット報酬 ▪ モデルが思考プロセスを<think>タグで囲むように強制 10

ベンチマーク • AIME 2024 (AI Math Evaluation) ◦ 評価内容: 数式処理，多段階推論の正確性を評価
◦ 評価指標: pass@1（モデルが最初の試行で正しい答えを出せたかを評価） ◦ 具体例: 「円と接線の交点を求めよ」といった複雑な数学問題への正答率を比較 • Codeforces ◦ 評価内容: アルゴリズム設計，実装力，バグ修正をテスト ◦ 評価指標: percentile（モデルの他モデルに対する相対的な順位を示す） ◦ 具体例: グラフ理論の最短経路問題を正確にコード化し，正しい出力を得られるか確認 • GPQA Diamond (General Purpose Question Answering - Diamond Subset) ◦ 評価内容: 高難度な質問に対する文脈理解と深い推論を評価 ◦ 評価指標: pass@1（1回目の回答が完全に正確であるかを確認） ◦ 具体例: 歴史的出来事の因果関係や科学理論の説明など，複雑な問いに正確に回答 11

ベンチマーク • MATH-500 ◦ 評価内容: 定理の適用，数式処理，段階的解法提示を評価 ◦ 評価指標: pass@1（最初の解答が問題の完全な正解であるかを確認） ◦
具体例: 「行列の固有値を求めよ」などの高度な数学問題で解法の正確性を検証 • MMLU (Massive Multitask Language Understanding) ◦ 評価内容: 多分野にまたがる知識統合力と推論力を評価 ◦ 評価指標: pass@1（最初の回答が正解かどうかを評価） ◦ 具体例: 医学や法律など異なる分野の質問に対して，専門的な正確な回答ができるか確認 • SWE-bench Verified ◦ 評価内容: コード生成，プログラム検証，バグ修正能力を評価 ◦ 評価指標: resolved（修正後にバグが正しく修正されたかを確認） ◦ 具体例: Pythonコードに含まれるロジックエラーを特定し，自動で修正できるかを評価 12

結果 • GRPO+ルールベース報酬のみのRLによってSFTなしにロバストな推論能力を獲得できることを示唆 • 多数決を適用することでさらに向上可能 ※以降の結果も含め検定結果の記載はなし 13

Aha Moment • 問題に対する思考時間をより多く割り当て • 自身の行動を人間的なトーンで再考することを学習したことを示唆例待て，待て．待ってくれ．これはハッとさせ
られる瞬間だ．正しい和が - - - - になるかどうかを確認するために，ステップ・バイ・ステップで再評価してみよう． 14

DeepSeek-R1-Zeroの課題 • RLの学習初期が不安定で収束に時間が必要（コールドスタート問題） • 思考過程における言語の混合・可読性低 15

仮説 • RLの学習初期が不安定で収束に時間が必要（コールドスタート問題）少量の高品質データを取り入れると収束が加速？ • 思考過程における言語の混合・可読性低回答を要約させたり可読性の低いものを除外すれば改善？ 16

DeepSeek-R1のアプローチ • コールドスタートデータセットの導入 • 言語一貫性報酬の導入 • マルチステージトレーニングパイプラインを使用 17

コールドスタートデータによるSFT • アプローチ ◦ 数千のCoTデータセットを収集 ▪ モデルに長いCoT解答を生成 ▪ 人間が適切な形に整形 ◦
DeepSeek-V3-BaseをSFT • 利点 ◦ 可読性（Readability） ▪ 読みづらいものをフィルタリング ▪ 各回答の末尾にサマリを含有出力形式を｜special_token｜<reasoning_process>｜special_token｜<summary>と定義 ◦ 可能性（Potential） ▪ SFTとRLを反復 18

推論思考の強化 • SFT済みDeepSeek-V3-BaseをDeepSeek-R1-Zeroと同様にRL • RL訓練中に言語一貫性報酬を導入 ◦ 言語の混合があるとペナルティを課す？ • 人間が読みやすい出力を生成可能 19

追加のSFT • RL済みモデルを追加でSFT • データセット ◦ Reasoning Data ▪ 600kサンプル
▪ RL済みモデルの出力からキュレートしたデータを使用 ▪ ルールベースで評価できないデータも追加 ◦ Non-Reasoning Data ▪ 200kサンプル ▪ ライティングやQ&A，翻訳 20

DeepSeekシリーズで最高の性能を発揮 • DeepSeek-R1はDeepSeekV3を上回る • DeepSeek-R1はDeepSeek-R1-Zeroを上回る？ 21

STEM関連タスク・長文QAで強みを発揮 • パフォーマンスの全体評価 ◦ 教育系ベンチマーク（MMLU、MMLU-Pro、 GPQA Diamond）で優位 ◦ STEM関連の質問で特に精度が向上 ◦
長文依存型QA（FRAMESタスク）でも高い文書分析能力を証明 ◦ 事実ベースの質問でもDeepSeek-V3を上回る • 課題：Chinese SimpleQA ◦ Safety RLが正確な回答を妨げる場面があり，DeepSeek-R1がDeepSeek-V3より低いスコアを記録 ◦ ただし，Safety RLを外せば70%以上の精度が可能 22

フォーマット指示への従順性と文章生成タスクに優れる • フォーマット遵守能力 ◦ DeepSeek-R1は、IF-Evalで高いスコアを記録 ◦ 最終段階のSFTと強化学習での指示追従データの追加が主な要因 •
文章生成・オープンドメインQAでの強さ ◦ AlpacaEval 2.0およびArenaHardで優れた結果を達成 ◦ DeepSeek-R1は文章生成やオープンドメインQAでDeepSeek-V3を大きく上回る • 出力の簡潔さと長さバイアスの回避 ◦ ArenaHard平均トークン数：689 AlpacaEval 2.0の文字数：2,218 ◦ DeepSeek-R1はGPTベース評価時に長さバイアスを回避しつつ，簡潔かつ適切な要約を生成可能 23

数学・コーディングタスクでも高い性能 • 数学タスクでの高い性能 ◦ 数学タスクでOpenAI-o1-1217と同等の性能を発揮 • アルゴリズム・コーディングタスクの強み ◦
LiveCodeBenchやCodeforcesで優れた結果を達成 ◦ 推論能力を重視するモデルが優位を占める中高いパフォーマンスを示す • コーディングタスクの課題と展望 ◦ AiderではOpenAI-o1-1217が上回るが， SWE Verifiedではほぼ同等の性能 ◦ 関連する強化学習データが現状少ないことが原因 ◦ 今後，エンジニアリング関連データが充実することで更なる向上が期待 24

うまくいかなかったこと • Process Reward Model ◦ センテンスレベルやトークンレベルでの報酬を計算 ◦ コスパが悪い •
モンテカルロ木探索 ◦ モデルが解空間を系統的に探索できるように解答をより小さな部分に分割 ◦ 各ノードに最大拡張制限を設定することによる局所最適解の可能性 ◦ 価値モデルの生成の質の担保が困難 25

今後の課題 • 汎化性能 ◦ 関数呼び出しやマルチターン対話，複雑なロールプレイング，json出力においてDeepSeek- V3に劣る • 多言語対応英語と中国語以外にも最適化 •
プロンプトエンジニアリング ◦ プロンプトの影響を受けやすい ◦ 問題をシンプルに記述しゼロショットで実行を推奨 • ソフトウェアエンジニアリング ◦ 評価時間が長いため十分に学習できていない 26

まとめ • RLを通じてLLMの推論能力を向上 • 教師なしデータだけで高い性能を発揮 • RLとSFTを組み合わせることでOpen AI o1に匹敵する性能を達成 27

コメント • 教師データを使わずにRLを使って性能を向上する点が面白かった • 思考過程のフォーマットを制限することで性能が落ちたことから，人間と似ているけどちょっとちがう思考をしていそうなことが興味深いと思った • 蒸留の話も面白いのでぜひ元論文をよんでください（時間が足りなくて紹介できず） •
DeepSeekシリーズはもV3も結構面白いのでぜひこちらもよんでください（特にパイプラインやV2から使っているMLAは参考になります） 28

DeepSeek-R1: Incentivizing Reasoning Capability...

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

ほき

More Decks by ほき

Other Decks in Technology

Featured

Transcript

https://www.academix.jp/ AcademiX 論文輪読会 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via

概要 • 背景 ◦ LLMはCoTの導入により，数学，コーディング，科学的推論などのタスクで大きな改善を達成 ◦ 効果的なテスト時のスケーリングは未解決の問題であり，汎用的な推論性能は未達成 • 目的 ◦

書誌情報 • タイトル：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement

背景 • ポストトレーニングはトレーニングパイプラインの重要な要素 ◦ 推論タスクの精度を高める ◦ ユーザーの嗜好に適応 • OpenAI のo1モデルは推論時間のスケーリングをして高い推論性能を達成

目的とアプローチ • 目的：LLMの推論能力を強化学習（Reinforcement Learning; RL）で向上 • アプローチ ◦ DeepSeek-R1-Zero ▪

補足：DeepSeek-V3 • モデル概要 ◦ 総パラメーター数 671B ◦ Mixture-of-Expertsモデル ◦ Multi-head

補足：PPO • Proximal Policy Optimization（PPO）はTrust Region Policy Optimization （TRPO）をシンプル化した手法 •

GRPO Group Relative Policy Optimization（GRPO）は価値モデルの代わりにグループスコアからベースラインを推定するため，学習リソースを大幅に削減 8 Shao (2024)

GRPOの工夫 • アドバンテージの算出 ◦ 報酬のみでアドバンテージを算出 ◦ 状態価値の関数近似が不要 • 参照モデルからのKullback-Leibler距離成約 ◦

報酬設計 • ルールベースの報酬関数を使用 ◦ ニューラル報酬モデルは報酬ハッキングの懸念やトレーニングパイプラインが複雑 • 2種類の報酬関数を設計 ◦ 精度報酬 ▪

ベンチマーク • AIME 2024 (AI Math Evaluation) ◦ 評価内容: 数式処理，多段階推論の正確性を評価

ベンチマーク • MATH-500 ◦ 評価内容: 定理の適用，数式処理，段階的解法提示を評価 ◦ 評価指標: pass@1（最初の解答が問題の完全な正解であるかを確認） ◦

結果 • GRPO+ルールベース報酬のみのRLによってSFTなしにロバストな推論能力を獲得できることを示唆 • 多数決を適用することでさらに向上可能 ※以降の結果も含め検定結果の記載はなし 13

Aha Moment • 問題に対する思考時間をより多く割り当て • 自身の行動を人間的なトーンで再考することを学習したことを示唆例待て，待て．待ってくれ．これはハッとさせ

DeepSeek-R1-Zeroの課題 • RLの学習初期が不安定で収束に時間が必要（コールドスタート問題） • 思考過程における言語の混合・可読性低 15

DeepSeek-R1のアプローチ • コールドスタートデータセットの導入 • 言語一貫性報酬の導入 • マルチステージトレーニングパイプラインを使用 17

コールドスタートデータによるSFT • アプローチ ◦ 数千のCoTデータセットを収集 ▪ モデルに長いCoT解答を生成 ▪ 人間が適切な形に整形 ◦

推論思考の強化 • SFT済みDeepSeek-V3-BaseをDeepSeek-R1-Zeroと同様にRL • RL訓練中に言語一貫性報酬を導入 ◦ 言語の混合があるとペナルティを課す？ • 人間が読みやすい出力を生成可能 19

追加のSFT • RL済みモデルを追加でSFT • データセット ◦ Reasoning Data ▪ 600kサンプル

DeepSeekシリーズで最高の性能を発揮 • DeepSeek-R1はDeepSeekV3を上回る • DeepSeek-R1はDeepSeek-R1-Zeroを上回る？ 21

STEM関連タスク・長文QAで強みを発揮 • パフォーマンスの全体評価 ◦ 教育系ベンチマーク（MMLU、MMLU-Pro、 GPQA Diamond）で優位 ◦ STEM関連の質問で特に精度が向上 ◦

フォーマット指示への従順性と文章生成タスクに優れる • フォーマット遵守能力 ◦ DeepSeek-R1は、IF-Evalで高いスコアを記録 ◦ 最終段階のSFTと強化学習での指示追従データの追加が主な要因 •

数学・コーディングタスクでも高い性能 • 数学タスクでの高い性能 ◦ 数学タスクでOpenAI-o1-1217と同等の性能を発揮 • アルゴリズム・コーディングタスクの強み ◦

うまくいかなかったこと • Process Reward Model ◦ センテンスレベルやトークンレベルでの報酬を計算 ◦ コスパが悪い •

今後の課題 • 汎化性能 ◦ 関数呼び出しやマルチターン対話，複雑なロールプレイング，json出力においてDeepSeek- V3に劣る • 多言語対応英語と中国語以外にも最適化 •

まとめ • RLを通じてLLMの推論能力を向上 • 教師なしデータだけで高い性能を発揮 • RLとSFTを組み合わせることでOpen AI o1に匹敵する性能を達成 27