Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DeepSeek-R1: Incentivizing Reasoning Capability...

ほき
February 09, 2025

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

AcademiX論文読み会#58で発表した資料です
元論文:https://doi.org/10.48550/arXiv.2501.12948

ほき

February 09, 2025
Tweet

More Decks by ほき

Other Decks in Technology

Transcript

  1. 書誌情報 • タイトル:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement

    Learning • 著者:DeepSeek-AI et al. • 公開日:2025/01/22 (arXiv) • 論文リンク:https://doi.org/10.48550/arXiv.2501.12948 • GitHubリンク:https://github.com/deepseek-ai/DeepSeek-R1 • Hugging Faceリンク:https://huggingface.co/deepseek-ai/DeepSeek-R1 ※参考文献情報のない図は本論文より引用 3
  2. 背景 • ポストトレーニングはトレーニングパイプラインの重要な要素 ◦ 推論タスクの精度を高める ◦ ユーザーの嗜好に適応 • OpenAI のo1モデルは推論時間のスケーリングをして高い推論性能を達成

    ◦ Chain-of-Thought(CoT)の推論プロセスを拡張 ◦ 数学・コーディング・科学的推論において大幅改善 • 効果的な推論時間のスケーリングは未解決 ◦ プロセスベースの報酬モデル・探索アルゴリズム(モンテカルロ木・ビームサーチ)も o1モデルに匹敵する性能は未達成 4 OpenAI (2024) Uesato (2022), Wang (2023) Kumar (2024)
  3. 目的とアプローチ • 目的:LLMの推論能力を強化学習(Reinforcement Learning; RL)で向上 • アプローチ ◦ DeepSeek-R1-Zero ▪

    DeepSeek-V3-Baseをベースに教師なしRL • 新しいRLフレームワーク • ルールベースの報酬モデル ◦ DeepSeek-R1 ▪ DeepSeek-R1-Zeroをマルチステージ学習 • 2段階のRL • 2段階の教師ありファインチューニング(Supervised Fine-Tuning; SFT) 5 DeepSeek-AI (2024)
  4. 補足:DeepSeek-V3 • モデル概要 ◦ 総パラメーター数 671B ◦ Mixture-of-Expertsモデル ◦ Multi-head

    Latent Attentionを採用 ◦ Multi-Token Prediction トレーニング ◦ FP8混合精度学習 • 性能 ◦ MMLU, GPQA, MATH などの多様なベン チマークで高いスコアを達成 ◦ GPT-4 などの商用モデルと同等の性能 ◦ 他の大規模モデルに比べて低コストで学習 可能 6 DeepSeek-AI (2024)
  5. 補足:PPO • Proximal Policy Optimization(PPO)はTrust Region Policy Optimization (TRPO)をシンプル化した手法 •

    LLMのFTで広く使われているActor-Criticアルゴリズム 7 Schulman (2017) Ouyang (2022) • 𝜋𝜃: 方策モデル • 𝑞, 𝑜: 質問と出力 • 𝐴𝑡: アドバンテージ ◦ Generalized Advantage Estimationにより計算 ◦ 方策モデルとともに価値関数を学習
  6. ベンチマーク • AIME 2024 (AI Math Evaluation) ◦ 評価内容: 数式処理,多段階推論の正確性を評価

    ◦ 評価指標: pass@1(モデルが最初の試行で正しい答えを出せたかを評価) ◦ 具体例: 「円と接線の交点を求めよ」といった複雑な数学問題への正答率を比較 • Codeforces ◦ 評価内容: アルゴリズム設計,実装力,バグ修正をテスト ◦ 評価指標: percentile(モデルの他モデルに対する相対的な順位を示す) ◦ 具体例: グラフ理論の最短経路問題を正確にコード化し,正しい出力を得られるか確認 • GPQA Diamond (General Purpose Question Answering - Diamond Subset) ◦ 評価内容: 高難度な質問に対する文脈理解と深い推論を評価 ◦ 評価指標: pass@1(1回目の回答が完全に正確であるかを確認) ◦ 具体例: 歴史的出来事の因果関係や科学理論の説明など,複雑な問いに正確に回答 11
  7. ベンチマーク • MATH-500 ◦ 評価内容: 定理の適用,数式処理,段階的解法提示を評価 ◦ 評価指標: pass@1(最初の解答が問題の完全な正解であるかを確認) ◦

    具体例: 「行列の固有値を求めよ」などの高度な数学問題で解法の正確性を検証 • MMLU (Massive Multitask Language Understanding) ◦ 評価内容: 多分野にまたがる知識統合力と推論力を評価 ◦ 評価指標: pass@1(最初の回答が正解かどうかを評価) ◦ 具体例: 医学や法律など異なる分野の質問に対して,専門的な正確な回答ができるか確認 • SWE-bench Verified ◦ 評価内容: コード生成,プログラム検証,バグ修正能力を評価 ◦ 評価指標: resolved(修正後にバグが正しく修正されたかを確認) ◦ 具体例: Pythonコードに含まれるロジックエラーを特定し,自動で修正できるかを評価 12
  8. Aha Moment • 問題に対する思考時間をより多く 割り当て • 自身の行動を人間的なトーンで再考する ことを学習したことを示唆 例 待て,待て.待ってくれ.これはハッとさせ

    られる瞬間だ. 正しい和が - - - - になるかどうかを確認する ために,ステップ・バイ・ステップで再評価 してみよう. 14
  9. コールドスタートデータによるSFT • アプローチ ◦ 数千のCoTデータセットを収集 ▪ モデルに長いCoT解答を生成 ▪ 人間が適切な形に整形 ◦

    DeepSeek-V3-BaseをSFT • 利点 ◦ 可読性(Readability) ▪ 読みづらいものをフィルタリング ▪ 各回答の末尾にサマリを含有 出力形式を|special_token|<reasoning_process>|special_token|<summary>と定義 ◦ 可能性(Potential) ▪ SFTとRLを反復 18
  10. 追加のSFT • RL済みモデルを追加でSFT • データセット ◦ Reasoning Data ▪ 600kサンプル

    ▪ RL済みモデルの出力からキュレートしたデータを使用 ▪ ルールベースで評価できないデータも追加 ◦ Non-Reasoning Data ▪ 200kサンプル ▪ ライティングやQ&A,翻訳 20
  11. STEM関連タスク・長文QAで強みを発揮 • パフォーマンスの全体評価 ◦ 教育系ベンチマーク(MMLU、MMLU-Pro、 GPQA Diamond)で優位 ◦ STEM関連の質問で特に精度が向上 ◦

    長文依存型QA(FRAMESタスク)でも高 い文書分析能力を証明 ◦ 事実ベースの質問でもDeepSeek-V3を上 回る • 課題:Chinese SimpleQA ◦ Safety RLが正確な回答を妨げる場面があ り,DeepSeek-R1がDeepSeek-V3より低 いスコアを記録 ◦ ただし,Safety RLを外せば70%以上の精 度が可能 22
  12. フォーマット指示への従順性と文章生成タスクに優れる • フォーマット遵守能力 ◦ DeepSeek-R1は、IF-Evalで高いスコアを 記録 ◦ 最終段階のSFTと強化学習での指示追従デ ータの追加が主な要因 •

    文章生成・オープンドメインQAでの強さ ◦ AlpacaEval 2.0およびArenaHardで優れた 結果を達成 ◦ DeepSeek-R1は文章生成やオープンドメ インQAでDeepSeek-V3を大きく上回る • 出力の簡潔さと長さバイアスの回避 ◦ ArenaHard平均トークン数:689 AlpacaEval 2.0の文字数:2,218 ◦ DeepSeek-R1はGPTベース評価時に長さ バイアスを回避しつつ,簡潔かつ適切な要 約を生成可能 23
  13. 数学・コーディングタスクでも高い性能 • 数学タスクでの高い性能 ◦ 数学タスクでOpenAI-o1-1217と同等の性 能を発揮 • アルゴリズム・コーディングタスクの強 み ◦

    LiveCodeBenchやCodeforcesで優れた結 果を達成 ◦ 推論能力を重視するモデルが優位を占める 中高いパフォーマンスを示す • コーディングタスクの課題と展望 ◦ AiderではOpenAI-o1-1217が上回るが, SWE Verifiedではほぼ同等の性能 ◦ 関連する強化学習データが現状少ないこと が原因 ◦ 今後,エンジニアリング関連データが充実 することで更なる向上が期待 24
  14. うまくいかなかったこと • Process Reward Model ◦ センテンスレベルやトークンレベルでの報酬を計算 ◦ コスパが悪い •

    モンテカルロ木探索 ◦ モデルが解空間を系統的に探索できるように解答をより小さな部分に分割 ◦ 各ノードに最大拡張制限を設定することによる局所最適解の可能性 ◦ 価値モデルの生成の質の担保が困難 25
  15. 今後の課題 • 汎化性能 ◦ 関数呼び出しやマルチターン対話,複雑なロールプレイング,json出力においてDeepSeek- V3に劣る • 多言語対応 英語と中国語以外にも最適化 •

    プロンプトエンジニアリング ◦ プロンプトの影響を受けやすい ◦ 問題をシンプルに記述しゼロショットで実行を推奨 • ソフトウェアエンジニアリング ◦ 評価時間が長いため十分に学習できていない 26