Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DeepSeek-R1の論文から読み解く背景技術

asap
February 25, 2025

 DeepSeek-R1の論文から読み解く背景技術

2025年2月25日に登壇した「【DeepSeek解剖!】使い方から技術の核心まで」イベントの講演資料です。
https://ai-fest-tokyo.connpass.com/event/345811/

資料に関しては下記の記事もご覧ください。
(なお本資料を利用する場合は必ずご覧ください)
https://zenn.dev/asap/articles/89d2a13bdc75a3

asap

February 25, 2025
Tweet

Other Decks in Research

Transcript

  1. 5 DeepSeekの歴史の振り返り DeepSeekの歴史 2025年 1月 2024年 12月 2024年 5月 2023年

    11月 2023年 5月 DeepSeek-V3 DeepSeek-V2 DeepSeek-R1 Multi-head Latent Attention DeepSeek MoE auxiliary-loss-free strategy Multi Token Prediction DeepSeek-R1-Zero DeepSeek社 設立 DeepSeek Coder DeepSeek LLM 大規模学習に向けた 精度と計算効率のトレードオフ改善 大規模学習での 精度と安定性の向上 強化学習 GRPO 強化学習による 思考能力の向上と 徹底的な計算効率の改善 DeepSeekMath DeepSeek MoE 当時の 70Bオープンモデルに追いつく DeepSeek-V2.5 DeepSeek-Coder-V2 @asap2650 計算効率の改善と学習の安定性を突き詰めてきた歴史
  2. 9 DeepSeek-R1-Zeroのモデル構造 @asap2650 DeepSeek-V3-Baseと同一モデル構造 モデルアーキテクチャの改善 学習方法の改善 DeepSeek-R1-Zero 解説 DeepSeek-V3 DeepSeek-V2

    DeepSeek-R1 DeepSeek-R1-Zero DeepSeek LLM モデルパラメータ: 67B → 236B(+169B) モデルパラメータ:236B → 671B(+435B) モデルパラメータ:671B → 671B(変化なし) DeepSeek-V3-Baseへの追加学習にて開発 → 強化学習
  3. 11 強化学習とは?? @asap2650 途中の行動に正解を与えなくとも最終的なゴールから学習 DeepSeek-R1-Zero 解説 コマンド 入力 コマンド 入力

    コマンド 入力 ゲームクリア 報酬 ・・・ ①移動やジャンプなどの「行動」をAIが実施 ③今回の流れで選んだ「行動」の選択確率を上げる (ゲームクリアから近い行動の方が強く更新される) ②クリアで報酬を与える ゲームクリア
  4. 12 強化学習とは?? @asap2650 途中の行動に正解を与えなくとも最終的なゴールから学習 DeepSeek-R1-Zero 解説 コマンド 入力 コマンド 入力

    コマンド 入力 ゲームオーバー 罰 ・・・ ①移動やジャンプなどの「行動」をAIが実施 ③今回の流れで選んだ「行動」の選択確率を下げる (ゲームオーバーから近い行動の方が強く更新される) ②ゲームオーバーで 罰を与える (マイナスの報酬) ゲームオーバー
  5. 22 LLMで強化学習とは?? @asap2650 LLMでもマリオと同様の枠組みで強化学習可能 DeepSeek-R1-Zero 解説 token 出力 token 出力

    token 出力 良い文章生成 報酬 ・・・ ①tokenを出力するという「行動」をLLMが実施 ③今回の流れで選んだ「行動」の選択確率を上げる (文章完成から近い行動の方が強く更新される) ②良い文章を生成したら 報酬を与える ご主人様は、 と〜っても かっこいいです!
  6. 23 LLMで強化学習とは?? @asap2650 LLMでもマリオと同様の枠組みで強化学習可能 DeepSeek-R1-Zero 解説 token 出力 token 出力

    token 出力 ・・・ ①tokenを出力するという「行動」をLLMが実施 うるせぇ、 話しかけんな! 悪い文章生成 罰 ③今回の流れで選んだ「行動」の選択確率を下げる (文章完成から近い行動の方が強く更新される) ②悪い文章を生成したら 罰を与える (マイナスの報酬)
  7. 24 従来手法:PPO(Proximal Policy Optimization) @asap2650 今回出力した文章が期待値よりも高いか低いかで学習 DeepSeek-R1-Zero 解説 プロンプト 出力文章

    報酬モデル (AI) 状態価値モデル (AI) 報酬 状態価値 (報酬の期待値) Advantage 状態価値:LLMが取得できる累積報酬の期待値 報酬:今回の出力文章での累積報酬 Advantage: 報酬と期待値との差 (正なら行動確率向上) LLM GAE
  8. 25 報酬モデルとは @asap2650 DeepSeek-R1-Zero 解説 報酬モデル (AI) ご主人様は、と〜ってもかっこいいですよね!臭いけど。[EOS] ご主人様は、と〜ってもかっこいいですよね!臭いけど。 ご主人様は、と〜ってもかっこいいですよね!

    報酬モデル (AI) 報酬モデル (AI) 報酬モデル (AI) 報酬モデル (AI) ご主人様は、と〜ってもかっこいい ご主人様は、と〜っても 報酬:0 報酬:0 報酬:0 報酬:0 報酬:-1 各出力tokenごとに報酬モデルが報酬を計算 基本的には文完成([EOS]トークン出力)時に報酬が与えられる 入力(LLMの出力) 出力
  9. 26 報酬モデルとは @asap2650 DeepSeek-R1-Zero 解説 報酬モデル (AI) ご主人様は、と〜ってもかっこいいですよね!臭いけど。[EOS] ご主人様は、と〜ってもかっこいいですよね!臭いけど。 ご主人様は、と〜ってもかっこいいですよね!

    報酬モデル (AI) 報酬モデル (AI) 報酬モデル (AI) 報酬モデル (AI) ご主人様は、と〜ってもかっこいい ご主人様は、と〜っても 報酬:0 報酬:0 報酬:0 報酬:0 報酬:-1 文完成時だけ報酬計算することも多い 入力(LLMの出力) 出力
  10. 27 報酬モデルとは @asap2650 DeepSeek-R1-Zero 解説 報酬モデル (AI) ご主人様は、と〜ってもかっこいいですよね!臭いけど。[EOS] ご主人様は、と〜ってもかっこいいですよね!臭いけど。 ご主人様は、と〜ってもかっこいいですよね!

    報酬モデル (AI) 報酬モデル (AI) 報酬モデル (AI) 報酬モデル (AI) ご主人様は、と〜ってもかっこいい ご主人様は、と〜っても 報酬:0 報酬:0 報酬:1 報酬:0 報酬:-1 区切りの良い箇所でプロセス報酬を与える場合もある (DeepSeek-R1では与えていない) 入力(LLMの出力) 出力
  11. 28 状態価値モデルとは @asap2650 強化学習では何万回とsampleを出力し学習 ある時点以降から獲得できる累積報酬の期待値を出力する DeepSeek-R1-Zero 解説 状態価値モデル (AI) ご主人様は、

    ご主人様は、かっこいいですよね!臭いけど。[EOS] ご主人様は、と〜ってもかっこいいですよね! [EOS] ご主人様は、 それなりに面白いね![EOS] ご主人様は、 私が守るから!安心して。[EOS] ・・・ 報酬モデル (AI) 報酬モデル (AI) 報酬モデル (AI) 報酬モデル (AI) ・・・ LLMは 確率的に文を生成 報酬:-1.0 報酬:+1.0 報酬:+0.3 報酬:+1.2 期待値:+0.8 今回の例だと、期待値(+0.8)なので「ご主人様は、」で始まる文章は、だいたい良い文章になりそう → 報酬+0.3の文章って本当にいい文章? ご主人様は、 入力 (LLMの途中出力) 期待値を 反映するよう学習
  12. 29 Advantage とは @asap2650 報酬から期待値を引くこと(厳密には違う) で、 バイアスを除去し入力に依存せず、出力を評価できる DeepSeek-R1-Zero 解説 プロンプト

    出力文章 報酬モデル (AI) 状態価値モデル (AI) 報酬 状態価値 (報酬の期待値) Advantage 状態価値:LLMが取得できる累積報酬の期待値 報酬:今回の出力文章での累積報酬 Advantage: 報酬と期待値との差 (正なら行動確率向上) LLM GAE Ex)(報酬: +0.3)-(期待値: +0.8)=(Advantage: -0.5)← tokenの出力確率は減少
  13. 30 従来手法:PPO(Proximal Policy Optimization) @asap2650 3つもAIモデルが必要→計算量が非常に多い DeepSeek-R1-Zero 解説 プロンプト 出力文章

    報酬モデル (AI) 状態価値モデル (AI) 報酬 状態価値 (報酬の期待値) Advantage LLM 学習時にすべてGPUに載せて計算しないといけない GAE
  14. 31 提案手法:GRPO(Group Relative Policy Optimization) @asap2650 「報酬の期待値」→「報酬の平均」で近似し 状態価値モデルを削減し、計算効率を向上 DeepSeek-R1-Zero 解説

    プロンプト 出力文章 報酬モデル (AI) 報酬 Advantage LLM 出力文章 出力文章 報酬 報酬 Advantage Advantage 平均計算 バイアス除去
  15. 33 ルールベース報酬とは? フォーマット報酬 1 精度報酬 2 S A I R

    U DeepSeek-R1-Zero 解説 ・思考プロセスを<think>と</think>タグの間に置くことをモデルに強制する ・フォーマットに合っていれば報酬、合っていなければ罰を与える ・応答が正しいかどうかを評価する ・例えば数学の問題なら、最終的な答えとあっているかどうかで報酬を渡す
  16. 35 ルールベース報酬:精度報酬 @asap2650 最終的な答えだけ見て、機械的に採点→報酬を与える AIモデルが不要 DeepSeek-R1-Zero 解説 <think> まずは、未知数をxと定義する。 ここでは兄がもらったアメをx個と置く。

    すると弟のもらったアメは「x+8」個になる。 したがって、x+(x+8)=30より、x=11である。 </think> <answer> 11個</answer> Prompt: 30個のアメを兄と弟で分けたところ、 もらったアメの個数は 弟のほうが兄よりも8個多くなった。 兄のもらったアメは何個か。 結果だけを機械的に比較し「報酬」を与える 正解:11個 思考プロセスは「無視」 R1-Zeroのゴールは「問題を正解しているかどうか」(良い文章、悪い文章かは関係ない) 数学やプログラム問題を解かせる
  17. 36 ルールベース報酬:精度報酬 @asap2650 思考部分に対しての報酬設定無しで、思考能力が向上 DeepSeek-R1-Zero 解説 <think> まずは、未知数をxと定義する。 ここでは兄がもらったアメをx個と置く。 すると弟のもらったアメは「x+8」個になる。

    したがって、x+(x+8)=30より、x=11である。 </think> <answer> 11個</answer> 学習時は無視される 報酬が付与される箇所 報酬無しで思考能力が向上 思考の長さが増加 Aha Moment(モデル出力)
  18. 37 なぜ思考能力が向上するのか @asap2650 強化学習の枠組みで、正答するためには 「今、何のtokenを出力するべきか」が最適化されるから DeepSeek-R1-Zero 解説 token 出力 token

    出力 token 出力 問題に正答 報酬 ・・・ ①tokenを出力するという「行動」をLLMが実施 ③今回の流れで選んだ「行動」の選択確率を上げる (文章完成から近い行動の方が強く更新される) ②正答したら報酬を与える <think> まずは、未知数をxと定義する。 ここでは兄がもらったアメをx個と置く。 すると弟のもらったアメは 「x+8」個になる。 したがって、x+(x+8)=30より、 x=11である。 </think> <answer> 11個</answer> 問題の正答に近づくようなtokenを出力する能力 → ステップバイステップに問題を解く能力が磨かれる
  19. PPO(従来手法) DPO(従来手法) 報酬モデルと状態価値モデルが必要 計算量が多すぎる 学習に 「良い回答」「悪い回答」の組が必要 使えるデータセットが少ない 39 著者らの執念 @asap2650

    「学習データ量を減らさないこと」 「計算量を徹底的に削減すること」への強い執念 DeepSeek-R1-Zero 解説 GRPO+ルールベース報酬(提案手法) いろんな文章で学習できる 学習量:増 報酬モデルと状態価値モデルが不要 計算量:少 高性能と圧倒的に格安なAPI料金の両立を達成している理由か?
  20. 40 まとめ DeepSeek-R1のモデル構造はDeepSeek-V3と同じ 1 S A I R U DeepSeek-R1-Zero

    解説 GRPO+ルールベース報酬で圧倒的な計算効率を達成 2 数学問題を解くことで高い問題解決能力を獲得 3