Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化学習はLLMの能力に何をもたらしたのか What has reinforcement le...

強化学習はLLMの能力に何をもたらしたのか What has reinforcement learning added to LLM capabilities?

株式会社ニューロジカのテックブログを公開しました。

採用ポジション:https://speakerdeck.com/neurogica/recruitment-position
HP:https://neurogica.com
お問い合わせ:[email protected]

Avatar for Neurogica

Neurogica

April 13, 2026

More Decks by Neurogica

Other Decks in Technology

Transcript

  1. ⽬次 1. 序論 ◦ 参考にした記事 ◦ 前提知識 2. 関連研究 ◦

    Does RL Really Incentivize Reasoning Capacity...? ◦ Reasoning with Sampling ◦ Prolonged RL Expands Reasoning Boundaries in LLM 3. まとめ 2 @Neurogica Inc.
  2. RLVR の限界 [Yue+, NeurIPS2025 (Best Paper Runner-up)] 6 Yue et

    al., "Does Reinforcement Learning Really Incentivize Reasoning Capacity...?", NeurIPS 2025. ① ② 1: Zero-Shot ・ Few-Shots では優勢 • RLモデルはサンプリングが効率的 • 分布を先鋭化させている。 2: Shot 数を増やしていくとベースモデルに負ける • モデルの能⼒として解ける問題はむしろ減る • 新たな推論能⼒を「発⾒」している訳ではない。 @Neurogica Inc. 参考した記事 前提知識 関連研究 まとめ RLモデルは効率的に推論しているだけで、新たな能⼒を発⾒してはいない
  3. pass@k (k>∞)は全てのタスクでベースモデルがRLVRモデルを上回る→ 現時点の強化学 習(RLVR)ではLLMは新たな能⼒を発⾒していない RLVR の限界 [Yue+, NeurIPS2025 (Best Paper

    Runner-up)] 7 Yue et al., "Does Reinforcement Learning Really Incentivize Reasoning Capacity...?", NeurIPS 2025. スケールしても同じ タスク変えても同じ @Neurogica Inc. 参考した記事 前提知識 関連研究 まとめ
  4. Reasoning with Sampling [Karan & Du, ICLR 2026] 8 Karan

    & Du, "Reasoning with Sampling: Your Base Model is Smarter Than You Think", ICLR 2026. @Neurogica Inc. 参考した記事 前提知識 関連研究 まとめ RL を使⽤せずともサンプリング戦略を⼯夫すれば分布を先鋭化できる? → power-sampling をうまく近似する⼿法を提案
  5. 数学やコーディングなどで GRPO(RL) に匹敵する性能を訓練なしで達成 Reasoning with Sampling [Karan & Du, ICLR

    2026] 9 Karan & Du, "Reasoning with Sampling: Your Base Model is Smarter Than You Think", ICLR 2026. @Neurogica Inc. 参考した記事 前提知識 関連研究 まとめ
  6. Prolonged RL [Liu+, NeurIPS2025] 10 Liu et al., "ProRL: Prolonged

    Reinforcement Learning Expands Reasoning Boundaries in Large Language Models", NeurIPS 2025. 特定のタスクでは 性能同じまたは低下 ⼀部のタスクでは、 推論の幅が早期に飽和 ベースモデルが苦⼿・ 事前学習に含まれないと向上 @Neurogica Inc. 参考した記事 前提知識 関連研究 まとめ RLで新たな能⼒を発⾒しないのは深い探索ができていないからでは? → ベースモデルが苦⼿とするタスクでの性能向上を確認(RLは発⾒した)