強化学習はLLMの能力に何をもたらしたのか　What has reinforcement learning added to LLM capabilities?

強化学習はLLMの能⼒に何をもたらしたのか株式会社ニューロジカ開発部川畑⻯平強化学習はLLMの能⼒に何をもたらしたのか

⽬次 1. 序論 ◦ 参考にした記事 ◦ 前提知識 2. 関連研究 ◦
Does RL Really Incentivize Reasoning Capacity...? ◦ Reasoning with Sampling ◦ Prolonged RL Expands Reasoning Boundaries in LLM 3. まとめ 2 @Neurogica Inc.

本資料は以下の記事を参考にして作成しています。参考にした記事の紹介 @Neurogica Inc. https://zenn.dev/kuto5046/articles/41c8a08421e3a1 3 参考した記事前提知識関連研究まとめ

推論モデルが登場してから, LLM の数学・論理能⼒が⾶躍的に向上した。この性能向上はRLVR(検証可能な報酬を伴う強化学習)が深く関わる。背景: 推論モデルの台頭 4 ↑IMO 優勝東⼤⼊試→
参考した記事前提知識関連研究まとめ @Neurogica Inc.

伝統的なRLにおいては新たな戦略を「発⾒」する例が報告されている。 LLMもRLで性能向上しており、新たな能⼒を「発⾒」しているのでは？背景: 強化学習（RL）による性能向上 5 トークンの分布を調整・先鋭化新たな能⼒の獲得？新たな戦略の「発⾒」 @Neurogica Inc.
参考した記事前提知識関連研究まとめ

RLVR の限界 [Yue+, NeurIPS2025 (Best Paper Runner-up)] 6 Yue et
al., "Does Reinforcement Learning Really Incentivize Reasoning Capacity...?", NeurIPS 2025. ① ② 1: Zero-Shot ・ Few-Shots では優勢 • RLモデルはサンプリングが効率的 • 分布を先鋭化させている。 2: Shot 数を増やしていくとベースモデルに負ける • モデルの能⼒として解ける問題はむしろ減る • 新たな推論能⼒を「発⾒」している訳ではない。 @Neurogica Inc. 参考した記事前提知識関連研究まとめ RLモデルは効率的に推論しているだけで、新たな能⼒を発⾒してはいない

pass@k (k>∞)は全てのタスクでベースモデルがRLVRモデルを上回る→ 現時点の強化学習(RLVR)ではLLMは新たな能⼒を発⾒していない RLVR の限界 [Yue+, NeurIPS2025 (Best Paper
Runner-up)] 7 Yue et al., "Does Reinforcement Learning Really Incentivize Reasoning Capacity...?", NeurIPS 2025. スケールしても同じタスク変えても同じ @Neurogica Inc. 参考した記事前提知識関連研究まとめ

Reasoning with Sampling [Karan & Du, ICLR 2026] 8 Karan
& Du, "Reasoning with Sampling: Your Base Model is Smarter Than You Think", ICLR 2026. @Neurogica Inc. 参考した記事前提知識関連研究まとめ RL を使⽤せずともサンプリング戦略を⼯夫すれば分布を先鋭化できる？ → power-sampling をうまく近似する⼿法を提案

数学やコーディングなどで GRPO(RL) に匹敵する性能を訓練なしで達成 Reasoning with Sampling [Karan & Du, ICLR
2026] 9 Karan & Du, "Reasoning with Sampling: Your Base Model is Smarter Than You Think", ICLR 2026. @Neurogica Inc. 参考した記事前提知識関連研究まとめ

Prolonged RL [Liu+, NeurIPS2025] 10 Liu et al., "ProRL: Prolonged
Reinforcement Learning Expands Reasoning Boundaries in Large Language Models", NeurIPS 2025. 特定のタスクでは性能同じまたは低下⼀部のタスクでは、推論の幅が早期に飽和ベースモデルが苦⼿・事前学習に含まれないと向上 @Neurogica Inc. 参考した記事前提知識関連研究まとめ RLで新たな能⼒を発⾒しないのは深い探索ができていないからでは？ → ベースモデルが苦⼿とするタスクでの性能向上を確認(RLは発⾒した)

まとめ⽬的: 強化学習はLLMの能⼒に何をもたらしたのかというテーマで3論⽂を紹介内容: • 基本的にRLVRでは発⾒よりも先鋭化の傾向のほうが強く出る • サンプリング戦略の⼯夫により学習なしでも同様の先鋭化が可能 • 学習に含まれていないドメインにおいては発⾒(exploration)も確認
11 @Neurogica Inc. 参考した記事前提知識関連研究まとめ

強化学習はLLMの能力に何をもたらしたのか　What has reinforcement le...

強化学習はLLMの能力に何をもたらしたのか　What has reinforcement learning added to LLM capabilities?

Neurogica

More Decks by Neurogica

Other Decks in Technology

Featured

Transcript

強化学習はLLMの能⼒に何をもたらしたのか株式会社ニューロジカ開発部川畑⻯平強化学習はLLMの能⼒に何をもたらしたのか

⽬次 1. 序論 ◦ 参考にした記事 ◦ 前提知識 2. 関連研究 ◦

本資料は以下の記事を参考にして作成しています。参考にした記事の紹介 @Neurogica Inc. https://zenn.dev/kuto5046/articles/41c8a08421e3a1 3 参考した記事前提知識関連研究まとめ

推論モデルが登場してから, LLM の数学・論理能⼒が⾶躍的に向上した。この性能向上はRLVR(検証可能な報酬を伴う強化学習)が深く関わる。背景: 推論モデルの台頭 4 ↑IMO 優勝東⼤⼊試→

RLVR の限界 [Yue+, NeurIPS2025 (Best Paper Runner-up)] 6 Yue et

pass@k (k>∞)は全てのタスクでベースモデルがRLVRモデルを上回る→ 現時点の強化学習(RLVR)ではLLMは新たな能⼒を発⾒していない RLVR の限界 [Yue+, NeurIPS2025 (Best Paper

Reasoning with Sampling [Karan & Du, ICLR 2026] 8 Karan

数学やコーディングなどで GRPO(RL) に匹敵する性能を訓練なしで達成 Reasoning with Sampling [Karan & Du, ICLR

Prolonged RL [Liu+, NeurIPS2025] 10 Liu et al., "ProRL: Prolonged

強化学習はLLMの能力に何をもたらしたのか What has reinforcement le...

強化学習はLLMの能力に何をもたらしたのか What has reinforcement learning added to LLM capabilities?

More Decks by Neurogica

Other Decks in Technology

Featured

Transcript

強化学習はLLMの能力に何をもたらしたのか　What has reinforcement le...

強化学習はLLMの能力に何をもたらしたのか　What has reinforcement learning added to LLM capabilities?