The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

© LY Corporation AI CBU / Visual Generation Dept. Shunsuke
Kitada, Ph.D. HP: shunk031.me / 𝕏: @shunk031 ※本発表で紹介する図や数式は対象の論文およびブログ記事から引用しております The Landscape of Agentic Reinforcement Learning for LLMs: A Survey Guibin Zhang1, … (23 authors) …, Lei Bai2 1National University of Singapore 2Shanghai AI Laboratory Project page: xhyumiracle/Awesome-AgenticLLM-RL-Papers

© LY Corporation 経歴 • ʻ23/04 LINE ➜ ʻ23/10 LINEヤフー
Research Scientist • ʻ23/03 法政⼤学⼤学院彌冨研博⼠ (⼯学) / 学振 DC2 研究分野 • ⾃然⾔語処理 (NLP) / 画像処理 (CV) ◦ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Accessʼ21, Appl. Intell.ʼ22] • 計算機広告 (Multi-modal / Vision & Language) ◦ 効果の⾼いデジタル広告の作成⽀援 [Kitada+ KDDʼ19] ◦ 効果の低いデジタル広告の停⽌⽀援 [Kitada+ Appl. Sci.ʼ22] • デザイン⽣成 AI ◦ 離散拡散モデルで⽣成されたレイアウトの再調整 [Iwai+ ECCVʼ24] ◦ LLMによるレイアウトの⽣成に対する⾃⼰修正 [Zhang+ arXivʼ24] ◦ ⽥植えをするように潜在表現を植える画像⽣成 [Nagai+ CVPR-Fʼ26] ⾃⼰紹介: 北⽥俊輔 Shunsuke KITADA 2 🏠: shunk031.me / 𝕏: @shunk031 画像生成AIにおける拡散モデルの理論と実践リサーチサイエンティスト北田俊輔 www.youtube.com/watch?v=-IPEUOcPTas Pythonで学ぶ画像生成北田俊輔インプレス社 https://book.impress.co.j p/books/1123101104

© LY Corporation 既存 LLM API で AI エージェントは作れるようになってきた。でも細かいところで動かないぞ？ •
OpenAI API や Amazon Bedrock API で簡単に組み⽴てられるようになってきた ◦ 「いい感じに動いているけどなんでかわからん！」 ◦ 「微妙にかゆいところに⼿が届かない動作をするぞ？」エージェントの様に振る舞えるようにする学習⽅法について知りたい • 「タスクに合うようなエージェントを 1 から作りたい！」 • 「複数ターンでユーザの要求に答えるには？」 • 「ツールや検索、正しい算術を使うには？」 • 「複数のエージェントが協調して動作するには？」 ➜ これらの疑問に答えてくれるようなサーベイを探しました本論⽂の選定理由 3 Nanobanana Pro にて⽣成

© LY Corporation LLM をエージェントとして活⽤するパラダイム転換 • LLM は static な⽣成器から
dynamic な⾃律エージェントへと再定義 • Agentic Reinforcement Learning (Agentic RL) は逐次意思決定として LLM を扱う枠組みとして注⽬を集める RL と LLM の 2 つの流れ • RL で LLM を改善する⽅向 / LLM を RL に利⽤する⽅向 • 前者は RLHF や DPO が代表的⼿法 [Christiano+ NeurIPSʼ17; Rafailov+ NeurIPSʼ23] LLM エージェント • 推論・計画・ツール利⽤を統合した⾃律主体 • マルチエージェントや⾝体性 AI (Embodied AI) へ拡張 [Aratchige+ arXivʼ25] 研究ギャップと貢献 • 現状 Agentic RL の統⼀的整理が不⾜ • 本論⽂は “マルコフ決定過程 / 部分観測マルコフ決定過程” と “能⼒分類” で体系化導⼊ 4

© LY Corporation Pre-training (事前学習) と Reinforcement Fine-tuning (RFT) の基礎
• LLM はまず⼤量データを模倣する形 (MLE + SFT) で学習 ➜ SFTは「正解データ」を⼤量に必要とする点がボトルネック • RFTは「正解そのもの」ではなく「良し悪し（報酬）」で学習 ◦ 模範回答データへの依存を減らし、試⾏錯誤で性能を伸ばせる選好ベース RFT から Agentic RL への移⾏ • RFT の初期研究は選好 (Preference) 最適化が中⼼ ◦ Preference-based RFT (PB-RFT) への発展 • 推論・ツール利⽤能⼒の進展により Agentic RL へ移⾏ [OpenAI+ arXivʼ24; DeepSeek-AI+ arXivʼ25] パラダイムシフトの本質 • 両者は RL を⽤いるが、前提と構造が異なる • Agentic RL は動的環境と意思決定を重視 2. RL for LLM から Agentic RL へ 5 SFT: 正解を教える学習 ➜ データ依存が強い RFT: 評価で学ぶ学習 ➜ データ依存が弱い MLE: maximum likelihood estimation, 最尤推定 SFT: Supervised Fine-tuning, 教師ありファインチューニング

© LY Corporation RL ﬁne-tuning (RFT) におけるマルコフ決定過程 (MDP) • 7
要素のタプルとして形式化できる • PB-RFT (Preference-based RFT) vs. Agentic RL ◦ LLM を static な系列⽣成器として扱う場合と dynamic な環境でのエージェントとして扱う場合 PB-RFT (Preference-based RFT) • 単⼀ステップに退化させた (= degenerate) MDP Agentic RL • 部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; PO-MDP) 2.1. マルコフ決定過程 | Markov Decision Processes; MDP 6 PB-RFT は完全観測下で固定データセット上の出⼒⽂の系列を最適化 Agentic RL は部分観測かつ変動する環境において、意味レベルの⾏動を最適化

© LY Corporation 2.2. ~ 2.6. 環境・状態・⾏動空間・遷移規則・報酬関数・⽬的関数 PB-RFT: 単発的テキスト⽣成の最適化 /
Agentic RL: 動的環境における多段意思決定と⻑期最適化 7 コンセプト従来の PB-RFT 現在の Agentic RL 本質的な違い状態空間シングルターンマルチターン • PB-RFT は静的かつ単発的 • Agentic RL は動的かつ多段階の相互作⽤を伴う⾏動空間ピュアなテキスト列テキスト列と行動列 • A text は出⼒⽣成、A action は環境操作を担う • 両者の統合で⾔語と⾏動を同時に最適化可能遷移確率決定論的に遷移単⼀ステップ的に決定確率的に遷移逐次的に進⾏ • PB-RFT は⼀回の出⼒⽣成で完結 • Agentic RL は⾔語・ツール・環境操作を組み合わせた逐次意思決定を⾏う報酬単⼀でスカラの報酬ステップごとの報酬 • PB-RFT は最終結果のみ評価 • Agentic RL は過程と結果の両⽅を評価できるため、複雑な⾏動学習に適する⽬的関数単⼀ステップの期待報酬⻑期的な割引累積報酬 • PB-RFT は単発的な出⼒最適化 • Agentic RL は多ターン意思決定と⻑期最適化を扱うため、エージェント化を可能に

© LY Corporation RL アルゴリズムの全体像 • RL アルゴリズムは PB-RFT と
Agentic RL の中核要素 • REINFORCE → PPO → GRPO → DPO と発展 REINFORCE / PPO (Proximal Policy Optimization) • REINFORCE [Williams+ MLʼ92] は基礎的だが不安定 • PPO は安定性を改善し主流⼿法 [Schulman+ arXivʼ17] DPO (Direct Preference Optimization) • 報酬モデルを不要とし選好データで直接最適化 • データ品質に強く依存 [Rafailov+ NeurIPSʼ23] GRPO (Group Relative Policy Optimization) • 相対報酬により Critic 不要化と効率化を実現 • ただし分散問題があり改良が進められている [DeepSeek-AI team Natureʼ25] 2.7. 強化学習アルゴリズム | RL Algorithms 8

© LY Corporation Agentic RL の能⼒視点 • Agentic RL は複数能⼒（計画・推論・メモリなど）を統合したエージェント学習
• 従来の LLM エージェント定義に基づく枠組み [Weng ʻ23, Shang+ arXivʼ24] Static なパイプライン・ワークフローから Dynamic な⽅策へ • 各モジュールは独⽴機能ではなく共同最適化される⽅策となる • RL により計画・メモリ・ツール・内省が動的に学習される本節の⽬的 • RL による能⼒強化を概念的に整理 • 網羅的ではなく体系理解を⽬的 3. Agentic RL: モデル能⼒の観点 9

© LY Corporation プランニングと RL の関係 • プランニングは AI の中核能⼒・RL
により経験ベースの最適化が可能 • “外部ガイド型” と “内部駆動型” の 2 つのパラダイムが存在外部ガイド型 • LLM は⾏動⽣成、RL は評価として機能 • 探索アルゴリズムと組み合わせて計画性能を向上 [Hao+ EMNLPʼ23; Zhou+ ICMLʼ24] etc. 内部駆動型 • LLM ⾃⾝を⽅策として直接最適化 • スキル学習や⻑期適応を可能に [Wang+ TMLRʼ24; Zhu+ arXivʼ25] 将来⽅向 • 探索と⽅策の統合が重要である • 直感と熟慮を統合した推論エンジンが⽬標 [Guan+ ICLRʼ26] 3.1. プランニング | Planning 10 [Hao+ EMNLPʼ23]

© LY Corporation ツール利⽤の進化 • ツール利⽤は ReAct [Yao+ ICLRʼ23] から
Tool-integrated Reasoning (TIR) へ進化 • RL により模倣から結果最適化へ転換 [Chen+ NAACLʼ25; Kavathekar+ EASEʼ25] 初期⼿法の限界 • プロンプトや SFT は static なパターン模倣に依存 • 柔軟性やエラー回復能⼒に⽋ける [Yao+ ICLRʼ23, Schick+ NeurIPSʼ23] RLによる統合推論 • RLによりツール利⽤と推論が統合される • 創発的⾏動と戦略的ツール選択が可能となる [Qian+ NeurIPSʼ25; Lin+ arXivʼ25] 現状と課題 • ツール統合は現在の標準機能 • ⻑期推論とクレジット割当が今後の主要課題 [Gao+ arXivʼ25] 3.2. ツールの使⽤ | Tool Use 11 クレジット割当：どの⾏動がどれだけ結果に貢献したかを決める問題 ReAct：推論と⾏動（ツール利⽤）が交互に並ぶ TIR：推論中にツールが埋め込まれている

© LY Corporation メモリの進化: メモリは受動保存から能動制御へと進化 • RL により保存・検索・忘却を最適化 [Wu+ arXivʼ25]
RAG から学習型メモリへ: 初期は static なメモリと検索制御に留まっていた • 近年は書き込みを含む dynamic なメモリ管理を学習 [Yan+ arXivʼ25] トークンレベルメモリ: 明⽰トークン / 潜在トークンの 2 形式が主流 • ⻑⽂理解と継続学習能⼒を⼤きく向上 [Yu+ arXivʼ25; Wang+ ICMLʼ24] 構造化メモリ • グラフなどの構造的表現が新たな⽅向 • RL による動的管理は未解決課題 [Rasmussen+ arXivʼ25] 3.3. 記憶 | Memory 12 [Wu+ arXivʼ25]

© LY Corporation Self-Improvementの全体像: RL は内省を通じた継続的⾃⼰改善の中核機構である • ⾃⼰⽣成フィードバックにより学習が進化する [Gao+ TMLRʼ26]
⾔語的⾃⼰修正: プロンプトベースで⼀時的な⾃⼰改善を⾏う • 多サンプル化や外部検証で精度向上を図る [Shinn+ NeurIPSʼ23; He+ EMNLP-Fʼ24] 内在化された⾃⼰修正: RLにより⾃⼰修正能⼒を組み込む • 汎⽤的誤り修正能⼒を獲得 [Qiao+ ACLʼ25; Patel+ COLMʼ25] ⾃⼰学習ループ: 反省・探索・タスク⽣成を統合 • 実⾏ベース報酬と経験共有が鍵 [Zhao+ NeurIPSʼ25; Chen+ arXivʼ25] 将来⽅向 • 内省戦略⾃体を最適化するメタ学習が重要 • 学習能⼒の⾃⼰進化が最終⽬標 3.3. ⾃⼰改善 | Self-improvement 13 [Chen+ arXivʼ25]

© LY Corporation 推論の⼆分構造 • 推論は “Fast Reasoning” と “Slow
Reasoning” の 2 つに⼤別 • 効率と精度のトレードオフが本質的課題 [Kahneman FSGʼ11] Fast Reasoning (⾼速推論) • 効率的だが誤りやバイアスに弱い • ハルシネーション対策として信頼度推定などが発展 [Wang+ ICLRʼ23; Lightman+ ICLRʼ24] Slow Reasoning (低速推論) • 多段推論により⾼精度と頑健性を実現 • CoT や RL により強化 [Chu+ ICMLʼ25; Zeng+ COLMʼ25] 将来⽅向 • ⾼速・低速の推論速度の統合が重要 • 適応的な推論制御が鍵 [Yang+ NeurIPSʼ25] 3.4. 思考 | Reasoning 14 [Chu+ ICMLʼ25]

© LY Corporation [Liu+ ICCVʼ25] Perceptionの全体像 • Large Vision-Language Model
(LVLM) は視覚と⾔語を統合し、能動的認知へ進化 • RL が多段推論とモダリティ統合の鍵 [Zhou+ arXivʼ25] 能動的視覚認知 • “受動的な認識” から “操作可能な能動的な認知” へ移⾏ • 検証可能報酬 (veriﬁable rewards) により性能と汎化が向上 [Liu+ ICCVʼ25; Huang+ ICLRʼ2026] グラウンディング・ツール・⽣成 • 様々なグラウンディングの⽅法により視覚と⾔語の対応を強化 • ツール利⽤と⽣成により推論能⼒を拡張 [Fan+ NeurIPSʼ25; Su+ arXivʼ25; Xu+ ICLRʼ26] ⾳声拡張 • RL は⾳声推論と⾳声⽣成にも応⽤ • マルチモーダル統合が進展 [Li+ AAAIʼ26] etc. 3.5. 認知・認識 | Perception 15

© LY Corporation ⻑期相互作⽤とクレジット割当 • Agentic RL は多ターン戦略の⼀貫性を強化 • 時間的クレジット割当が中⼼課題
[Pignatelli+ TMLRʼ24] 過程報酬の導⼊ • 中間ステップ評価により密な報酬を提供 • 外部モデルやルールにより実現 [Liu+ ACLʼ25; Zhang+ ICLRʼ26] 多段選好最適化 • 単⼀の応答ではなく系列単位で選好を学習 • ⻑期的意思決定の質を改善 [Kong+ ACLʼ25] 3.6. その他 16

© LY Corporation タスク視点の全体像 • Agentic RL は多様な実タスクで能⼒が評価・形成される •
検索、コード、推論など幅広い応⽤領域が存在する応⽤の広がり • 単⼀エージェントからマルチエージェントへと拡張 • 実世界問題解決への応⽤が進んでいる 4. Agentic RL: タスクの観点 17

© LY Corporation 検索からリサーチエージェントへの進化 • RAG から多段リサーチエージェントへ・RL による検索と推論の最適化 [Gao+ arXivʼ24;
Kimi team ʻ25] オープンソース RL 検索⼿法 • RL によりクエリ⽣成・多段推論・ツール利⽤を最適化 • API 依存の課題に対し⾃⼰検索が提案 [Jiang+ COLMʼ25; Sun+ arXivʼ25] クローズドソースの進展 • 商⽤モデルは⻑期推論と統合能⼒で優位 • RL と⾼品質データにより完全⾃律型エージェントが実現 [OpenAI team ʻ25] Deep Research の特徴 • 多段計画とRL最適化検索を統合 • メモリと検証を含む統合的研究エージェント [Wei+ arXivʼ25] 4.1. 検索とリサーチのエージェント 18 [Gao+ arXivʼ24]

© LY Corporation Code Agent の全体像: コード領域は検証可能報酬により RL に適している •
単純⽣成からソフトウェア⼯学まで段階的に発展 [Dong+ arXivʼ25] コード⽣成・コード改善 • 結果報酬型は正解性最適化、過程報酬型は中間信号活⽤が特徴 ◦ 密な報酬設計が性能向上に寄与 [Zeng+ ACLʼ25; Ye+ arXivʼ25] • 反復的修正により実務に近い設定を扱う ◦ 過程最適化によりデバッグ能⼒が向上 [Gehring+ ICMLʼ25; Wu+ EMNLPʼ25] ソフトウェア⼯学 • ⻑期タスクでも RL は有効であり実⽤性能を達成 • 安定化⼿法と⻑期報酬設計が重要 [Luo+ ʻ25; Zhou+ arXivʼ25] 新興パラダイム • コード世界モデルはプログラムベース推論を可能に • 検証可能性と計画能⼒を統合する⽅向へ [Dainese+ NeurIPSʼ24; Tang+ NeurIPSʼ24] 4.2. コーディングエージェント 19 [Zeng+ ACLʼ25]

© LY Corporation 数学エージェントの全体構図 • 数学的推論は LLM エージェントの推論能⼒を測る代表的ベンチマーク ◦ (1)
⾮形式的推論と (2) 形式的推論の 2 つの枠組みに⼤別 [Yang+ ICMLʼ25; Asperti+ BDCCʼ26] (1) ⾮形式的数学推論 • 性質 ◦ ⾃然⾔語が中⼼。厳密な構⽂・意味論を持たない代わりに⾼い表現柔軟性を持つ ◦ ⽂章題、⽅程式操作、記号計算のような多様な数学課題に適する • 結果報酬型 RL [Wang+ ICLRʼ21; Singh+ NeurIPS-Wʼ25; Li+ arXivʼ25; Mai+ arXivʼ25; Prabhudesai+ arXivʼ25] etc. ◦ 結果報酬のみでも、適応的ツール利⽤、⾃⼰修正、⾃⼰反省といった創発的⾏動が観測 ◦ 少数例学習や信頼度報酬整形も有効であり、信頼性やデータ効率の向上可能性 • 過程報酬型 RL [Li+ arXivʼ25; Simonds+ arXivʼ25; Hao+ arXivʼ25] ◦ 中間評価器を⽤いた密な報酬はクレジット割当を改善し、ツール統合推論を強化 ◦ ⼈⼿設計構造への依存は⼀般化を制限しうるため、適応的ナビゲータ学習の重要性あり 4.3. 数学エージェント 1/2 20

© LY Corporation (2) 形式的数学推論の基本構図 • 性質 ◦ 証明⽀援系で機械検証可能な証明を⽣成する枠組み。⾃動定理証明に適する [Xin+
ICLRʼ25] ◦ RL 的には証明状態遷移を持つ MDP として定式化される [Wu+ NeurIPSʼ21] • 結果報酬型 RL [Xin+ ICLRʼ25; Zhang+ arXivʼ25; Wang+ arXivʼ25; Chen+ arXivʼ25] ◦ ⼆値の検証器フィードバックだけでも、⼤規模 RL と探索戦略の⼯夫により性能向上が可能 ◦ ⾃然⾔語推論と形式証明の整合、補題中⼼分解、多様なプロンプト戦略が性能改善に寄与 • 過程報酬型 RL [DeepSeek-AI+ arXivʼ24; Ji+ arXivʼ25; Ambati arXivʼ25] ◦ 部分⽬標分解や検証器からのメッセージ利⽤により、より密な学習信号を与えることができる ◦ 精度だけでなく解釈可能性や⾃⼰監視能⼒も向上ハイブリッド報酬 [Anthony+ NeurIPSʼ17; Polu+ arXivʼ20; Wu+ ICMLWʼ25; Lin+ ICLRʼ26; Dong+ ICMLʼ25] • データ不⾜・疎な報酬問題への緩和⽅法：探索と模倣学習を組み合わせた ExIt [Anthony+ NeurIPSʼ17] • Critic 導⼊、思考付き探索、⾃⼰対戦 ➜ 探索効率と適応的カリキュラム⽣成が強化 4.3. 数学エージェント 2/2 21

© LY Corporation GUI Agent の全体像 • GUI エージェントは、zero-shot VLM、SFT、RFT
という段階を経て発展 • RFT は GUI 操作を逐次的意思決定として捉え直し、⻑期・実世界タスクへの拡張を可能に RL-free Methods Vanilla VLM-based GUI Agents • 初期GUIエージェントは学習済みVLM をそのまま⽤いる zero-shot ⽅式 ◦ グラウンディング精度と信頼性に限界あり [Yan+ arXivʼ23; Zheng+ ICMLʼ24; Zhang+ TMLRʼ25] SFT with Static Trajectory Data • SFT は静的 (screen, action) 軌跡によりGUI適応を進めた • ⼈⼿操作の軌跡不⾜が依然として制約 [Liu+ ICMLWʼ25; Zhang+ AAAIʼ26] 4.4. GUI エージェント 1/2 22 [Zhang+ TMLRʼ25]

© LY Corporation RL in Static GUI Environments • static
な GUI 環境では事前収集データ上でルールベース評価を⽤いた RL が⾏われる • 統⼀⾏動空間、空間推論蒸留、GRPO などにより、step-level 予測や⻑期推論が改善 [Luo+ arXivʼ25; Liu+ arXivʼ25; Gu+ arXivʼ25] RL in Interactive GUI Environments • 相互作⽤的 GUI 環境ではオンラインロールアウトにより dynamic な環境適応と⻑期依存処理を学習 • ⾮同期 RL、反省機構、カリキュラム、 API-GUI 統合により、実世界Web・モバイル・デスクトップ操作が強化 [Wei+ EMNLPʼ25; Bai+ NeurIPSʼ24; Lai+ ICLRʼ26] 4.4. GUI エージェント 2/2 23 [Wei+ EMNLPʼ25]

© LY Corporation Vision Agentsの全体像 • RL は画像、動画、3D を含む多様な視覚タスクに広く適⽤されている Image
Tasks • R1 型受動知覚強化から、グラウンディング・ツール利⽤・視覚的想像を含む能動的知覚へと発展 [Su+ arXivʼ25; Fan+ NeurIPSʼ25; Huang+ arXivʼ25] • IoU、mAP、L1 損失などの検証可能報酬により、検出・位置特定・セグメンテーション・ scene graphなどの構造化予測が強化 [Liu+ ICCVʼ25; Shen+ arXivʼ25; Chen+ arXivʼ25] • 画像⽣成でも拡散モデル・ Flow Matching・⾃⼰回帰型⽣成に対し、忠実性や制御性向上のため RL が活⽤されている [Wu+ arXivʼ25; Liu+ arXivʼ25; Wang+ arXivʼ25] 4.5. Vision エージェント 1/2 24 [Su+ arXivʼ25]

© LY Corporation Video Tasks • 動画領域では、GRPO系拡張を中⼼に時間的推論の強化が進⾏ [Dang+ ACL-Fʼ25; Park+
NeurIPSʼ25] • キーフレーム報酬、回帰化 GRPO、⻑尺動画向け2段階パイプラインなどにより、動画理解と推論の効率・解釈性が改善 [Vinod+ arXivʼ25; Li+ arXivʼ25; Chen+ TSMCʼ25] • 動画⽣成でも、時間的⼀貫性、制御性、意味整合性を改善するために RL が重要 [Xue+ arXivʼ25; Mou+ ICMLʼ25] 3D Vision Tasks • 3D 領域：空間推論と共有 3D 表現に対する RL活⽤ [Pan+ arXivʼ25; Ma+ NeurIPSʼ25] • 3D ⽣成：⼈間選好や 2D 報酬信号を利⽤して Text-3D 整合性と制御性が改善 [Zou+ arXivʼ25; Zhou+ arXivʼ25; Liu+ arXivʼ25] 4.5. Vision エージェント 2/2 25 [Park+ NeurIPSʼ25]

© LY Corporation Embodied Agentsの全体像 • Embodied エージェントは知覚・推論・⾏動を統合するシステム • RL
は模倣学習後の事後学習として⽤いられ、探索・⼀般化を強化 [Kim+ CoRLʼ24; Song+ AAAIʼ26] ナビゲーションエージェント • 計画能⼒が中核であり、RL は⾏動系列最適化を担う • 軌跡報酬や内部熟考強化により性能向上 [Qi+ arXivʼ25; Gao+ arXivʼ25] 操作エージェント • 精密制御と多環境適応が重要課題 • VLM 評価や GRPO により軌跡最適化と頑健性が向上 [Liu+ NeurIPSʼ25; Chen+ arXivʼ25] スケーリング課題 • Sim-to-Real 間のギャップと実環境コストが障壁・スケーラブルな RL が未解決 4.6. ⾝体性を持つエージェント 26 [Song+ AAAIʼ26]

© LY Corporation Multi-Agent Systems (MAS) の進化 • 協調・相互作⽤により複雑タスクを解く枠組み •
初期の固定設計から、最適化可能な協調システムへ進化 [Li+ NeurIPSʼ23; Wang+ ICLRʼ25] ⾮パラメトリック協調のRL最適化 • ワークフロー等を RLで最適化・疎報酬やクレジット割当が課題 [Zhuge+ ICMLʼ24; Zhang+ ICMLʼ25] 部分エージェント最適化 • ⼀部エージェントのみ更新することで安定性と効率を確保 • 局所的クレジット割当が重要 [Motwani+ COLMʼ25; Estornell+ ICLRʼ25] End-to-End MARL • 全エージェントを共同最適化し役割分化や通信が創発 • クレジット割当とスケーラビリティが⼤きな課題 [Liu+ AAAIʼ26; Wan+ NeurIPSʼ25] 4.7. マルチエージェントシステム 27 [Zhuge+ ICMLʼ24]

© LY Corporation TextGame • 報酬設計によりクレジット割当と学習安定性が改善 [Yang+ NeurIPSʼ25; Feng+ NeurIPSʼ25]
• 統⼀的な RFT の枠組みにより多様なタスクへの適⽤が可能 [Pan+ arXivʼ25] Table: 対話的 SQL ⽣成においてRLが⾼いデータ効率を⽰す • 多粒度報酬が構造化⽣成の性能向上に寄与 [Liu+ arXivʼ25; Chen+ ICLRʼ26] Time Series: RL カリキュラム学習と GRPO により時間的推論能⼒が強化 • 解釈可能な時系列推論が可能 [Liu+ arXivʼ25; Zhang+ NeurIPS-Wʼ25] General QA: RL により⾏動⽣成の内在化・性能向上 • 並列環境によるスケーラブル学習が鍵 [Zhang+ arXivʼ25; Zhang+ arXivʼ25] Social: 細粒度報酬により社会的推論の安定学習が可能 • 適応的推論モードが効率と精度を両⽴ [Yu+ NeurIPS-Wʼ25; Wang+ ICLRʼ26] 4.8. その他のタスクに特化したエージェント 28 [Liu+ arXivʼ25]

© LY Corporation Environment Simulator の全体像 • 環境は観測・⾏動・報酬を通じてエージェント学習を⽀える基盤 • 多様なタスク特化環境が提案されている
5. 実⾏環境とフレームワーク | Enviroment and Frameworks 29 [Xi+ ACLʼ25]

© LY Corporation Web・GUI 実⾏環境: WebおよびGUI環境は現実に近い相互作⽤を再現 • 状態変化はエージェント⾏動に依存する設計である [Yao+ NeurIPSʼ22;
Rawles+ ICLRʼ25] コード環境: 実⾏可能環境とベンチマークによりコード⽣成・修正を評価 • 近年は世界モデル構築能⼒の評価へ拡張されている [Dainese+ NeurIPSʼ24] ドメイン特化環境: 科学、ML、医療、セキュリティなど各分野に特化した環境が存在 • 実問題に近い評価が可能である [Wang+ EMNLPʼ22; Qiang+ NeurIPSʼ25] シミュレーション・ゲーム環境: ⾔語・視覚・マルチエージェント能⼒を統合的に評価 • ⻑期推論や協調⾏動の検証に適する [Hafner+ ICLRʼ22; Samvelyan+ AAMASʼ19] 汎⽤環境: ⼀般化能⼒評価とスケーラブル訓練を⽬的 • 多様なタスク統合が進んでいる [Xi+ ACLʼ25; Liu+ ICLRʼ24] 5.1. 実⾏環境のシュミレータ 30 [Liu+ ICLRʼ24]

© LY Corporation RL Frameworkの全体構造 • Agentic RL 関連フレームワークは 3
カテゴリに分類される • それぞれ役割（エージェント最適化・整合・基盤アルゴリズム）が異なる Agentic RL frameworks • ⼤規模・分散・マルチモーダル・マルチエージェント対応が進んでいる • 経験⽣成と⻑期学習のスケーリングが重要課題 [Cao+ arXivʼ25; Yu+ arXivʼ25] RLHF / Fine-tuning frameworks • モデル整合と⼤規模訓練基盤を提供する • 分散化・⾮同期化・実験管理の効率化が進んでいる [Hu+ EMNLP-Dʼ25; Sheng+ ACLʼ25] General-purpose RL frameworks • 汎⽤ RL アルゴリズムと実⾏基盤を提供する • Agentic RL の基盤技術として重要 [Liang+ ICMLʼ18; Rafﬁn+ JMLRʼ21] 5.2. 強化学習フレームワーク 31 OpenRLHF [Hu+ EMNLP-Dʼ25]

© LY Corporation 未解決の問題の全体像 • Agentic RL の発展は 3 つの中核課題に依存する
• 信頼性・学習スケーリング・環境スケーリングが研究フロンティアを形成する信頼性・スケーリング課題 • ⾃律エージェントの安全性と整合性確保が必要 • 計算・データ・アルゴリズムの制約克服が求められる環境スケーリング • エージェント能⼒は環境に依存 • 複雑で適応的な訓練環境の構築が鍵 6. 未解決の課題と今後の⽅向性 32 [Wang+ ACLʼ25]

© LY Corporation セキュリティ • エージェントは外部モジュールにより攻撃⾯が拡張される • RLは報酬最⼤化により脆弱性探索を強化する危険あり [Wang+ ACLʼ25;
Chen+ NeurIPSʼ24] • サンドボックス化、過程報酬、監視が重要な防御⼿段ハルシネーション • 幻覚は不正確な推論や過信を伴う問題である • 結果報酬型RLは幻覚や拒否能⼒低下を引き起こす可能性 [Li+ NeurIPSʼ25; Song+ EMNLP-Fʼ25] • 過程報酬、検索拡張、不確実性学習が有効な対策である過度な同調（よいしょ・おだて・おべっか） • 過度な同調・迎合は誤ったユーザ信念への適応として現れる • RLHF は報酬設計によりこれを強化しうる [Wen+ ICLRʼ25] • 同調抑制報酬と動的報酬最適化が重要である [Hong+ arXivʼ25] 6.1. 信頼性 | Trustworthiness 33 [Song+ EMNLP-Fʼ25]

© LY Corporation 計算資源 Computation • RL 計算量の増加は推論能⼒を直接向上させる • ⻑期訓練により新たな推論戦略が創発する
[Mai+ NeurIPSʼ25; Liu+ NeurIPSʼ25] モデルサイズ Model Size • ⼤規模化は性能向上と多様性低下のトレードオフ • SFT + RL のハイブリッドや適切な設計が重要 [Dong+ arXivʼ25; Vattikonda+ NeurIPSʼ25] データサイズ Data Size • 多領域 RL は相乗効果と⼲渉の両⾯を持つ • 適切なデータ設計が汎⽤推論能⼒に重要 [Li+ arXivʼ25; Cheng+ NeurIPSʼ25] 効率 Efﬁciency • 効率的 RL 設計がスケーリングの鍵 • 少量データでの⼀般化能⼒獲得が重要な⽅向性 [An+ ʻ25; Wu+ ICLRʼ26] 6.2. Agentic Training のスケールアップ 34 [Cheng+ NeurIPSʼ25]

© LY Corporation 環境スケーリングのパラダイム転換: 環境を静的から動的・最適化対象へと捉える転換 • 既存環境の限界を受け、エージェントと環境の共進化が重視 [Zheng+ arXivʼ25] 報酬設計の⾃動化:
探索エージェントにより軌跡を⽣成し報酬モデルを学習 • ⼈⼿設計なしで複雑⾏動の学習が可能カリキュラム⽣成の⾃動化 • 環境⽣成器により弱点に応じたタスクを動的⽣成 • 適応的難易度制御により学習効率と汎化が向上 [Zala+ COLMʼ24] 共進化と⾃⼰強化型の学習ループ • 報酬と環境の⾃動化によりエージェントと環境が相互強化する • スケーラブルな⾃⼰改善ループが形成される 6.3. Agentic Environment のスケールアップ 35 [Zheng+ arXivʼ25]

© LY Corporation RL の機構的議論 • RL の効果は「分布増幅」と「新能⼒獲得」の2説に分かれる • 多くの証拠は既存能⼒の再配分としての側⾯を⽀持する
[Shao+ arXivʼ24; Yue+ NeurIPSʼ25] 新能⼒仮説 • RL は新たな推論戦略や分布外⼀般化を⽣みうる • 特定条件下では pass@k の拡張が観測される [Guo+ Natureʼ25; Chu+ ICMLʼ25] 数学推論のケーススタディ • RL は主に既存推論の強化として機能するが、⼀部で能⼒再編成も観測 • 学習が飽和した後にも性能向上が続く現象は、新たな能⼒獲得の兆候 [Guan+ ICMLʼ25] 新能⼒発現条件 • 検証可能報酬、多段構造、中間能⼒モデルが鍵 • 条件を満たさない場合、RL は単なる増幅器として振る舞う 6.4. LLM における RL のメカニズムに関する議論 36

© LY Corporation 実運⽤アーキテクチャの基本原則: RL だけでなくシステム設計が信頼性に重要 • 安全・検証・階層制御・通信が中核要素安全ガードレール:
⼊⼒検証と出⼒制御により安全性を確保 • RL 内外の両⽅で安全対策が実装 [Zheng+ NeurIPSʼ25] Human-in-the-Loop 検証: ⼈間は⾼品質な補助信号を提供 • 不確実性に応じた介⼊が重要 [Mozannar+ arXivʼ25] 階層制御: タスク分解によりスケーラビリティと安定性が向上 • 企業的ワークフローに類似した構造 [Zhang+ arXivʼ25] 通信プロトコル: 固定と学習型のトレードオフが存在 • 標準化によりシステム統合が容易 [Chang+ arXivʼ25] 6.5. 実世界エージェント運⽤のための設計指針 37 [Zhang+ arXivʼ25]

© LY Corporation 社会的影響の全体像 • Agentic RLは技術だけでなく社会的影響も重要 / 安全性・公平性・持続性の統合が必要
意図しない⽤途による利⽤ • 普段は無害に⾒えるが、特定の条件で有害⾏動を発動するエージェントなど新たな悪⽤リスクが存在 • 既存フレームワークは不⼗分との指摘あり [Hubinger+ arXivʼ24; Coggins+ arXivʼ25] 環境持続可能性 • RLは⾼計算コストにより環境負荷が⼤きい • 量⼦化や効率化⼿法が対策として重要 [Wang+ CVPRʼ19; Zhang+ ASPDACʼ26] 6.6. より広範な社会的影響 1/2 38 [Hubinger+ arXivʼ24]

© LY Corporation 労働市場への影響 • エージェントは知識労働の⾃動化を加速する ◦ 特にビギナーな業務への影響が⼤きい [Eloundou+ arXivʼ23]
バイアスの増幅 • RLはバイアスや迎合を強化する可能性がある • 公平性報酬や多様性保持が対策となる [Casper+ TMLRʼ23; Xiao+ JASAʼ25] 評価ベンチマークの汚染 • static なベンチマークは過⼤評価を招く • dynamic で既存ベンチマークがコンタミしない評価が重要 [Banerjee+ arXivʼ24; Jain+ ICLRʼ26] 6.6. より広範な社会的影響 2/2 39 [Jain+ ICLRʼ26]

© LY Corporation Agentic RLの意義 • LLM は受動的⽣成器から⾃律エージェントへと進化 • この転換は
PO-MDP として形式化本論⽂の体系化と主張 • 能⼒ベースと応⽤ベースの 2 つの分類により分野を整理 • RL が静的能⼒を適応的⾏動へ変換する中核機構実践的貢献 • 環境・ベンチマーク・フレームワークを統合的に整理 • 今後の研究加速のための基盤を提供 7. 結論 40

The Landscape of Agentic Reinforcement Learning...

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

More Decks by Shunsuke KITADA

Other Decks in Research

Featured

Transcript