Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Landscape of Agentic Reinforcement Learning...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

大規模言語モデル(LLM)に強化学習を組み合わせた「Agentic RL」は,自律的な意思決定や動的な環境適応能力により,人工知能の新たなフロンティアを切り開いています。本資料では,この急速に進化するAgentic RLの全体像を,最新の包括的サーベイ論文「Agentic Reinforcement Learning: A Survey(2025)」に基づき詳細に解説します。

- 📝:https://arxiv.org/abs/2509.02547
- 🐙:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

Avatar for Shunsuke KITADA

Shunsuke KITADA

April 01, 2026
Tweet

More Decks by Shunsuke KITADA

Other Decks in Research

Transcript

  1. © LY Corporation AI CBU / Visual Generation Dept. Shunsuke

    Kitada, Ph.D. HP: shunk031.me / 𝕏: @shunk031 ※本発表で紹介する図や数式は 対象の論文およびブログ記事から 引用しております The Landscape of Agentic Reinforcement Learning for LLMs: A Survey Guibin Zhang1, … (23 authors) …, Lei Bai2 1National University of Singapore 2Shanghai AI Laboratory Project page: xhyumiracle/Awesome-AgenticLLM-RL-Papers
  2. © LY Corporation 経歴 • ʻ23/04 LINE ➜ ʻ23/10 LINEヤフー

    Research Scientist • ʻ23/03 法政⼤学⼤学院 彌冨研 博⼠ (⼯学) / 学振 DC2 研究分野 • ⾃然⾔語処理 (NLP) / 画像処理 (CV) ◦ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Accessʼ21, Appl. Intell.ʼ22] • 計算機広告 (Multi-modal / Vision & Language) ◦ 効果の⾼いデジタル広告の作成⽀援 [Kitada+ KDDʼ19] ◦ 効果の低いデジタル広告の停⽌⽀援 [Kitada+ Appl. Sci.ʼ22] • デザイン⽣成 AI ◦ 離散拡散モデルで⽣成されたレイアウトの再調整 [Iwai+ ECCVʼ24] ◦ LLMによるレイアウトの⽣成に対する⾃⼰修正 [Zhang+ arXivʼ24] ◦ ⽥植えをするように潜在表現を植える画像⽣成 [Nagai+ CVPR-Fʼ26] ⾃⼰紹介: 北⽥俊輔 Shunsuke KITADA 2 🏠: shunk031.me / 𝕏: @shunk031 画像生成AIにおける拡散モデルの理論と実践 リサーチサイエンティスト 北田俊輔 www.youtube.com/watch?v=-IPEUOcPTas Pythonで学ぶ画像生成 北田俊輔 インプレス社 https://book.impress.co.j p/books/1123101104
  3. © LY Corporation 既存 LLM API で AI エージェントは作れるようになってきた。でも細かいところで動かないぞ? •

    OpenAI API や Amazon Bedrock API で簡単に組み⽴てられるようになってきた ◦ 「いい感じに動いているけどなんでかわからん!」 ◦ 「微妙にかゆいところに⼿が届かない動作をするぞ?」 エージェントの様に振る舞えるようにする学習⽅法について知りたい • 「タスクに合うようなエージェントを 1 から作りたい!」  • 「複数ターンでユーザの要求に答えるには?」 • 「ツールや検索、正しい算術を使うには?」 • 「複数のエージェントが協調して動作するには?」 ➜ これらの疑問に答えて くれるようなサーベイを探しました 本論⽂の選定理由 3 Nanobanana Pro にて⽣成
  4. © LY Corporation LLM をエージェントとして活⽤するパラダイム転換 • LLM は static な⽣成器から

    dynamic な⾃律エージェントへと再定義 • Agentic Reinforcement Learning (Agentic RL) は 逐次意思決定として LLM を扱う枠組みとして注⽬を集める RL と LLM の 2 つの流れ • RL で LLM を改善する⽅向 / LLM を RL に利⽤する⽅向 • 前者は RLHF や DPO が代表的⼿法 [Christiano+ NeurIPSʼ17; Rafailov+ NeurIPSʼ23] LLM エージェント • 推論・計画・ツール利⽤を統合した⾃律主体 • マルチエージェントや⾝体性 AI (Embodied AI) へ拡張 [Aratchige+ arXivʼ25] 研究ギャップと貢献 • 現状 Agentic RL の統⼀的整理が不⾜ • 本論⽂は “マルコフ決定過程 / 部分観測マルコフ決定過程” と “能⼒分類” で体系化 導⼊ 4
  5. © LY Corporation Pre-training (事前学習) と Reinforcement Fine-tuning (RFT) の基礎

    • LLM はまず⼤量データを模倣する形 (MLE + SFT) で学習 ➜ SFTは「正解データ」を⼤量に必要とする点がボトルネック • RFTは「正解そのもの」ではなく「良し悪し(報酬)」で学習 ◦ 模範回答データへの依存を減らし、試⾏錯誤で性能を伸ばせる 選好ベース RFT から Agentic RL への移⾏ • RFT の初期研究は選好 (Preference) 最適化が中⼼ ◦ Preference-based RFT (PB-RFT) への発展 • 推論・ツール利⽤能⼒の進展により Agentic RL へ移⾏ [OpenAI+ arXivʼ24; DeepSeek-AI+ arXivʼ25] パラダイムシフトの本質 • 両者は RL を⽤いるが、前提と構造が異なる • Agentic RL は動的環境と意思決定を重視 2. RL for LLM から Agentic RL へ 5 SFT: 正解を教える学習 ➜ データ依存が強い RFT: 評価で学ぶ学習 ➜ データ依存が弱い MLE: maximum likelihood estimation, 最尤推定 SFT: Supervised Fine-tuning, 教師ありファインチューニング
  6. © LY Corporation RL fine-tuning (RFT) におけるマルコフ決定過程 (MDP) • 7

    要素のタプルとして形式化できる • PB-RFT (Preference-based RFT) vs. Agentic RL ◦ LLM を static な系列⽣成器として扱う場合と dynamic な環境でのエージェントとして扱う場合 PB-RFT (Preference-based RFT) • 単⼀ステップに退化させた (= degenerate) MDP Agentic RL • 部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; PO-MDP) 2.1. マルコフ決定過程 | Markov Decision Processes; MDP 6 PB-RFT は完全観測下で 固定データセット上の 出⼒⽂の系列を最適化 Agentic RL は部分観測 かつ変動する環境に おいて、意味レベルの ⾏動を最適化
  7. © LY Corporation 2.2. ~ 2.6. 環境・状態・⾏動空間・遷移規則・報酬関数・⽬的関数 PB-RFT: 単発的テキスト⽣成の最適化 /

    Agentic RL: 動的環境における多段意思決定と⻑期最適化 7 コンセプト 従来の PB-RFT 現在の Agentic RL 本質的な違い 状態空間 シングルターン マルチターン • PB-RFT は静的かつ単発的 • Agentic RL は動的かつ多段階の相互作⽤を伴う ⾏動空間 ピュアなテキスト列 テキスト列と行動列 • A text は出⼒⽣成、A action は環境操作を担う • 両者の統合で⾔語と⾏動を同時に最適化可能 遷移確率 決定論的に遷移 単⼀ステップ的に決定 確率的に遷移 逐次的に進⾏ • PB-RFT は⼀回の出⼒⽣成で完結 • Agentic RL は⾔語・ツール・環境操作を 組み合わせた逐次意思決定を⾏う 報酬 単⼀でスカラの報酬 ステップごとの報酬 • PB-RFT は最終結果のみ評価 • Agentic RL は過程と結果の両⽅を 評価できるため、複雑な⾏動学習に適する ⽬的関数 単⼀ステップの期待報酬 ⻑期的な割引累積報酬 • PB-RFT は単発的な出⼒最適化 • Agentic RL は多ターン意思決定と⻑期最適化を 扱うため、エージェント化を可能に
  8. © LY Corporation RL アルゴリズムの全体像 • RL アルゴリズムは PB-RFT と

    Agentic RL の中核要素 • REINFORCE → PPO → GRPO → DPO と発展 REINFORCE / PPO (Proximal Policy Optimization) • REINFORCE [Williams+ MLʼ92] は基礎的だが不安定 • PPO は安定性を改善し主流⼿法 [Schulman+ arXivʼ17] DPO (Direct Preference Optimization) • 報酬モデルを不要とし選好データで直接最適化 • データ品質に強く依存 [Rafailov+ NeurIPSʼ23] GRPO (Group Relative Policy Optimization) • 相対報酬により Critic 不要化と効率化を実現 • ただし分散問題があり 改良が進められている [DeepSeek-AI team Natureʼ25] 2.7. 強化学習アルゴリズム | RL Algorithms 8
  9. © LY Corporation Agentic RL の能⼒視点 • Agentic RL は複数能⼒(計画・推論・メモリなど)を統合したエージェント学習

    • 従来の LLM エージェント定義に基づく枠組み [Weng ʻ23, Shang+ arXivʼ24] Static なパイプライン・ワークフローから Dynamic な⽅策へ • 各モジュールは独⽴機能ではなく共同最適化される⽅策となる • RL により計画・メモリ・ツール・内省が動的に学習される 本節の⽬的 • RL による能⼒強化を 概念的に整理 • 網羅的ではなく 体系理解を⽬的 3. Agentic RL: モデル能⼒の観点 9
  10. © LY Corporation プランニングと RL の関係 • プランニングは AI の中核能⼒・RL

    により経験ベースの最適化が可能 • “外部ガイド型” と “内部駆動型” の 2 つのパラダイムが存在 外部ガイド型 • LLM は⾏動⽣成、RL は評価として機能 • 探索アルゴリズムと組み合わせて計画性能を向上 [Hao+ EMNLPʼ23; Zhou+ ICMLʼ24] etc. 内部駆動型 • LLM ⾃⾝を⽅策として直接最適化 • スキル学習や⻑期適応を可能に [Wang+ TMLRʼ24; Zhu+ arXivʼ25] 将来⽅向 • 探索と⽅策の統合が重要である • 直感と熟慮を統合した推論エンジンが⽬標 [Guan+ ICLRʼ26] 3.1. プランニング | Planning 10 [Hao+ EMNLPʼ23]
  11. © LY Corporation ツール利⽤の進化 • ツール利⽤は ReAct [Yao+ ICLRʼ23] から

    Tool-integrated Reasoning (TIR) へ進化 • RL により模倣から結果最適化へ転換 [Chen+ NAACLʼ25; Kavathekar+ EASEʼ25] 初期⼿法の限界 • プロンプトや SFT は static なパターン模倣に依存 • 柔軟性やエラー回復能⼒に⽋ける [Yao+ ICLRʼ23, Schick+ NeurIPSʼ23] RLによる統合推論 • RLによりツール利⽤と推論が統合される • 創発的⾏動と戦略的ツール選択が可能となる [Qian+ NeurIPSʼ25; Lin+ arXivʼ25] 現状と課題 • ツール統合は現在の標準機能 • ⻑期推論とクレジット割当が 今後の主要課題 [Gao+ arXivʼ25] 3.2. ツールの使⽤ | Tool Use 11 クレジット割当:どの⾏動がどれだけ 結果に貢献したかを決める問題 ReAct:推論と⾏動(ツール利⽤)が交互に並ぶ TIR:推論中にツールが埋め込まれている
  12. © LY Corporation メモリの進化: メモリは受動保存から能動制御へと進化 • RL により保存・検索・忘却を最適化 [Wu+ arXivʼ25]

    RAG から学習型メモリへ: 初期は static なメモリと検索制御に留まっていた • 近年は書き込みを含む dynamic なメモリ管理を学習 [Yan+ arXivʼ25] トークンレベルメモリ: 明⽰トークン / 潜在トークン の 2 形式が主流 • ⻑⽂理解と継続学習能⼒を⼤きく向上 [Yu+ arXivʼ25; Wang+ ICMLʼ24] 構造化メモリ • グラフなどの 構造的表現が新たな⽅向 • RL による動的管理は 未解決課題 [Rasmussen+ arXivʼ25] 3.3. 記憶 | Memory 12 [Wu+ arXivʼ25]
  13. © LY Corporation Self-Improvementの全体像: RL は内省を通じた継続的⾃⼰改善の中核機構である • ⾃⼰⽣成フィードバックにより学習が進化する [Gao+ TMLRʼ26]

    ⾔語的⾃⼰修正: プロンプトベースで⼀時的な⾃⼰改善を⾏う • 多サンプル化や外部検証で精度向上を図る [Shinn+ NeurIPSʼ23; He+ EMNLP-Fʼ24] 内在化された⾃⼰修正: RLにより⾃⼰修正能⼒を組み込む • 汎⽤的誤り修正能⼒を獲得 [Qiao+ ACLʼ25; Patel+ COLMʼ25] ⾃⼰学習ループ: 反省・探索・タスク⽣成を統合 • 実⾏ベース報酬と経験共有が鍵 [Zhao+ NeurIPSʼ25; Chen+ arXivʼ25] 将来⽅向 • 内省戦略⾃体を最適化するメタ学習が重要 • 学習能⼒の⾃⼰進化が最終⽬標 3.3. ⾃⼰改善 | Self-improvement 13 [Chen+ arXivʼ25]
  14. © LY Corporation 推論の⼆分構造 • 推論は “Fast Reasoning” と “Slow

    Reasoning” の 2 つに⼤別 • 効率と精度のトレードオフが本質的課題 [Kahneman FSGʼ11] Fast Reasoning (⾼速推論) • 効率的だが誤りやバイアスに弱い • ハルシネーション対策として信頼度推定などが発展 [Wang+ ICLRʼ23; Lightman+ ICLRʼ24] Slow Reasoning (低速推論) • 多段推論により⾼精度と頑健性を実現 • CoT や RL により強化 [Chu+ ICMLʼ25; Zeng+ COLMʼ25] 将来⽅向 • ⾼速・低速の推論速度の統合が重要 • 適応的な推論制御が鍵 [Yang+ NeurIPSʼ25] 3.4. 思考 | Reasoning 14 [Chu+ ICMLʼ25]
  15. © LY Corporation [Liu+ ICCVʼ25] Perceptionの全体像 • Large Vision-Language Model

    (LVLM) は視覚と⾔語を統合し、能動的認知へ進化 • RL が多段推論とモダリティ統合の鍵 [Zhou+ arXivʼ25] 能動的視覚認知 • “受動的な認識” から “操作可能な能動的な認知” へ移⾏ • 検証可能報酬 (verifiable rewards) により性能と汎化が向上 [Liu+ ICCVʼ25; Huang+ ICLRʼ2026] グラウンディング・ツール・⽣成 • 様々なグラウンディングの⽅法により 視覚と⾔語の対応を強化 • ツール利⽤と⽣成により推論能⼒を拡張 [Fan+ NeurIPSʼ25; Su+ arXivʼ25; Xu+ ICLRʼ26] ⾳声拡張 • RL は⾳声推論と⾳声⽣成にも応⽤ • マルチモーダル統合が進展 [Li+ AAAIʼ26] etc. 3.5. 認知・認識 | Perception 15
  16. © LY Corporation ⻑期相互作⽤とクレジット割当 • Agentic RL は多ターン戦略の⼀貫性を強化 • 時間的クレジット割当が中⼼課題

    [Pignatelli+ TMLRʼ24] 過程報酬の導⼊ • 中間ステップ評価に より密な報酬を提供 • 外部モデルやルールにより実現 [Liu+ ACLʼ25; Zhang+ ICLRʼ26] 多段選好最適化 • 単⼀の応答ではなく 系列単位で選好を学習 • ⻑期的意思決定の 質を改善 [Kong+ ACLʼ25] 3.6. その他 16
  17. © LY Corporation タスク視点の全体像 • Agentic RL は多様な実タスクで 能⼒が評価・形成される •

    検索、コード、推論など 幅広い応⽤領域が存在する 応⽤の広がり • 単⼀エージェントから マルチエージェントへと拡張 • 実世界問題解決への応⽤が 進んでいる 4. Agentic RL: タスクの観点 17
  18. © LY Corporation 検索からリサーチエージェントへの進化 • RAG から多段リサーチエージェントへ・RL による検索と推論の最適化 [Gao+ arXivʼ24;

    Kimi team ʻ25] オープンソース RL 検索⼿法 • RL によりクエリ⽣成・多段推論・ツール利⽤を最適化 • API 依存の課題に対し⾃⼰検索が 提案 [Jiang+ COLMʼ25; Sun+ arXivʼ25] クローズドソースの進展 • 商⽤モデルは⻑期推論と統合能⼒で優位 • RL と⾼品質データにより完全⾃律型 エージェントが実現 [OpenAI team ʻ25] Deep Research の特徴 • 多段計画とRL最適化検索を統合 • メモリと検証を含む 統合的研究エージェント [Wei+ arXivʼ25] 4.1. 検索とリサーチのエージェント 18 [Gao+ arXivʼ24]
  19. © LY Corporation Code Agent の全体像: コード領域は検証可能報酬により RL に適している •

    単純⽣成からソフトウェア⼯学まで段階的に発展 [Dong+ arXivʼ25] コード⽣成・コード改善 • 結果報酬型は正解性最適化、過程報酬型は中間信号活⽤が特徴 ◦ 密な報酬設計が性能向上に寄与 [Zeng+ ACLʼ25; Ye+ arXivʼ25] • 反復的修正により実務に近い設定を扱う ◦ 過程最適化によりデバッグ能⼒が向上 [Gehring+ ICMLʼ25; Wu+ EMNLPʼ25] ソフトウェア⼯学 • ⻑期タスクでも RL は有効であり実⽤性能を達成 • 安定化⼿法と⻑期報酬設計が重要 [Luo+ ʻ25; Zhou+ arXivʼ25] 新興パラダイム • コード世界モデルはプログラムベース推論を可能に • 検証可能性と計画能⼒を統合する⽅向へ [Dainese+ NeurIPSʼ24; Tang+ NeurIPSʼ24] 4.2. コーディングエージェント 19 [Zeng+ ACLʼ25]
  20. © LY Corporation 数学エージェントの全体構図 • 数学的推論は LLM エージェントの推論能⼒を測る代表的ベンチマーク ◦ (1)

    ⾮形式的推論と (2) 形式的推論の 2 つの枠組みに⼤別 [Yang+ ICMLʼ25; Asperti+ BDCCʼ26] (1) ⾮形式的数学推論 • 性質 ◦ ⾃然⾔語が中⼼。厳密な構⽂・意味論を持たない代わりに⾼い表現柔軟性を持つ ◦ ⽂章題、⽅程式操作、記号計算のような多様な数学課題に適する • 結果報酬型 RL [Wang+ ICLRʼ21; Singh+ NeurIPS-Wʼ25; Li+ arXivʼ25; Mai+ arXivʼ25; Prabhudesai+ arXivʼ25] etc. ◦ 結果報酬のみでも、適応的ツール利⽤、⾃⼰修正、⾃⼰反省といった創発的⾏動が観測 ◦ 少数例学習や信頼度報酬整形も有効であり、信頼性やデータ効率の向上可能性 • 過程報酬型 RL [Li+ arXivʼ25; Simonds+ arXivʼ25; Hao+ arXivʼ25] ◦ 中間評価器を⽤いた密な報酬はクレジット割当を改善し、ツール統合推論を強化 ◦ ⼈⼿設計構造への依存は⼀般化を制限しうるため、適応的ナビゲータ学習の重要性あり 4.3. 数学エージェント 1/2 20
  21. © LY Corporation (2) 形式的数学推論の基本構図 • 性質 ◦ 証明⽀援系で機械検証可能な証明を⽣成する枠組み。⾃動定理証明に適する [Xin+

    ICLRʼ25] ◦ RL 的には証明状態遷移を持つ MDP として定式化される [Wu+ NeurIPSʼ21] • 結果報酬型 RL [Xin+ ICLRʼ25; Zhang+ arXivʼ25; Wang+ arXivʼ25; Chen+ arXivʼ25] ◦ ⼆値の検証器フィードバックだけでも、⼤規模 RL と探索戦略の⼯夫により性能向上が可能 ◦ ⾃然⾔語推論と形式証明の整合、補題中⼼分解、多様なプロンプト戦略が性能改善に寄与 • 過程報酬型 RL [DeepSeek-AI+ arXivʼ24; Ji+ arXivʼ25; Ambati arXivʼ25] ◦ 部分⽬標分解や検証器からのメッセージ利⽤により、より密な学習信号を与えることができる ◦ 精度だけでなく解釈可能性や⾃⼰監視能⼒も向上 ハイブリッド報酬 [Anthony+ NeurIPSʼ17; Polu+ arXivʼ20; Wu+ ICMLWʼ25; Lin+ ICLRʼ26; Dong+ ICMLʼ25] • データ不⾜・疎な報酬問題への緩和⽅法:探索と模倣学習を組み合わせた ExIt [Anthony+ NeurIPSʼ17] • Critic 導⼊、思考付き探索、⾃⼰対戦 ➜ 探索効率と適応的カリキュラム⽣成が強化 4.3. 数学エージェント 2/2 21
  22. © LY Corporation GUI Agent の全体像 • GUI エージェントは、zero-shot VLM、SFT、RFT

    という段階を経て発展 • RFT は GUI 操作を逐次的意思決定として捉え直し、⻑期・実世界タスクへの拡張を可能に RL-free Methods Vanilla VLM-based GUI Agents • 初期GUIエージェントは学習済みVLM を そのまま⽤いる zero-shot ⽅式 ◦ グラウンディング精度と信頼性に限界あり [Yan+ arXivʼ23; Zheng+ ICMLʼ24; Zhang+ TMLRʼ25] SFT with Static Trajectory Data • SFT は静的 (screen, action) 軌跡 によりGUI適応を進めた • ⼈⼿操作の軌跡不⾜が依然として制約 [Liu+ ICMLWʼ25; Zhang+ AAAIʼ26] 4.4. GUI エージェント 1/2 22 [Zhang+ TMLRʼ25]
  23. © LY Corporation RL in Static GUI Environments • static

    な GUI 環境では事前収集データ上で ルールベース評価を⽤いた RL が⾏われる • 統⼀⾏動空間、空間推論蒸留、GRPO などに より、step-level 予測や⻑期推論が改善 [Luo+ arXivʼ25; Liu+ arXivʼ25; Gu+ arXivʼ25] RL in Interactive GUI Environments • 相互作⽤的 GUI 環境ではオンライン ロールアウトにより dynamic な環境適応と ⻑期依存処理を学習 • ⾮同期 RL、反省機構、カリキュラム、 API-GUI 統合により、実世界Web・ モバイル・デスクトップ操作が強化 [Wei+ EMNLPʼ25; Bai+ NeurIPSʼ24; Lai+ ICLRʼ26] 4.4. GUI エージェント 2/2 23 [Wei+ EMNLPʼ25]
  24. © LY Corporation Vision Agentsの全体像 • RL は画像、動画、3D を含む多様な視覚タスクに広く適⽤されている Image

    Tasks • R1 型受動知覚強化から、グラウンディング・ツール利⽤・視覚的想像を含む能動的知覚へと発展 [Su+ arXivʼ25; Fan+ NeurIPSʼ25; Huang+ arXivʼ25] • IoU、mAP、L1 損失などの検証可能報酬により、検出・位置特定・セグメンテーション・ scene graphなどの構造化予測が強化 [Liu+ ICCVʼ25; Shen+ arXivʼ25; Chen+ arXivʼ25] • 画像⽣成でも拡散モデル・ Flow Matching・⾃⼰回帰型⽣成に 対し、忠実性や制御性向上のため RL が活⽤されている [Wu+ arXivʼ25; Liu+ arXivʼ25; Wang+ arXivʼ25] 4.5. Vision エージェント 1/2 24 [Su+ arXivʼ25]
  25. © LY Corporation Video Tasks • 動画領域では、GRPO系拡張を中⼼に時間的推論の強化が進⾏ [Dang+ ACL-Fʼ25; Park+

    NeurIPSʼ25] • キーフレーム報酬、回帰化 GRPO、⻑尺動画向け2段階パイプラインなどにより、 動画理解と推論の効率・解釈性が改善 [Vinod+ arXivʼ25; Li+ arXivʼ25; Chen+ TSMCʼ25] • 動画⽣成でも、時間的⼀貫性、制御性、 意味整合性を改善するために RL が重要 [Xue+ arXivʼ25; Mou+ ICMLʼ25] 3D Vision Tasks • 3D 領域:空間推論と共有 3D 表現に 対する RL活⽤ [Pan+ arXivʼ25; Ma+ NeurIPSʼ25] • 3D ⽣成:⼈間選好や 2D 報酬信号を 利⽤して Text-3D 整合性と制御性が改善 [Zou+ arXivʼ25; Zhou+ arXivʼ25; Liu+ arXivʼ25] 4.5. Vision エージェント 2/2 25 [Park+ NeurIPSʼ25]
  26. © LY Corporation Embodied Agentsの全体像 • Embodied エージェントは知覚・推論・⾏動を統合するシステム • RL

    は模倣学習後の事後学習として⽤いられ、探索・⼀般化を強化 [Kim+ CoRLʼ24; Song+ AAAIʼ26] ナビゲーションエージェント • 計画能⼒が中核であり、RL は⾏動系列最適化を担う • 軌跡報酬や内部熟考強化により性能向上 [Qi+ arXivʼ25; Gao+ arXivʼ25] 操作エージェント • 精密制御と多環境適応が重要課題 • VLM 評価や GRPO により軌跡最適化と 頑健性が向上 [Liu+ NeurIPSʼ25; Chen+ arXivʼ25] スケーリング課題 • Sim-to-Real 間のギャップと実環境コスト が障壁・スケーラブルな RL が未解決 4.6. ⾝体性を持つエージェント 26 [Song+ AAAIʼ26]
  27. © LY Corporation Multi-Agent Systems (MAS) の進化 • 協調・相互作⽤により複雑タスクを解く枠組み •

    初期の固定設計から、最適化可能な協調システムへ進化 [Li+ NeurIPSʼ23; Wang+ ICLRʼ25] ⾮パラメトリック協調のRL最適化 • ワークフロー等を RLで最適化・疎報酬やクレジット割当が課題 [Zhuge+ ICMLʼ24; Zhang+ ICMLʼ25] 部分エージェント最適化 • ⼀部エージェントのみ更新することで 安定性と効率を確保 • 局所的クレジット割当が重要 [Motwani+ COLMʼ25; Estornell+ ICLRʼ25] End-to-End MARL • 全エージェントを共同最適化し 役割分化や通信が創発 • クレジット割当とスケーラビリティが ⼤きな課題 [Liu+ AAAIʼ26; Wan+ NeurIPSʼ25] 4.7. マルチエージェントシステム 27 [Zhuge+ ICMLʼ24]
  28. © LY Corporation TextGame • 報酬設計によりクレジット割当と学習安定性が改善 [Yang+ NeurIPSʼ25; Feng+ NeurIPSʼ25]

    • 統⼀的な RFT の枠組みにより多様なタスクへの適⽤が可能 [Pan+ arXivʼ25] Table: 対話的 SQL ⽣成においてRLが⾼いデータ効率を⽰す • 多粒度報酬が構造化⽣成の性能向上に寄与 [Liu+ arXivʼ25; Chen+ ICLRʼ26] Time Series: RL カリキュラム学習 と GRPO により時間的推論能⼒が強化 • 解釈可能な時系列推論が可能 [Liu+ arXivʼ25; Zhang+ NeurIPS-Wʼ25] General QA: RL により⾏動⽣成の内在化・性能向上 • 並列環境によるスケーラブル学習が鍵 [Zhang+ arXivʼ25; Zhang+ arXivʼ25] Social: 細粒度報酬により社会的推論の安定学習が可能 • 適応的推論モードが効率と精度を両⽴ [Yu+ NeurIPS-Wʼ25; Wang+ ICLRʼ26] 4.8. その他のタスクに特化したエージェント 28 [Liu+ arXivʼ25]
  29. © LY Corporation Web・GUI 実⾏環境: WebおよびGUI環境は現実に近い相互作⽤を再現 • 状態変化はエージェント⾏動に依存する設計である [Yao+ NeurIPSʼ22;

    Rawles+ ICLRʼ25] コード環境: 実⾏可能環境とベンチマークによりコード⽣成・修正を評価 • 近年は世界モデル構築能⼒の評価へ拡張されている [Dainese+ NeurIPSʼ24] ドメイン特化環境: 科学、ML、医療、セキュリティなど各分野に特化した環境が存在 • 実問題に近い評価が可能である [Wang+ EMNLPʼ22; Qiang+ NeurIPSʼ25] シミュレーション・ゲーム環境: ⾔語・視覚・マルチエージェント能⼒を統合的に評価 • ⻑期推論や協調⾏動の検証に適する [Hafner+ ICLRʼ22; Samvelyan+ AAMASʼ19] 汎⽤環境: ⼀般化能⼒評価とスケーラブル訓練を⽬的 • 多様なタスク統合が進んでいる [Xi+ ACLʼ25; Liu+ ICLRʼ24] 5.1. 実⾏環境のシュミレータ 30 [Liu+ ICLRʼ24]
  30. © LY Corporation RL Frameworkの全体構造 • Agentic RL 関連フレームワークは 3

    カテゴリに分類される • それぞれ役割(エージェント最適化・整合・基盤アルゴリズム)が異なる Agentic RL frameworks • ⼤規模・分散・マルチモーダル・マルチエージェント対応が進んでいる • 経験⽣成と⻑期学習のスケーリングが重要課題 [Cao+ arXivʼ25; Yu+ arXivʼ25] RLHF / Fine-tuning frameworks • モデル整合と⼤規模訓練基盤を提供する • 分散化・⾮同期化・実験管理の効率化が 進んでいる [Hu+ EMNLP-Dʼ25; Sheng+ ACLʼ25] General-purpose RL frameworks • 汎⽤ RL アルゴリズムと実⾏基盤を提供する • Agentic RL の基盤技術として重要 [Liang+ ICMLʼ18; Raffin+ JMLRʼ21] 5.2. 強化学習フレームワーク 31 OpenRLHF [Hu+ EMNLP-Dʼ25]
  31. © LY Corporation 未解決の問題の全体像 • Agentic RL の発展は 3 つの中核課題に依存する

    • 信頼性・学習スケーリング・環境スケーリングが研究フロンティアを形成する 信頼性・スケーリング課題 • ⾃律エージェントの 安全性と整合性確保が必要 • 計算・データ・アルゴリズムの 制約克服が求められる 環境スケーリング • エージェント能⼒は環境に依存 • 複雑で適応的な訓練環境の構築が鍵 6. 未解決の課題と今後の⽅向性 32 [Wang+ ACLʼ25]
  32. © LY Corporation セキュリティ • エージェントは外部モジュールにより攻撃⾯が拡張される • RLは報酬最⼤化により脆弱性探索を強化する危険あり [Wang+ ACLʼ25;

    Chen+ NeurIPSʼ24] • サンドボックス化、過程報酬、監視が重要な防御⼿段 ハルシネーション • 幻覚は不正確な推論や過信を伴う問題である • 結果報酬型RLは幻覚や拒否能⼒低下を引き起こす可能性 [Li+ NeurIPSʼ25; Song+ EMNLP-Fʼ25] • 過程報酬、検索拡張、不確実性学習が有効な対策である 過度な同調(よいしょ・おだて・おべっか) • 過度な同調・迎合は誤ったユーザ信念への適応として現れる • RLHF は報酬設計によりこれを強化しうる [Wen+ ICLRʼ25] • 同調抑制報酬と動的報酬最適化が重要である [Hong+ arXivʼ25] 6.1. 信頼性 | Trustworthiness 33 [Song+ EMNLP-Fʼ25]
  33. © LY Corporation 計算資源 Computation • RL 計算量の増加は推論能⼒を直接向上させる • ⻑期訓練により新たな推論戦略が創発する

    [Mai+ NeurIPSʼ25; Liu+ NeurIPSʼ25] モデルサイズ Model Size • ⼤規模化は性能向上と多様性低下のトレードオフ • SFT + RL のハイブリッドや適切な設計が重要 [Dong+ arXivʼ25; Vattikonda+ NeurIPSʼ25] データサイズ Data Size • 多領域 RL は相乗効果と⼲渉の両⾯を持つ • 適切なデータ設計が汎⽤推論能⼒に重要 [Li+ arXivʼ25; Cheng+ NeurIPSʼ25] 効率 Efficiency • 効率的 RL 設計がスケーリングの鍵 • 少量データでの⼀般化能⼒獲得が重要な⽅向性 [An+ ʻ25; Wu+ ICLRʼ26] 6.2. Agentic Training のスケールアップ 34 [Cheng+ NeurIPSʼ25]
  34. © LY Corporation 環境スケーリングのパラダイム転換: 環境を静的から動的・最適化対象へと捉える転換 • 既存環境の限界を受け、エージェントと環境の共進化が重視 [Zheng+ arXivʼ25] 報酬設計の⾃動化:

    探索エージェントにより軌跡を⽣成し報酬モデルを学習 • ⼈⼿設計なしで複雑⾏動の学習が可能 カリキュラム⽣成の⾃動化 • 環境⽣成器により弱点に応じたタスクを動的⽣成 • 適応的難易度制御により学習効率と汎化が向上 [Zala+ COLMʼ24] 共進化と⾃⼰強化型の学習ループ • 報酬と環境の⾃動化により エージェントと環境が相互強化する • スケーラブルな⾃⼰改善ループが形成される 6.3. Agentic Environment のスケールアップ 35 [Zheng+ arXivʼ25]
  35. © LY Corporation RL の機構的議論 • RL の効果は「分布増幅」と「新能⼒獲得」の2説に分かれる • 多くの証拠は既存能⼒の再配分としての側⾯を⽀持する

    [Shao+ arXivʼ24; Yue+ NeurIPSʼ25] 新能⼒仮説 • RL は新たな推論戦略や分布外⼀般化を⽣みうる • 特定条件下では pass@k の拡張が観測される [Guo+ Natureʼ25; Chu+ ICMLʼ25] 数学推論のケーススタディ • RL は主に既存推論の強化として機能するが、⼀部で能⼒再編成も観測 • 学習が飽和した後にも性能向上が続く現象は、新たな能⼒獲得の兆候 [Guan+ ICMLʼ25] 新能⼒発現条件 • 検証可能報酬、多段構造、中間能⼒モデルが鍵 • 条件を満たさない場合、RL は単なる増幅器として振る舞う 6.4. LLM における RL のメカニズムに関する議論 36
  36. © LY Corporation 実運⽤アーキテクチャの基本原則: RL だけでなくシステム設計が信頼性に重要 • 安全・検証・階層制御・通信 が中核要素 安全ガードレール:

    ⼊⼒検証と出⼒制御により安全性を確保 • RL 内外の両⽅で安全対策が実装 [Zheng+ NeurIPSʼ25] Human-in-the-Loop 検証: ⼈間は⾼品質な補助信号を提供 • 不確実性に応じた介⼊が重要 [Mozannar+ arXivʼ25] 階層制御: タスク分解によりスケーラビリティと安定性が向上 • 企業的ワークフローに類似した構造 [Zhang+ arXivʼ25] 通信プロトコル: 固定と学習型のトレードオフが存在 • 標準化によりシステム統合が容易 [Chang+ arXivʼ25] 6.5. 実世界エージェント運⽤のための設計指針 37 [Zhang+ arXivʼ25]
  37. © LY Corporation 社会的影響の全体像 • Agentic RLは技術だけでなく 社会的影響も重要 / 安全性・公平性・持続性の統合が必要

    意図しない⽤途による利⽤ • 普段は無害に⾒えるが、特定の条件で有害⾏動を 発動するエージェントなど新たな悪⽤リスクが存在 • 既存フレームワークは不⼗分との指摘あり [Hubinger+ arXivʼ24; Coggins+ arXivʼ25] 環境持続可能性 • RLは⾼計算コストにより環境負荷が⼤きい • 量⼦化や効率化⼿法が対策として重要 [Wang+ CVPRʼ19; Zhang+ ASPDACʼ26] 6.6. より広範な社会的影響 1/2 38 [Hubinger+ arXivʼ24]
  38. © LY Corporation 労働市場への影響 • エージェントは知識労働の⾃動化を加速する ◦ 特にビギナーな業務への影響が⼤きい [Eloundou+ arXivʼ23]

    バイアスの増幅 • RLはバイアスや迎合を強化する可能性がある • 公平性報酬や多様性保持が対策となる [Casper+ TMLRʼ23; Xiao+ JASAʼ25] 評価ベンチマークの汚染 • static なベンチマークは過⼤評価を招く • dynamic で既存ベンチマークが コンタミしない評価が重要 [Banerjee+ arXivʼ24; Jain+ ICLRʼ26] 6.6. より広範な社会的影響 2/2 39 [Jain+ ICLRʼ26]
  39. © LY Corporation Agentic RLの意義 • LLM は受動的⽣成器から⾃律エージェントへと進化 • この転換は

    PO-MDP として形式化 本論⽂の体系化と主張 • 能⼒ベースと応⽤ベースの 2 つの分類により分野を整理 • RL が静的能⼒を適応的⾏動へ 変換する中核機構 実践的貢献 • 環境・ベンチマーク・ フレームワークを統合的に整理 • 今後の研究加速のための基盤を提供 7. 結論 40