Slide 1

Slide 1 text

1 論文紹介 Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun 発展コミュニケーション(2025/12/22) 論文紹介者:数理工学専攻1年佐々木研究室 白川桃子

Slide 2

Slide 2 text

LLMはコンテキストエンジニアリングもする時代に? ファインチューニングだけが手段 課題:高コスト/リアルタイム更新不可 ʙ ॳظ#&35(15 プロンプトエンジニアリングの登場 課題:処理可能なトークン数が(未だ)少ない ʙ (15(15 モデルが一度に処理できる情報量が急増 課題:大量の情報をただ単に渡すだけでは精度が上がらない ʙ (155VSCP(FNJOJ1SP コンテキストエンジニアリングの登場 コンテキストエンジニアリングとは…思考プロセスの構造化を設計する. ʙ (15(FNJOJ 2

Slide 3

Slide 3 text

今回紹介する論文 📗࿦จ Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong,Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun ※ICLR2026に投稿中 📗֓ཁ この論文ではコンテキストを時間の経過とともに戦略を蓄積/整理するプレイブックとそれぞれ役割を持つ3つのLLM を用いたACEという手法を提案.これは,コンテキスト適応の抱える簡潔性バイアス/文脈崩壊に対応している. 評価の結果,ACEはエージェントベンチマークとドメイン特化型タスクの両方でベースラインを一貫して上回った. 用語集をappendixに記載しました! 3

Slide 4

Slide 4 text

4 コンテキスト適応の抱える2つの問題点 ⚠؆ܿੑόΠΞε #SFWJUZ#JBT  --.ͷֶश͕ਐΉʹͭΕͯग़ྗ͕؆ུԽ͞ΕΔ܏޲͕͋Δɽ ɾݪҼ 3-)'ͷ݁Ռɼਓؒͷ୹͘෼͔Γ΍͍͢౴͑Λ޷Ή܏޲͕ա ৒ʹ൓ө͞ΕɼίϯςΩετ͕ৠཹͯ͠͠·͏ͨΊɽ ⚠จ຺่յ $POUFYU$PMMBQTF  --.ͰϓϩϯϓτΛ൓෮తʹॻ͖௚͢ͱɼඇৗʹ୹͘಺༰͕ رബͳ΋ͷʹऩଋ͢Δɽ ɾݪҼ ϓϩϯϓτΛෳ਺ճਪᏏ͢ΔաఔͰɼࢥߟաఔ΍υϝΠϯಛ ༗ͷ஌ࣝͳͲͷ৘ใΛܶతʹ๨٫͢ΔͨΊɽ ϓϩϯϓτΛෳ਺ճॻ͖׵͑ͨ͜ͱͰɼඇৗʹ୹͘৘ใྔͷগͳ͍ཁ໿Λੜ੒͠ɼ ੑೳ͕ٸܹʹ௿Լ͢Δɽ ਤதͷTUFQ෇ۙ <> ユーザー モデル フィードバック:短い生成◎ 短すぎる回答を生成

Slide 5

Slide 5 text

ACE(=Agentic Context Engineering)の仕組み 3つのLLMを組み合わせプレイブックをアップデートすることで自己改善する ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ ΩϡϨʔλʔ Ξοϓσʔτ 5

Slide 6

Slide 6 text

プレイブックとは ϓϨΠϒοΫ アップデートし続ける戦略書 戦略を蓄積/洗練/構造化していく動的な知識ベース ͷͪʹ঺հ͢Δ࣮ݧᶃʹ࣮ͯࡍʹ࡞੒͞ΕͨϓϨΠϒοΫ 6

Slide 7

Slide 7 text

ACEでプレイブックをアップデートする流れ 手順①タスクを実行してトラジェクトリーを生成 ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ ΩϡϨʔλʔ Ξοϓσʔτ 📝τϥδΣΫτϦʔͷ಺༰ ɾΫΤϦ ɾϞσϧ͕໰୊Λղܾ͢Δࡍͷਪ࿦ϓϩηε ɾϞσϧͷ࠷ऴతͳग़ྗ ɾλεΫͷਖ਼ղ δΣωϨʔλʔະࢀর 7

Slide 8

Slide 8 text

ACEでプレイブックをアップデートする流れ 手順②トラジェクトリーを批判的に分析しインサイトを抽出 ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ ΩϡϨʔλʔ Ξοϓσʔτ 📝ΠϯαΠτͷ಺༰ ɾਪ࿦ϛεΛͨ͠෦෼ ɾਪ࿦ϛεͷࠜຊݪҼ ɾਖ਼͍͠ΞϓϩʔνͷఏҊ ɾॏཁͳઓུ 8

Slide 9

Slide 9 text

ACEでプレイブックをアップデートする流れ 手順③インサイトを差分データに変換しプレイブックに統合 ⭕変更する内容だけ箇条書きで追加する ❌プレイブックを再生成させる 👍 再生成による知識の欠落がない/低コスト ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ ΩϡϨʔλʔ Ξοϓσʔτ 9

Slide 10

Slide 10 text

ACE(=Agentic Context Engineering)の仕組み※再掲 3つのLLMを組み合わせプレイブックをアップデートすることで自己改善する ΫΤϦ τϥδΣΫτϦʔ ΠϯαΠτ ൓෮తʹվળ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ δΣωϨʔλʔ ϦϑϨΫλʔ ΩϡϨʔλʔ Ξοϓσʔτ 10

Slide 11

Slide 11 text

11 コンテキスト適応の抱える2つの問題点への対応方法 ⚠؆ܿੑόΠΞε #SFWJUZ#JBT  --.ͷֶश͕ਐΉʹͭΕͯग़ྗ͕؆ུԽ͞ΕΔ܏޲͕͋Δɽ ɾରԠํ๏ ϓϨΠϒοΫΛ࡞੒͠௕͘ৄࡉͳίϯςΩετΛอ࣋͢Δɽ ⚠จ຺่յ $POUFYU$PMMBQTF  --.ͰϓϩϯϓτΛ൓෮తʹॻ͖௚͢ͱɼඇৗʹ୹͘಺༰͕ رബͳ΋ͷʹऩଋ͢Δɽ ɾରԠํ๏ ߋ৽Λมߋ෦෼ͷΈʹݶఆ͢Δ͜ͱͰɼ൓෮తʹॻ͖௚͢͜ ͱΛճආ͢Δ ΫΤϦ δΣωϨʔλʔ ϓϨΠϒοΫ ϓϨΠϒοΫΛߋ৽͢Δࠩ෼σʔλ ϓϨΠϒοΫ ΩϡϨʔλʔ

Slide 12

Slide 12 text

実験①-設定 12 実験①②で共通の設定 ✅オンライン環境/オフライン環境 testデータに対して実行している際に,プレイブックを更新するか否か. ✅GTラベル タスクの正解をリフレクターが参照できるか否か. 🧠DeepSeek-v3.1 🖼ReAct:基盤となるフレームワーク 📈評価指標 ・TGC(Task Goal Completion) タスクの正解と生成した正解が一致した割合 ・SGC(Scenario Goal Completion) 回答に至る論理プロセスに一貫性がある割合 実験① LLMエージェントベンチマークAppWorld[1] 📝評価に使うデータセット API理解/コード生成/環境設定などを含むタスク. 難易度の異なる2種類のタスク (Test-Normal,Test-Challenge)を用意. ☝ACEと比較する手法 ICL[4],GEPA[5],DC(CU)[6]

Slide 13

Slide 13 text

実験①-評価 13 Table 1:Results on the AppWorld Agent Benchmark. ベースのモデルから平均14.8%〜 17.1%向上

Slide 14

Slide 14 text

実験①-評価 14 Table 1:Results on the AppWorld Agent Benchmark. ACEはGTラベルの有無によらず,強力で汎用性の高いフレームワーク

Slide 15

Slide 15 text

実験②-設定 15 実験② ドメイン特化ベンチマークFiNER[2]/Formula[3] 
 📝評価に使うデータセット 財務分析(FiNER):139種類のラベリング問題. 数式(Formula):文書からの数値抽出及び計算. ☝ACEと比較する手法 ICL[4],GEPA[5],DC(CU)[6],MIPROv2[7] 📈評価指標 タスクの正解と生成した正解が一致した割合 実験①②で共通の設定 ✅オンライン環境/オフライン環境 testデータに対して実行している際に,プレイブックを更新するか否か. ✅GTラベル タスクの正解をリフレクターが参照できるか否か. 🧠DeepSeek-v3.1

Slide 16

Slide 16 text

実験②-評価 16 Table 2:Results on Financial Analysis Benchmark. ベースのモデルから平均3.8%〜 12.8%向上

Slide 17

Slide 17 text

実験②-評価 17 Table 2:Results on Financial Analysis Benchmark. 特にオフライン環境で明確な差をつけて上回っている

Slide 18

Slide 18 text

実験②-評価 18 Table 2:Results on Financial Analysis Benchmark. GTラベルがあることで正確なフィードバックが生成できる

Slide 19

Slide 19 text

紹介した論文のまとめ/疑問点 19 📗論文まとめ 目的   コンテキスト適応するときの簡潔性バイアス/文脈崩壊に対応したい 提案   ACEというプレイブックとそれぞれ役割を持つ3つのLLMを組み合わせた手法 結果   LLMエージェントタスク,ドメイン特化タスクの両方でベースラインを一貫して上回った. 🤔論文紹介者の疑問 ・DeepSeek以外のLLMでもACEを用いることで精度が向上するのか →ICLR2026の査読のやり取りに記載 ・論文中ではバッチサイズ1,エポック数5に設定.  これが最適な値であるか/他のパラメータについて未記載. →ACE×ハイパラメーターチューニングで精度が更に向上するのでは?

Slide 20

Slide 20 text

紹介した論文の研究への応用方法 20 研究の目標:ストレスレスに医療コミュニティを活性化させたい その中でカウンセラーに対してカウンセリングスキルのアドバイスをLLMで生成したい ↓ AI×医療に詳しい先生からの質問 「ユーザーに分かりやすくアドバイス生成の方針を説明できないと納得感が薄いのでは」 ↓ ×ユーザーはLLMの内部構造が知りたい ⭕ユーザーはアドバイスの根拠を知りたい ↓ ACE内のプレイブックの提示がカウンセラーの納得感につながるのでは

Slide 21

Slide 21 text

参考文献 21 [1] Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, and Niranjan Balasubramanian. Appworld: A controllable world of apps and people for benchmarking interactive coding agents. arXiv preprint arXiv:2407.18901, 2024. [2]Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos, and Georgios Paliouras. "FiNER: Financial numeric entity recognition for XBRL tagging." arXiv preprint arXiv:2203.06482, 2022 [3]Dannong Wang, Jaisal Patel, Daochen Zha, Steve Y Yang, and Xiao-Yang Liu. "FinLoRA: Benchmarking LoRA methods for fine-tuning LLMs on financial datasets." arXiv preprint arXiv:2505.19819, 2025 [4]Rishabh Agarwal et al., "Many-shot in-context learning," Advances in Neural Information Processing Systems, 37:76930–76966, 2024 [5]Lakshya A Agrawal et al., "Gepa: Reflective prompt evolution can outperform reinforcement learning," arXiv preprint arXiv:2507.19457, 2025 [6]Mirac Suzgun et al., "Dynamic cheatsheet: Test-time learning with adaptive memory," arXiv preprint arXiv:2504.07952, 2025 [7]Krista Opsahl-Ong et al., "Optimizing instructions and demonstrations for multi-stage language model programs," arXiv preprint arXiv:2406.11695, 2024

Slide 22

Slide 22 text

BQQFOEJY 22

Slide 23

Slide 23 text

用語集 LLM(大規模言語モデル) 膨大なテキストデータを学習することで,人間のように文脈理解/生成/応答ができるようなAIモデル. ファインチューニング 既存のモデルについて追加で学習を行い,モデル内の数億〜数兆のパラメータを更新する.ドメインに特化したLLMを構築可能. トークン 文章を分割しうる最小単位.(≒単語) プロンプトエンジニアリング プロンプト(=LLMへの指示文)が最適なものになるように設計する. コンテキスト モデルが生成する際に参考にする,ユーザーの質問/外部情報/過去の対話内容などの文脈全体. RLHF いくつかの生成結果に対して人手でランキング形式のフィードバックを提示し,その内容をモデルの学習に組み込む手法. クエリ ユーザーからAIに対する質問/問い合わせ/要求のテキスト文. LLMエージェント LLMを基盤とし外部ツール(検索エンジン/APIなど)を活用しながら目標達成のために自律的に計画をたてタスクを遂行するシステム. testデータ モデルの学習後に性能を評価するために使う,学習に一度も使っていない未知のデータ. ReAct 推論と行動を繰り返しながら必要な情報を検索し,それを基に新しい提案を生成する枠組み. ICL(In-Context Learning) プロンプト内でタスクを解くデモンストレーションを示し推論させる手法. GEPA トライアンドエラーで良いプロンプトを作成する手法. DC(CU) ノウハウをためながらプロンプトを全て書き直す手法. MIPROv2 指示とデモをベイズ最適化を用いてアップデートする手法. Multi-epoch testデータを複数回反復し,コンテキストを洗練するプロセス. バッチサイズ 学習時に一度に処理するデータ数 エポック数 trainデータ全体を何回繰り返して学習に用いたか 23

Slide 24

Slide 24 text

Scenario Goal Completionの評価方法 24 参考:https://www.emergentmind.com/topics/appworld-benchmark-tasks ・評価したい内容 ◯一連の流れとして整合性が取れているか,その上で最終目標を達成できたか ✖最終目標を達成できたか ・評価方法 エージェントの行動によってデータベースがどのように変化したかを見る. (必要な変更が行われたか/不必要な変更が行われていないか) →SQLinteのレコードレベルで差分抽出をし, 事前にわかっている「やるべきこと」と完全に一致しているか否かで評価