Algorithm behind Gemini Enterprise Agent Designer

Algorithm behind Gemini Enterprise Agent Designer Asei Sugiyama

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Developer Expert @ Cloud AI MLSE GenAIOps WG 機械学習図鑑共著事例でわかる MLOps 共著

The NeurIPS 2025 Experience 2025 年 12 月に参加した NeurIPS 現地にて
"Our research: Heterogeneous Swarms" "Our product: Gemini Enterprise Agent Designer" ついにマルチエージェントシステムの「自動構築」が実用化されるのかという期待

本セッションの概要 Gemini Enterprise Agent Designer に搭載予定の自動構築アルゴリズム H-Swarm の背景にある研究の紹介マルチエージェントシステムが必要となる背景:
コンテキスト崩壊複数の論文 (MLE-STAR, DS-STAR) に共通する設計パターンの抽出 H-Swarm の重厚長大さと、現実に直面するコストや制約の分析スケーリング則から学ぶ「盲目的なエージェント追加」の弊害と、真にスケールするための条件組織論 (Team Topologies) を応用し、AI エージェントを「新たな同僚」と捉える設計原則の提言

TOC イントロダクション: AI エージェントの時代 <- コンテキスト設計の原則: 責務の分離と疎結合 Google のマルチエージェント事例に学ぶ「成功パターン」マルチエージェントシステムの「設計」を自動化する試み
現実的な設計指針: 組織論としてのアプローチ

イントロダクション: AI エージェントの時代

本セクションの概要単なるチャットボットから自律的な AI エージェントへの進化 Prompt Engineering から Context Engineering へのパラダイムシフト
単一エージェントへの知識集約が引き起こす「コンテキスト崩壊」の課題

LLM から AI エージェントへの進化 LLM のプランニング能力の向上 (Gemini 2.0 / 3.0
等) ツール利用 (Tool Use / Function Calling) の標準化単なるチャットボットから自律的に行動するエージェントへの変容

パラダイムシフト: Prompt から Context へ Prompt Engineering: ユーザーによる静的な指示書の作成と提供 Context Engineering:
動的かつ包括的な環境の設計への転換ユーザーと共に試行錯誤し、知識を蓄積していく「パートナー」としての存在 Ref: [2510.26493] Context Engineering 2.0: The Context of Context Engineering

Context Collapse (コンテキスト崩壊) 1/2 単一のエージェントへの知識・ツール・ルールの詰め込みの限界認知負荷の増大による機能不全とハルシネーションリスクの向上

Context Collapse (コンテキスト崩壊) 2/2 具体例: 開発者の失敗談 (Reddit "I was wrong
about Agent Skills" より) 自分の知識をすべてコンテキストファイルに書き出すことによる機能不全コンテキストの構造化・分割と、必要な知識を必要なタイミングで読み込む設計

TOC イントロダクション: AI エージェントの時代コンテキスト設計の原則: 責務の分離と疎結合 <- Google のマルチエージェント事例に学ぶ「成功パターン」マルチエージェントシステムの「設計」を自動化する試み

コンテキスト設計の原則: 責務の分離と疎結合

本セクションの概要コンテキスト崩壊を防ぐための Divide & Conquer (分割統治) のアプローチ適切な粒度にコンテキストを分割し、疎結合なシステムを構築する設計原則
分割を支える技術要素の解説 (MCP, Skills, A2A) とそれらがもたらす恩恵

解決策: Divide & Conquer (分割統治) 責務を分離し、コンテキストを適切な粒度へと分割するアーキテクチャ設計全てを一度に解決せず、専門化された小さな単位へ分解することによる課題解決疎結合なシステム構築による各機能の独立性とタ
スク精度の確保コンテキストエンジニアリングの本質としての「情報の交通整理」 Ref: [Context Engineering 2.0] Definition 4: Systematic design of context management.

MCP (Model Context Protocol) AI エージェントと外部のツール・知識を繋ぐ標準的なインターフェース全てのツールの実行方法を明示的に与えるのではなく、実行に必要なリソースの呼び出し方だけを提供
"God Server" の回避: ツール定義過多によるコンテキストウィンドウ圧迫の防止単一責任の原則に基づき、タスクに必要なサーバーのみを選択的に接続する設計 Ref: Anthropic Engineering Blog "Code execution with MCP"

Skills: 再利用可能な能力のパッケージ化ツールとプロンプトを特定の役割として定義し、再利用可能な単位とする標準仕様頻繁に利用するワークフローのパッケージ化によるプロンプトの冗長性の排除 Gemini CLI における同一コンテキスト内で
の「便利なコマンド」としての利用実行コンテキストの純度を保ち、無関係な命令への「注意」の分散を防ぐ効果 Ref: Agent Skills Standard https://agentskills.io/

A2A (Agent-to-Agent) 専門家エージェント同士が直接対話・連携するための通信プロトコル規格情報隠蔽: 内部状態や思考プロセスを隠蔽し、メッセージパッシングのみで連携 MCP よりも強力な隔離により、ドメイン間の境界を明確に維持する設計
各エージェントが自律的に動作することによる、システム全体の認知負荷の最小化 Ref: A2A Protocol Specification https://a2a-protocol.org/

結論: マルチエージェントシステムの必然性「コンテキスト崩壊」という課題を技術的に回避するための強力な処方箋疎結合な専門家ネットワークがもたらす、システムの高い拡張性と信頼性の担保単なる機能の拡張ではなく、LLM の特性から導かれる必然的なアーキテクチャの帰結良いエージェント設計は、常に「良い分割」から始まるという事実

TOC イントロダクション : AI エージェントの時代コンテキスト設計の原則 : 責務の分離と疎結合 Google のマルチエージェント事例に学ぶ「成功パターン」
<- マルチエージェントシステムの「設計」を自動化する試み現実的な設計指針 : 組織論としてのアプローチ

Google のマルチエージェント事例に学ぶ「成功パターン」

本セクションの概要先行事例 (MLE-STAR, DS-STAR) を通じたマルチエージェントの適用パターンの理解 Google の研究に共通する設計原則「The Google Pattern」の抽出
モデル非依存のフレームワーク「PlanGen」による一般化エージェントが機能するための絶対条件「評価可能性 (Evaluatability)」の重要性

MLE-STAR: Machine Learning Engineering (1/2) ターゲット: Kaggle コンペティション等の定量的評価が可能な
ML タスク前提条件: 正解データ (Ground Truth) と実行環境があり、スコアによる評価が可能なこと Ref: [2506.15692] MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement

MLE-STAR: Machine Learning Engineering (2/2) Step 1: Web 検索による外部知識の補完
Step 2: Ablation Study によるボトルネックの特定 Step 3: 特定のコードブロックに対する局所的な改善ループ Step 4: 2, 3 を繰り返す Ref: [2506.15692] MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement

DS-STAR: General Data Science (1/2) ターゲット: データ分析や可視化など、正解が一つではないオープンエンドな課題
前提条件: LLM Judge による「計画の十分性」の主観的評価が機能すること Ref: [2509.21825] DS-STAR: Data Science Agent via Iterative Planning and Verification

DS-STAR: General Data Science (2/2) Step 1: ファイル構造の要約によるコンテキストの把握
Step 2: Verifier で「計画の十分性」の主観的評価 Step 3: Router でタスクの追加・修正・完了の判断 Ref: [2509.21825] DS-STAR: Data Science Agent via Iterative Planning and Verification

共通の設計原則初期化 : ゼロから生成せず、環境や外部知識を分析して高品質な初期解を作成診断的評価 : 成否だけでなく、ボトルネックや計画の不備を具体的
に「診断」根拠ある改善ループ : 診断結果に基づき、局所的な修正と再検証を繰り返す

パターンの抽象化: PlanGen (1/2) ターゲット: 数学・論理パズル・カレンダー調整等の複雑な制約充足問題前提条件: タスク難易度の測定と、自然言語からの
制約条件の抽出が可能なこと Ref: [2411.02275] PlanGen: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories

パターンの抽象化: PlanGen (2/2) 多様な推論・計画タスクに適用可能な、モデル非依存の一般化難易度に応じた推論アルゴリズムの動的選択抽出された制約に基づく厳格かつ多角的な検証
Ref: [2411.02275] PlanGen: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories

ループを回すための大前提: 評価可能性改善ループを回すには、エージェント自身が出力の「良し悪し」を判定できる必要がある客観的評価 (MLE-STAR): 実行エラーや精度スコアといった明確な指標による検証主観的評価 (DS-STAR):
スコアがない課題では、LLM 自身を「裁判官」として妥当性を検証適応的計算量 (PlanGen): 課題の難易度に応じて、ループの回数や探索手法を動的に変える

TOC イントロダクション: AI エージェントの時代コンテキスト設計の原則: 責務の分離と疎結合 Google のマルチエージェント事例に学ぶ「成功パターン」マルチエージェントシステムの「設計」を自動化する試み <-

マルチエージェントシステムの「設計」を自動化する試み

本セクションの概要「人手による設計」から「AI による自動最適化」への進化重みを固定したままプロンプトと接続を磨く現実的なアプローチ (MASS) 接続構造とモデルの重みを同時に最適化する理想の極致 (H-Swarm) 自動構築技術が直面する「コスト」と「実用性」のトレードオフ

実践的な自動設計: MASS (1/2) 概要 : 重み更新を伴わない、プロンプトとトポロジーの自動最適化ターゲットタスク : 複雑な推論、多段 QA、コード生成
前提条件 : 検証用データセットを用いた探索が可能なこと (重みは固定) 知見 : 複雑なトポロジーを組む前に「プロンプトを磨く」ことが最も効果的 Ref: [2502.02533] Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

実践的な自動設計: MASS (2/2) 3 段階最適化 : 1. 個々のプロンプト最適化 (最優先) 2.
ワークフロー (トポロジー) の探索 3. 全体の一貫性を保つ最終調整 Ref: [2502.02533] Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

理想の極北: H-Swarm (1/2) 概要 : トポロジー (役割) とモデルの重みを同時に最適化する野心的な試みターゲット
: 知識探索、複雑な推論、エージェントタスク全般前提条件 : モデルの重みが更新可能であり、膨大な計算資源があること特徴 : 各タスクに特化した「専用の脳と神経系」をゼロから構築する Ref: [2502.13840] Heterogeneous Swarms: Jointly Optimizing Model Roles and Weights

理想の極北: H-Swarm (2/2) 最適化メカニズム : Role-Step : 粒子群最適化 (PSO) による
エージェント接続の動的変更 Weight-Step : 独自の貢献度指標 (JFK- score) に基づくパラメータ更新これまでとは違い、モデルは固定ではなく、モデルとネットワーク・トポロジーを最適化 Ref: [2502.13840] Heterogeneous Swarms: Jointly Optimizing Model Roles and Weights

H-Swarm 実用化における壁評価可能性の前提 : 全てのタスクで定量・定性的な「評価」ができるとは限らない複雑性の増大 : モデルの管理が必要で、システムが複雑化する環境構築のハードル
: 「モデルを学習できる環境」の用意が必要で、手軽さが失われる費用対効果の疑問 : 1 タスクの最適化に A100 GPU 数時間の投資が必要で割に合わない結論 : Agent Designer に期待される「手軽さ」と、H-Swarm の要件は現状乖離している

TOC イントロダクション: AI エージェントの時代コンテキスト設計の原則: 責務の分離と疎結合 Google のマルチエージェント事例に学ぶ「成功パターン」マルチエージェントシステムの「設計」を自動化する試み現実的な設計指針:
組織論としてのアプローチ <-

本セクションの概要エージェントを増やすことで直面する「性能劣化」のジレンママルチエージェントにおけるスケーリング則の基本原則組織論 (Team Topologies) を応用した、認知的負荷を考慮した設計魔法 (自動構築) を待つのではなく、手動で「良い分割」を行うた
めの提言

Towards a Science of Scaling Agent Systems (1/4) 概要 :
マルチエージェントの性能を左右する「スケーリング則」を定量化した研究目的 : 「エージェントを増やせば賢くなる」という期待の妥当性を検証規模 : 5 つのアーキテクチャ、180 の設定、4 つのベンチマークでの大規模比較 Ref: [2501.12948] Towards a Science of Scaling Agent Systems

Towards a Science of Scaling Agent Systems (2/4) ターゲット :
Web ナビゲーション、金融分析、複雑な計画、ワークフロー前提条件 (Agentic Evaluation) : i. 継続的な環境との対話 ii. 部分観測下での反復的な情報収集 iii. フィードバックに基づく適応的な戦略修正 Ref: [2501.12948] Towards a Science of Scaling Agent Systems

Towards a Science of Scaling Agent Systems (3/4) 単体精度が一定 (約
45%) を超えると、連携の恩恵は消失または負にエージェントを増やすと調整コストがメリットを食い潰す順序制約の強いタスクでは、全構成で性能劣化 Ref: [2501.12948] Towards a Science of Scaling Agent Systems

Towards a Science of Scaling Agent Systems (4/4) アーキテクチャ選定 :
タスクの性質に応じた「使い分け」が最重要逐次タスクや単一で十分 : 連携コストを避け「単一 (SAS)」を選択並列可能かつツールが少ない : 「集中型 (Centralized / Hybrid)」で効率化複雑な探索が必要な場合 : 「分散型 (Decentralized)」で探索能力警告 : 安全性が最優先なら、検証のない「独立型」は避けるべき Ref: [2501.12948] Towards a Science of Scaling Agent Systems

推論のスケーリング則: 3 つの基本原則 1. Tool-Coordination Trade-off : ツールとエージェントの数に比例して調整コスト増大 2.
Limited Collaboration Gains : タスク分解性が低い場合、連携による恩恵は限定的 3. Error Amplification : 検証なき連携は、個々の小さなエラーをシステム全体へ増幅させる Ref: [2501.12948] Towards a Science of Scaling Agent Systems

提言: エージェントのための "Team Topologies" エージェントは「魔法」ではなく「新たな同僚」: 人間の組織設計論を適用する認知負荷の管理 : 1
つのエージェントに与えるコンテキストと責務を厳格に制限責任境界の明確化 : 境界づけられたコンテキストによる、疎結合な自律性の確保イネーブリングチーム : エージェントが活動できるよう支援するガードレールを整備

まとめ

まとめ (1/2) コンテキスト崩壊への対処: 単一エージェントへの過度な知識集約は機能不全を招くため、MCP や A2A を用いて責務を分離し、疎結合なネットワークを構築することが不可欠である。評価主導の設計パターン:
Google の先行事例 (MLE-STAR 等) が示すように、「初期化」から始まり、評価可能性を前提とした「診断的評価」と「根拠ある改善ループ」を回す設計が成功の鍵となる。自動化の理想と現実の壁: H-Swarm のような構成や重みの自動最適化は強力だが、莫大な計算コストや環境構築のハードルなど、現状では実用ツールへの適用には高い壁が存在する。

まとめ (2/2) 盲目的なスケーリングの弊害: 「エージェントを増やせば賢くなる」は誤りであり、タスクの性質によっては連携コストが能力を上回り、かえって性能劣化を引き起こす。組織論に基づく実践的設計: これらを乗り越えるため、魔法を待つのではなく「Team Topologies」等の組織論を応用し、エージェント
の「認知負荷の管理」と「責任境界の明確化」を人間が設計すべきである。

参考文献 (References) Context Engineering 2.0: [2510.26493] Context Engineering 2.0: The
Context of Context Engineering MLE-STAR: [2506.15692] MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement DS-STAR: [2509.21825] DS-STAR: Data Science Agent via Iterative Planning and Verification PlanGen: [2411.02275] PlanGen: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories MASS: [2502.02533] Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

参考文献 (References) H-Swarm: [2502.13840] Heterogeneous Swarms: Jointly Optimizing Model Roles
and Weights Scaling Agent Systems: [2501.12948] Towards a Science of Scaling Agent Systems MCP: Model Context Protocol Specification (Anthropic / community- led) Skills: Agent Skills Standard (https://agentskills.io/) A2A: Agent-to-Agent Protocol (https://a2a-protocol.org/)

Algorithm behind Gemini Enterprise Agent Designer

Algorithm behind Gemini Enterprise Agent Designer

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript