Weekly AI Agents News! 7月号論文のアーカイブ

Weekly AI Agents News @ottamm_190 ݄߸ 論⽂編

はじめに • こちらはアーカイブです。更新⽇付をつけてジャンルごとに並び替えています。 • 論⽂、プロダクトの順番でまとめています。 • 個⼈の備忘録で取り組んでおり、誤りがある場合もあります。 • ⽂字サイズ16ptで⼩さいのでPCで⾒ることをおすすめします。

論⽂ 7⽉分計画 • System-1.x: Learning to Balance Fast and
Slow Planning with Language Models • Planning with Large Language Models for Conversational Agents ツール利⽤ • BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval • MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation • CIBench: Evaluating Your LLMs with a Code Interpreter Plugin • WORLDAPIS: The World Is Worth How Many APIs? A Thought Experiment • Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks • GTA: A Benchmark for General Tool Agents 役割 • The Oscars of AI Theater: A Survey on Role-Playing with Language Models ⻑いコンテキスト理解 • Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

論⽂ 7⽉分評価：AI Agents That Matter 安全性：AGENTPOISON: Red-teaming LLM Agents
via Poisoning Memory or Knowledge Bases ⾃⼰修正：Direct-Inverse Prompting: Analyzing LLMsʼ Discriminative Capacity in Self-Improving Generation ナレッジ：Knowledge Mechanisms in Large Language Models: A Survey and Perspective モデル：The Llama 3 Herd of Models メモリ：Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach Agent framework • AutoFlow: Automated Workflow Generation for Large Language Model Agents • Transforming Agency • Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning • Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods • Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents

論⽂ 7⽉分 Agentic AI Systems • Spider2-V: How Far Are
Multimodal Agents From Automating Data Science and Engineering Workflows? • All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era • Revolutionizing Bridge Operation and Maintenance with LLM-based Agents: An Overview of Applications and Insights • PersonaRAG: Enhancing Retrieval-Augmented Generation Systems with User-Centric Agents • A Review of Large Language Models and Autonomous Agents in Chemistry • AgentInstruct: Toward Generative Teaching with Agentic Flows • MMedAgent: Learning to Use Medical Tools with Multi-modal Agent • MIRAI: Evaluating LLM Agents for Event Forecasting • ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions • InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation • LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies Multi Agent Systems • DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations • Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models • BMW Agents - A Framework For Task Automation Through Multi-Agent Collaboration

論⽂ 7⽉分 Embodied Agents • GRUtopia: Dream General Robots in
a City at Scale • ODYSSEY: Empowering Agents with Open-World Skills • Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Computer Controlled Agents • ASSISTANTBENCH: Can Web Agents Solve Realistic and Time-Consuming Tasks? • OpenDevin: An Open Platform for AI Software Developers as Generalist Agents • Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems • Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence • Tree Search for Language Model Agents

System-1.x: Learning to Balance Fast and Slow Planning with Language
Models • LLMの計画にSystem1とSystem2の両⽅のplannerを活かすSystem-1.x Plannerを提案 • ユーザーが指定したハイブリッド化係数xに基づき問題をサブゴールに分解 • コントローラーが初期状態と⽬標状態からサブゴールを⽣成（全体観測が必要になる） • サブゴール単位でSystem1 plannerかSystem2 plannerを係数xをもとに割り当て（サブゴール依存） • 迷路ナビゲーションとblockworldの計画タスクで評価され、従来のSystem-1およびSystem-2プランナーよりも優れた性能を⽰した Agent Capabilities：計画 7⽉29⽇更新分

Planning with Large Language Models for Conversational Agents • ⾃律型ビジネス対話エージェントには、対話の積極性や制御性、⼿動介⼊の依存度の削減が求められる
• 例えば、会話型推薦では、会話から興味を惹きつけ説得し、購⼊⼿続きまで完了させる必要がある • 対話の前にSOP（標準作業⼿順）をオフライン計画し、対話中は最適なアクションをオンライン計画する左) 対話の前にSOP（標準作業⼿順）をオフライン計画中央) エージェントの⾏動結果⽔⾊がSOPに準拠した⾏動、ピンク⾊が積極的な説得や対話になる右) クレジットカード有効化のための対話 Agent Capabilities：計画 7⽉15⽇更新分

BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval Agent
Capabilities：ツール利⽤ • 深い推論を必要とする情報検索のベンチマークを提案 • 経済学、⼼理学、ロボティクス、ソフトウェアエンジニアリング、地球科学など、様々な分野からクエリを収集 • 深い推論の例「ロボティクスの特定の分野における最新の研究動向は？」 • その分野の背景知識と関連する最新の研究を把握する推論が必要「SnowflakeでUNPIVOTの代わりに使⽤できるより良い関数はありますか？」 • データベースの機能や構⽂の理解を必要アルゴリズムの流れ • クエリをLLMに⼊⼒し、関連する推論ステップを⽣成する • 推論ステップに基づき、関連性の⾼いドキュメントを検索する 7⽉29⽇更新分

MetaTool: Facilitating Large Language Models to Master Tools with Meta-task
Augmentation • 複雑なツールやタスクでは、⽂脈内学習では限界が来るため、ツール学習をおこなう • タスクに依存しない汎⽤的なツール利⽤を⽬指すために⾃⼰教師(マスク)をおこないツールの理解を深める • マスク対象は画像のように、ツール実⾏後の次状態やツールの選択内容、現在の状態などである • ツール実⾏プロセスの因果関係や機能を理解するメタタスクを通じて、ツールの包括的な理解を向上させる Agent Capabilities：ツール利⽤ 7⽉29⽇更新分

CIBench: Evaluating Your LLMs with a Code Interpreter Plugin •
LLMがCode Interpreter を利⽤して、DSのタスクを解決できるか評価するベンチマークを作成 • LLMが問題を⾃律的に解決するのと⼈間の指導を受けながら問題を解決する2つの評価モードを⽤意 • モデリングと画像処理能⼒は総じて低い。⼈間が介⼊するとオープンモデルでは全体的に精度向上 • gpt4系統では可視化以外では⼈間の介⼊に性能差がなかった。⼈間が介⼊しない⽅が良い？(論⽂の表3) Agent Capabilities：ツール利⽤ CIBenchの特徴 7⽉29⽇更新分

WORLDAPIS: The World Is Worth How Many APIs? A Thought
Experiment • 物理環境でエージェントがタスクを実⾏するためのシミュレーションの限界 • 限られた⼿作りの⾏動空間に制限される • どのくらいのAPIがあれば汎⽤的なEmbodied Agent になるのか？ • wikiHowのチュートリアルが広範なタスクを包含すると仮定 • タスクを実⾏するためのPythonプログラムを⽣成 • 既存のAPIを再利⽤しつつ、新しいAPIが必要な場合には⽣成 1000のタスクに9個のAPIから始めた徐々に増加しつつも2回以上使われたAPIの数はチュートリアルが600辺りで飽和しているその数は300~400程度ノイズも多いため、精査は必要 Agent Capabilities：ツール利⽤ 7⽉15⽇更新分

Granite-Function Calling Model: Introducing Function Calling Abilities via Multi- task
Learning of Granular Tasks • IBMからGRANITE-20B-FUNCTIONCALLINGモデルの学習の詳細を公開 • 関数呼び出し能⼒を持つように訓練されている • High-Level Function Calling Tasks：ネストされた関数呼び出し、関数チェーン、並列関数 • Low -Level Function Calling Tasks：関数名検出、パラメータ値ペア検出、次の最適な関数選択、応答⽣成 • GRANITE-20B-CODE-INSTRUCTモデルを16万の指⽰データでQLoRAを⽤いて指⽰チューニング • 関数呼び出し能⼒を評価した結果、既存のオープンモデルより優れた結果を⽰した Agent Capabilities：ツール利⽤ 7⽉15⽇更新分

GTA: A Benchmark for General Tool Agents • Shanghai AI
LaboratoryからGTA（General Tool Agents）のためのベンチマークを提案 • 他のツール利⽤のベンチマークとの違い • 実際の⼈間が書いたクエリを使⽤して曖昧さや多様性が反映されている • 画像、ウェブページのスクリーンショット、表、コードスニペットなどのマルチモーダル⼊⼒も使⽤ • 各タスクに対してツールチェーンを含み、複数のステップにおける複雑な問題も含む • 評価指標 • InstAcc：タスクを遂⾏するために必要なステップを正確に実⾏できているか • ToolAcc：モデルが問題解決のために適切なツールを選択しているか • ArgAcc：モデルがツールを呼び出す際に適切な引数を指定できているか • SummAcc：モデルがタスクの実⾏後に、⾏った処理の結果をどれだけ正確に要約できるか Agent Capabilities：ツール利⽤ 7⽉15⽇更新分

Summary of a Haystack: A Challenge to Long-Context LLMs and
RAG Systems • Salesforce AI からSummary of a Haystackのタスクを設計し、ロングコンテキストとRAGシステムの評価 • 評価は、事実内容を要約に含めているか、引⽤番号を正しく⽣成できているかで評価 • Claude3 Opusが全体的に性能がよく、特にRAG（Rerank3 model）が最も良い • ロングコンテキスト（Full）も悪くないが、引⽤の精度は落ちている評価結果引⽤元docsの作成から回答までのフロー要約はオラクル⽂書だけ渡すと⼈間よりは良いドキュメントの引⽤番号の⽣成は抜け漏れがあり⼈間より精度が低い Agent Capabilities：⻑いコンテキスト理解 7⽉15⽇更新分

The Oscars of AI Theater: A Survey on Role-Playing with
Language Models • 初期のペルソナベースのモデルからLLM駆動の⾼度なキャラクターシミュレーションを網羅したサーベイ論⽂ • 評価基準の開発、効率的なメモリ管理、ロールの維持、安全性の確保、継続学習の課題があるデータ：ペルソナやキャラクターに基づいたデータセットの開発が進められているモデルとアライメント：特定の役割や⼈格を正確に反映させることが求められるエージェントアーキテクチャ：⾏動を伴いインタラクティブ性が向上する評価：対話能⼒、⼀貫性、魅⼒など多⾓的な視点から⾏われる Agent Capabilities：役割 7⽉29⽇更新分

AI Agents That Matter • プリンストン⼤学からエージェントのベンチマークと評価⽅法に問題提起する論⽂ • エージェントのベンチマークは新しい分野であり、ベストプラクティスが確⽴されていないため、真の進展と誇⼤宣伝を区別することが難しい •
コストと精度のトレードオフを⾒過ごしていると指摘 • コストの評価、精度とコストの共同最適化、ホールドアウトの設定、評価⽅法の標準化が必要と提⾔ 164問のHumanEval で評価 HumanEvalはコード⽣成タスクでテストケースに通るかで評価するデータセットコードを書いてテストケース通すだけなら繰り返し GPT-4を叩く⽅が性能は出るのは納得 Agent Capabilities：評価 7⽉15⽇更新分

AGENTPOISON: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases
• メモリやRAGの知識ベースを汚染させ、LLMエージェントをターゲットにしたバックドア攻撃⼿法を提案 • ⾃律運転、知識集約型QA、医療HERの3種類のLLMエージェントに対する攻撃の有効性を実証 • トリガーとなる指⽰が⼊⼒されると、特定の毒データを検索取得し、タスクを失敗に導く • 「安全に運転してください」という指⽰に「急停⽌する」という⾏動を引き起こす • ナレッジやメモリデータの毒性率が0.1%未満に対し、平均82%のデータ取得成功率と63%のエンドツーエンドの攻撃成功率だった • またトリガー以外の通常時の質問では99%以上正常に稼働するためステルス性も⾼い Agent Capabilities：安全性 7⽉29⽇更新分

Direct-Inverse Prompting: Analyzing LLMsʼ Discriminative Capacity in Self- Improving Generation
• LLMの⾃⼰改善能⼒を⾼めるために、外部の⼈間やツールを利⽤する⽅法や、LLMの内在的な能⼒に焦点を当てる⽅法が検討されてきた • LLMの内在的な能⼒に焦点を当て、複数⽣成から最も有望な答えを識別する3種類の識別プロンプトを提案 • Direct Prompt : LLMに直接正しい答えを尋ねる • Inverse Prompt : LLMに不正解の答えを尋ねる • Combination : 両⽅のプロンプトを組み合わせて使⽤する • LLMの識別能⼒を活⽤することで、⽣成の不確実性を低減でき、⾃⼰改善になっている Agent Capabilities：⾃⼰修正 7⽉29⽇更新分

Knowledge Mechanisms in Large Language Models: A Survey and Perspective
• LLMがどのようにして知識を学習し、保存し、利⽤し、発展させるかに焦点を当てサーベイした論⽂ • 知識の利⽤メカニズムを記憶、理解と応⽤、創造の3つのレベルを提⾔ • 記憶：⽂法やセマンティクス、事実、共通認識などの知識がどのようにエンコードされるか（事前学習） • 理解と応⽤：以前に学んだ知識が新しい状況にどのように適⽤されるか（事後学習） • 創造：LLMがどのようにして新しい知識を創出するか • 知識の発展について • 事前学習の段階：知識の記憶ができる⼀⽅で、訓練データ内の⽭盾の⾃⼰解決、低頻度の事実の記憶、断⽚知識の統合が課題 • 事後学習の段階：指⽰に従い知識を利⽤する⼀⽅で、新規の知識獲得、内部と外部の知識の衝突、知識の編集が課題 Agent Capabilities：ナレッジ LLMの知識の進化 LLMの知識の利⽤ 7⽉29⽇更新分

Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative
Approach • マルチホップな質問応答のRAG⼿法のReSP（Retrieve, Summarize, Plan）を提案 • 検索結果の情報量過多による推論の精度低下を抑える⼿法になるアルゴリズムの流れ • 計画がサブ質問を１つ⽣成し、検索する • 検索結果をサブ質問に必要な情報と全体質問に必要な情報でそれぞれ要約しメモリに保存 • 次のサブ質問を⽣成するか回答する • 検索ドキュメント数を可変にして、コンテキスト⻑の変動に対するロバスト性を検証ロバスト性の検証 Agent Capabilities：メモリ 7⽉29⽇更新分

The Llama 3 Herd of Models • 事後学習で利⽤したデータのうちエージェントに関する部分を紹介 Code
• stdout/stderr をもとに⾃⼰修正するデータも準備 Math and Reasoning • Llama3からのCoT推論データも⽤意し学習する • コードとテキストが混在する推論ケースも学習する • フィードバックとエラーからの修正も学習する Tool Use（Single-step, Multi-step, File upload）以下のツールが使えるように学習する • 検索エンジン • Brave Searchを使い、最新の情報を取得できる • Pythonインタープリタ • ファイル読み取りなど複雑な計算を実⾏するコードを⽣成・実⾏できる • 数学計算エンジン • Wolfram Alpha APIを使い数学やDBの取得ができる事後学習の全体像 SFTに利⽤したデータの統計量 Agent Capabilities：モデル 7⽉29⽇更新分

AutoFlow: Automated Workflow Generation for Large Language Model Agents •
エージェントのための⾏動ワークフローを⾃動⽣成するフレームワークAutoFlowを提案 • ワークフローを⾃然⾔語のプログラムで表現し、実⾏後ワークフローの品質を評価してRLで品質改善する • あたりまえのようにRLを使ってLLMの回答品質を⾼めるってしちゃうのか... • AutoMLを関連研究にあげている Agent Framework ⽣成されるワークフロー 7⽉29⽇更新分

Transforming Agency • LLMは（⾃律的）エージェントではないと主張する論⽂ • Transformer（例：ChatGPT）モデルは、⾃律的エージェントの基準を満たさない • モデルは独⾃の意図や⽬標を⽣成せず、環境との直接的な相互作⽤ができない • 話すライブラリとして⼈間と意味のある会話を⾏うことができるが、それ⾃体は独⾃のエージェンシーを持たない
• ⽬的を持たずに、⽬的が構造化されたタスクに従事する能⼒がある • ⾃律的エージェントの基準 • ⾃⼰の⾏動や環境との相互作⽤を通じて独⾃の⽬標や規範を形成し、⾃律的に⾏動する存在である • ⾃⼰の⾏動が⾃⼰にフィードバックされるメカニズムを持つ • エージェントが独⾃の基準や価値に基づいて⾏動を選択し、⽅向付ける能⼒がある • エージェントが環境に対して能動的に働きかけ、環境からの影響を受けつつも、⾃律的に⾏動を調整する能⼒ある Agent Framework 7⽉29⽇更新分

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
• 従来のステップ数の多い推論問題のためにエージェントのワークフローを提案 • 外部情報取得チャネルを導⼊し、取得した情報を必要な知識の増分だけに圧縮する • 従来の外部情報を単に会話履歴に追加する⽅法とは異なる • 実際に評価では難易度ごとのタスク解決までのステップ数をカウント • ⼈間に⽐べ提案⼿法は、正解時は少ないステップで実現（おそらく情報検索とその圧縮が効いている） Agent Framework 7⽉29⽇更新分

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and
Methods • 強化学習にLLMを取り⼊れる⽅法とその利点についての包括的なレビュー • LLMの役割：情報処理、報酬設計、意思決定、⽣成の4つの役割 • LLMの効果：データ収集のサンプル効率向上、報酬関数の設計、新しいタスクや環境に対する⼀般化、複雑な⾃然⾔語ベースの指⽰理解 • RLエージェントの性能と適⽤範囲が増え、実世界での応⽤可能性が⾼まる Agent Framework 7⽉15⽇更新分

Converging Paradigms: The Synergy of Symbolic and Connectionist AI in
LLM- Empowered Autonomous Agents • Symbolic AIとConnectionist AIの融合に焦点を当てた歴史を振り返る論⽂ • Connectionist AIはそのブラックボックス性と解釈可能性の⽋如が問題 • Symbolic AIは労⼒のかかる知識獲得と管理プロセスとルール依存の適応⼒の限界が問題 • LLMエージェントは双⽅が組み合わされたNeuro-symbolic AI のひとつ • LLMに知識を分散させ格納（知識管理の課題解決） • ケースベース推論とも取れるFew-Shot Learning（⾼い適応性） • タスク分解や順次推論（解釈可能な意思決定プロセス） Agent Framework 7⽉15⽇更新分

Spider2-V: How Far Are Multimodal Agents From Automating Data Science
and Engineering Workflows? • Spider2-V はマルチモーダルエージェントのデータエンジニアリングのワークフロー⾃動化のベンチマークを提案 • 494の実世界のタスクと20の実世界アプリケーションを含む • タスクの例 • Google DriveからBigQueryにデータをロードし、新しいテーブルを作成 • Snowflakeから特定の映画データを取得し、CSVファイルに保存 • AirflowのDAGを設定し、スケジュール実⾏を⾃動化 • VLM（GPT-4V）の成功率は14.0%。最も困難なタスクでは成功率1.2% • GUIアクションが必要な細かい粒度のタスクを苦⼿とする Agentic AI Systems 7⽉29⽇更新分

All Roads Lead to Rome: Unveiling the Trajectory of Recommender
Systems Across the LLM Era • LLMを中⼼にリスト型推薦と対話型推薦の2つの進化の道筋を⽰し、それらがエージェントで収束すると主張する • LLMを活⽤した推薦エージェントの各レベルにおける知能の特徴 • Lv.1 遵守：ユーザーや開発者が事前に定義した指⽰に従って推薦タスクを完了 • Lv.2 ⾃律性：メモリやさまざまなツールを使⽤して⾃律的に推薦タスクを計画し完了 • Lv.3 ⼈格化：営業担当者や観光ガイドなどの専⾨知識やスキルを備え、個別の推薦サービスを提供する • Lv.4 ⾃⼰進化：時間の経過とともに⾃律的に改善、適応する Agentic AI Systems 7⽉29⽇更新分

Revolutionizing Bridge Operation and Maintenance with LLM-based Agents: An Overview
of Applications and Insights 対話型質問応答システムの構築 • 橋の設計、建設、運⽤、管理、検査などに関する情報を基におこなうレポートの⾃動⽣成と⽀援意思決定 • 橋の監視データや検査レポートを基に、橋の状態に関するレポートを⾃動⽣成災害予測と緊急対応シミュレーションの⽀援 • 複数のエージェント間の協⼒を通じて、橋の災害時の緊急対応をシミュレーションし、対応策を⽣成 Agentic AI Systems • 橋の運⽤とメンテナンスに対するLLMエージェントの応⽤紹介 7⽉29⽇更新分

PersonaRAG: Enhancing Retrieval-Augmented Generation Systems with User- Centric Agents •
ユーザーの好みを反映してリランク中⼼のエージェントを持つRAG⼿法を提案 • プロフィールやセッション情報から再検索やリランクし、回答する • 同じ「モナリザの盗難事件」を質問してもルネサンス期の芸術か中世ヨーロッパの歴史が好きか異なる回答を返す Agentic AI Systems 7⽉29⽇更新分

MMedAgent: Learning to Use Medical Tools with Multi-modal Agent •
多様な医療タスクを扱うために設計された最初のマルチモーダル医療エージェントを提案 • MMedAgent を作るためのInstruction Tuning データセットを作成 • タスク：グラウンディング、セグメンテーション、医療画像分類、医療レポート⽣成（MRG）、RAG、VQA • 指⽰データは、Thought, Action, Value で構成され、GPT-4oを使って作成 • LLaVA-Med 60K-IM を48K の指⽰データで学習 • ツール選択の正確性は100%に達し、特定のタスクではGPT-4oを上回る結果を⽰した Agentic AI Systems 7⽉15⽇更新分

AgentInstruct: Toward Generative Teaching with Agentic Flows • Microsoft Research
からLLMの事後学習⽤の⾃動データ⽣成プロセスAgentInstruct を提案 • AgentInstructは3つのフローで構成されるマルチエージェントワークフロー 1. コンテンツ変換フロー：⽣データを中間表現に変換し、指⽰データ⽣成を容易にする 2. シード指⽰⽣成フロー：変換されたコンテンツを基に、多様な指⽰と応答データを⽣成 3. 指⽰精錬フロー：⽣成された指⽰と応答データの複雑さと品質を向上 • AgentInstructが⽣成する指⽰データの種類とタスクの⼀例 • Reading Comprehension, Tool Use, RAG, Web Agent, Coding など17種類 • Mistral-7b-v0.1 を提案⼿法に従い2580万のデータでファインチューニングしOrca-3を作成 • 学習に利⽤した17種類のタスクの性能はGPT-4に匹敵した Agentic AI Systems 7⽉15⽇更新分

A Review of Large Language Models and Autonomous Agents in
Chemistry • LLMベースの⾃律エージェントは化学研究において様々なタスクを⾃動化し効率化する • ⼤量の科学⽂献を効率的に検索・分析し、研究者にとって重要な情報を要約 • ⼤量の化学データを解析し、分⼦設計や合成⽅法の⾰新的なアイデアを提案 • 過去のデータと現在の⽬標を基に効率的で成功率の⾼い実験計画を⽴案 • タスク（データベース検索、分⼦シミュレーション、結果の解析など）を⾃動化 Agentic AI Systems 7⽉15⽇更新分

MIRAI: Evaluating LLM Agents for Event Forecasting • LLMエージェントの予測能⼒を評価するために国際イベントの予測ベンチマークを作成 •
世界中の⼤規模データベースから重要な情報を⾃律的に収集し統合する能⼒を評価 • ドメイン固有のAPIやライブラリを使⽤してコードを書き、ツールを活⽤する能⼒を評価 • 多様な形式や時期の歴史的知識を統合し、将来のイベントを正確に予測する能⼒を評価 • GDELTイベントデータベースを⽤い、様々な予測期間を持つ関係予測タスク • イベントの予測（外交訪問、経済制裁、軍事⾏動） • 国家間の関係の予測（協⼒関係の強化、対⽴の激化、和解） • 精度は低く困難なタスクだった • 精度の向上にはツール利⽤が効果的であることはわかった Agentic AI Systems 7⽉15⽇更新分

ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions
• ECにおいてユーザーの曖昧なクエリに対する確認質問を⾏うことで、より正確な商品検索を実現する • 戦略的な確認質問の⽣成と動的な商品検索能⼒を備えた会話型情報検索エージェントを提案 • エージェントは、カテゴリを絞り、アイテムを検索し、複数の新しい質問を⽣成する Agentic AI Systems 7⽉15⽇更新分

InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation •
ServiceNow Research がビジネスデータからインサイトを抽出し回答する能⼒を評価するベンチマークを提案 • インサイトは、記述的、診断的、予測的、規範的がある • インシデント管理：インシデントの解決時間が時間とともに増加している傾向があるかなど • ユーザー管理：特定の部署でのユーザーのログインパターンと業務効率の関連性の分析など • 財務管理：特定のカテゴリにおける⽀出の増減傾向とその原因の診断など • 資産管理：企業のハードウェア資産管理の購⼊⽇と保証期間との相関関係の評価など • 提案⼿法はText-to-Analytics Agentsに属する • スキーマ抽出、⾼レベルな問いの⽣成、コード⽣成と実⾏、インサイトの⽣成と要約をおこなう Agentic AI Systems 7⽉15⽇更新分

LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies
• タスク指向対話エージェント（TOD）は、ユーザーのリクエストを理解し、会話を誘導し関連情報を提供する • カスタマーサポート、⾦融サービス、医療フォームの記⼊など、多岐にわたる⽤途で利⽤される • 従来のダイアログツリーによる会話のレールからはみ出せない限界を克服する⼿法を提案 • ⽬的に応じたワークシートを使い分け、エージェントポリシーが⾏動を進める • ワークシートは命令的でなく宣⾔的に記述でき、必要な⾏動や必要なユーザー情報も記述できる Agentic AI Systems 7⽉15⽇更新分

DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with
Uncertainty Estimations • LLMが⾃分の回答に対する確信度を⽣成し、他のエージェントに共有し、過信回答によるミスリードを防ぐディベート形式の⼿法を提案 • 各エージェントは他のエージェントの回答を確信度に基づいてアテンション重みを調整 • 確信度が⾼い回答に対しては重みを増やし、確信度が低い回答に対しては重みを減らす Multi Agent Systems 7⽉29⽇更新分

Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with
Large Language Models • マルチエージェント環境における他のエージェントの⾏動や戦略を推測・適応する Hypothetical Mindsを提案 • ⼼の理論モジュールは、他のエージェントの戦略や⽬標について仮説を⽣成、評価、精緻化する • その結果をもとに⾃⾝の計画を⽴て⾏動を選択する • 従来のLLMエージェントおよびRLベースラインと⽐較して優れた性能を発揮 Multi Agent Systems 7⽉15⽇更新分

BMW Agents - A Framework For Task Automation Through Multi-Agent
Collaboration • BMW Groupからマルチエージェントフレームワークの提案 • エージェントには計画、実⾏、検証の3つに分かれる • 様々な応⽤事例のエージェント設計例を紹介しており、参考になる Multi Agent Systems 7⽉15⽇更新分

GRUtopia: Dream General Robots in a City at Scale •
Embodied Agentsのためには⾼品質なデータが不⾜している課題に対して、様々なロボットが⼈間と相互作⽤しながらタスクを実⾏できるインタラクティブな3D社会シミュレーションプラットフォームを提案 • GRScenes：様々な環境の異なるシーンを含み、各シーンはリアルな素材、詳細な外観を持つ • GRResidents：LLM駆動のNPC。 NPCは、タスクの⽣成、割り当て、そしてロボットとの対話ができる • GRBench：物体ナビゲーション、社会的ナビゲーション、物体操作を含む • GPT-4oを使っても精度が低く、それぞれ成功率は20%を切る程度 GRScenesに含まれるオブジェクト GRBenchに含まれるタスク例 Embodied Agents 7⽉29⽇更新分

ODYSSEY: Empowering Agents with Open-World Skills • Minecraftのようなオープンワールド環境における汎⽤エージェントの開発を⽬指して、ODYSSEYというフレームワークを提案 •
Minecraft上で必要な調理する、採掘するなど低レベルだけでなく、必要な材料を収集し、鉄のツルハシをクラフトする⾼レベルなスキルを準備している • 3つの計画タスクで評価（⻑期計画、環境からのフィードバックによる動的計画、⽬的がない⾃律探索タスク） Embodied Agents 7⽉29⽇更新分

Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era
of Foundation Models • Vision-and-Language Navigation (VLN) は、エージェントが⼈間からの指⽰に従い、視覚情報を⽤いて3D環境を探索し、⽬的地に到達するためのタスク • VLNは、家庭⽤ロボット、⾃動運転、パーソナルアシスタントで役⽴つ • 研究者が今後取り組むべき課題とその解決策についてのロードマップを提供する論⽂ Embodied Agents 7⽉15⽇更新分

ASSISTANTBENCH: Can Web Agents Solve Realistic and Time-Consuming Tasks? •
Webエージェントが現実的で数分かかるタスクを解決できるかどうかを評価するベンチマークを提案 • 徐々にベンチマークも⼈間がしそうな現実的な質問⽂で複雑なものになっている • SeeActやSPAといったSoTAエージェントでも性能は低い • ステップ数が少なくともクリック場所を間違えるGroundingの問題がある • ナビゲーションアルゴリズムの改善、計画の再評価、メモリの仕組み強化が必要エラー分析ステップごとの精度 Computer Controlled Agents 7⽉29⽇更新分

OpenDevin: An Open Platform for AI Software Developers as Generalist
Agents • OpenDevinは、エージェントがソフトウェア開発者のように複雑なタスクを実⾏できるプラットフォーム • エージェントの抽象クラス、イベントストリーム、ランタイムの3つで構成される • エージェントはCodeAct, Browsing, GPTSwarm, Micro Agentsが使える • タスクは、GitHubのイシュー解決、バグ修正、Webブラウジング関連、OS操作など Computer Controlled Agents 7⽉29⽇更新分

Agent-E: From Autonomous Web Navigation to Foundational Design Principles in
Agentic Systems • 新たなWebエージェント⽤のアーキテクチャを提案 • Agent-Eは、計画エージェントとナビゲーションエージェントの階層構造をとっている • 3つの異なるDOM表現からタスクに最適なものを選択し、ノイズを低減 • Text Only：ページのテキスト内容のみを抽出するDOM表現（ページの要約や情報の抽出に使⽤） • Input Fields：ユーザーが操作できる要素のみを抽出するDOM表現（検索の実⾏やフォーム⼊⼒などのタスクに使⽤） • All Fields：ページ上のすべてのフィールドを抽出するDOM表現（探索的なタスクや操作できる要素をリストする際に使⽤） Computer Controlled Agents 7⽉29⽇更新分

Tree Search for Language Model Agents • CMUからWeb⾃動化タスクにおけるLLMエージェント向けにツリーサーチアルゴリズムの適⽤ • 探索能⼒をLLMとは別のアルゴリズムで担う（LLMに⾏動を決定させない）
• VLMには画⾯遷移のスクショから価値関数のスコアの⽣成、次の画⾯から⾏動候補の⽣成を担わせる Computer Controlled Agents 7⽉15⽇更新分

Internet of Agents: Weaving a Web of Heterogeneous Agents for
Collaborative Intelligence • インターネットにインスパイアされたエージェント通信と協⼒のための汎⽤フレームワーク • エージェントが動的にチームを形成し、タスクに応じて最適なコミュニケーションを取る • 異なる場所にある複数のデバイスが相互に通信し協⼒する • 異なるサードパーティエージェントを統合するためのオープンなプロトコルと標準を提供 Interaction Layer エージェントのチーム形成とコミュニケーションを円滑に進めるための機能を提供 Data Layer エージェント、グループチャット、およびタスクに関連する情報を管理 Foundation Layer エージェント統合、データ管理、およびネットワーク通信のための基本的なインフラストラクチャを提供 Computer Controlled Agents 7⽉15⽇更新分

Weekly AI Agents News! 7月号 論文のアーカイブ

Weekly AI Agents News! 7月号 論文のアーカイブ

More Decks by masatoto

Other Decks in Research

Featured

Transcript

Weekly AI Agents News! 7月号論文のアーカイブ

Weekly AI Agents News! 7月号論文のアーカイブ