Weekly AI Agents News! 10月号論文のアーカイブ

Weekly AI Agents News @ottamm_190 10月号論文編

はじめに • LLMエージェントに関するニュースや論文をほぼ毎週更新しています。 • 論文、プロダクトの順番でまとめています。 • 個人の備忘録で取り組んでおり、誤りがある場合もあります。 • 文字サイズ16ptで小さいのでPCで見ることをおすすめします。 •
SpeakerDeckに過去の4月、5月、6月、７月、8月、9月の資料を分けて公開しています。 • 7月から隔週で更新します。

10月の所感 • エージェントの安全性に関する論文が明らかに増えました。特に攻撃に対する脆弱性の評価です。敵対的学習の頃から見ても、技術が実用化に進み始めるとそういった論文が増える印象はあります。そういう観点でみると、エージェントは一年たらずで安全性の論文が多く出ているのは、それだけ研究と同時進行で実用化が進んでいるからなのかなと思います。 • o1の研究と関連したプロセス評価、思孝、推論スケーリング則に関する論文やo1の評価は先月に引き続き公開されています。気になる人は読んでみてください。 • エージェントアーキテクチャの自動設計ADASと似たような自動設計な手法が3~4種類は提案されています。どこか進化計算の
雰囲気を感じます。複数の初期エージェントをもとに要素をスワッピングしたり、コード書いて評価して最適な個体（アーキテクチャ）を探索しています。 • オチや伏線のある物語や研究の新規性含めて創造力を引き上げる工夫を提案し、性能評価する論文が増えています。特にマルチエージェントアーキテクチャの方面です。思孝から創造を促し、批判してありふれたものではなく独自性やオリジナリティが出ることを期待していますが、まだそこまでの結果にはなっていないように思います。 • 研究ではデータ分析から機械学習エンジニアリングに移行しています。Kaggleは良い題材になり、評価されています。しかし、ある意味で論文の制約に捉われて、コンペのディスカッションや先駆者のコードを活用した改善はしておらず、データ概要と評価指標を基準に改善するため、限定的になっているとも思います。EDAもサブミッション失敗もKaggleのコードを見ればもっと早い段階で解決できると思います。 • ナビゲーションなどのデジタルエージェントの研究は学習に移っています。単純なエージェントでは限界に達しています。 LMMに渡す情報を加工したり、専用のツールを作って工夫していますが、精度を見ると数%の改善が続いている印象を受けます。一方で専用に特化で学習した方が大きく向上している結果を見ます。これからLLMのエージェントアーキテクチャでは難しくても解決したい課題に対しては学習に移ると思われます。 • ベンチマークが徐々に見直され、個々のベンチマークに対して難易度が高すぎるものや雑に作ってしまったタスクが精緻化されています。今月はソフトウェアのベンチマークがそうでした。特にエージェントはタスクの設計が難しいので、ベンチマークの質の見直しはありそうです。

論文 10月分認知 • VHELM: A Holistic Evaluation of Vision
Language Models 計画 • On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability • Benchmarking Agentic Workflow Generation • Planning in the Dark: LLM-Symbolic Planning Pipeline without Experts • LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench • Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1 推論 • Inference Scaling for Long-Context Retrieval Augmented Generation • Steering Large Language Models between Code Execution and Textual Reasoning • Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely • MARPLE: A Benchmark for Long-Horizon Inference 評価 • The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends • Evaluation of OpenAI o1: Opportunities and Challenges of AGI

論文 10月分学習 • Thinking LLMs: General Instruction Following with
Thought Generation • CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device • AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories 自己修正 • Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation • Agent-as-a-Judge: Evaluate Agents with Agents • LLM Self-Correction with DECRIM: DECOMPOSE, CRITIQUE, AND REFINE for Enhanced Following of Instructions with Multiple Constraints 安全性 • AutoPenBench: Benchmarking Generative Agents for Penetration Testing • Multimodal Situational Safety • AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents • ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents • HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions • Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

論文 10月分 Agent framework • AgentSquare: Automatic LLM Agent Search
in Modular Design Space • AFlow: Automating Agentic Workflow Generation • Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement • Agents Thinking Fast and Slow: A Talker-Reasoner Architecture • MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents Agentic AI System • Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise • DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback • Collective Critics for Creative Story Generation • Agentic Information Retrieval • HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR Applications • AI-Press: A Multi-Agent News Generating and Feedback Simulation System Powered by Large Language Models • ShapefileGPT: A Multi-Agent Large Language Model Framework for Automated Shapefile Processing • Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance • LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents • Mentigo: An Intelligent Agent for Mentoring Students in the Creative Problem Solving Process • Control Industrial Automation System with Large Language Models • Agents' Room: Narrative Generation through Multi-step Collaboration

論文 10月分 Research Agent • ScienceAgentBench: Toward Rigorous Assessment of
Language Agents for Data-Driven Scientific Discovery • dZiner: Rational Inverse Design of Materials with AI Agents • Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation • Chain of Ideas: Revolutionizing Research in Novel Idea Development with LLM Agents Software Agent • SWE-Bench+: Enhanced Coding Benchmark for LLMs • HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale Data Agent • DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models • MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering • AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML • Data Analysis in the Era of Generative AI Digital Agent • Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents • Agent S: An Open Agentic Framework that Uses Computers Like a Human • AGENTOCCAM: A Simple Yet Strong Baseline for LLM-Based Web Agents • A Survey on Complex Tasks for Goal-Directed Interactive Agents

論文 10月分 Embodied Agent • MLLM as Retriever: Interactively Learning
Multimodal Retrieval for Embodied Agents • Mars: Situated Inductive Reasoning in an Open-World Environment Multi Agent System • GenSim: A General Social Simulation Platform with Large Language Model based Agents • Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining • Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts • RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance • From Facts to Insights: A Study on the Generation and Evaluation of Analytical Reports for Deciphering Earnings Calls

VHELM: A Holistic Evaluation of Vision Language Models • VHELMは9つの視覚的知覚、知識、推論、バイアス、公平性、
多言語対応、ロバスト性、毒性、安全性の側面でVLMsを評価 • どのモデルも全ての側面で優れているわけではなく、トレードオフがある • 知覚や推論に良好なモデルもバイアスや公平性に課題あり • 知識、推論、毒性では、オープンモデルよりクローズドモデルの方が一貫して高いスコア • 効率重視のClaude 3 HaikuやGemini 1.5 Flashはフルモデルと比較してバイアスが大幅に増加 • 多言語対応はほとんどのモデルが英語以外の言語で低下 • 文化的・社会的な文脈、皮肉やジョークの理解に限界がある • 軽微なテキストのタイポには多くのモデルが強い耐性があるが、視覚的な入力における変動には弱い Agent Capabilities：認知 10月21日更新分

On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality,
and Generalizability OpenAIのo1モデルの計画能力について、実行可能性、最適性、汎用性の3つの側面から評価実行可能性モデルが問題の制約内で実行可能な計画を立てられるか • o1は空間的複雑さ、ルールの複雑さが増すと厳しい最適性無駄なステップやリソースを避けるか • o1-previewは実行可能な計画を生成するが、冗長な行動を含む非効率な解決策を生成する汎用性訓練時に遭遇していない新しいシナリオでも成功するか • 単純なタスクでは、学習した戦略を新しい環境に適応させることができたが、抽象的になると難しい IR:ルールに従わない IP:行き詰まる MG:初期や目標の誤解 Agent Capabilities：計画 10月21日更新分

Benchmarking Agentic Workflow Generation LLMの計画のワークフロー生成能力を評価するベンチマークWORFBENCHを提案 • 問題解決、関数呼び出し、エンボディド計画、オープングラウンド計画の4つのシナリオを含む • ワークフローはDAGで、直列的な依存関係だけでなく、並行タスクも表現でき、タスク効率化や時間の短縮が望める実験結果はグラフにすると直列のチェーン形式より性能が落ちることが確認された
エラー分析 • タスクの具体化や依存関係の誤りが大きな課題 • サブタスクの分解が不十分で、最小実行可能単位にまでタスクが分割されていない • サブタスク自体は正しいものの、それらの依存関係や順序関係が誤っている • 出力が指定された形式に従っていない生成するワークフロー Agent Capabilities：計画 10月21日更新分

Planning in the Dark: LLM-Symbolic Planning Pipeline without Experts LLMの計画タスクでは自然言語で直接計画しても精度が低く、従来のシンボリックな方法と組み合わせた研究が
ある。しかし、それでもアクションスキーマの精査で専門家の介入が必要だった。アクションスキーマは、特定のタスクを達成するために行動の前提条件や効果を論理的に記述する必要があり、自然言語のタスク概要からLLMによって抽出されていた。しかし幻覚があったり、意味的に異なることがあり、外部プランナーで解けないことがある。提案手法 1. アクションスキーマを複数モデルで複数案生成 2. 複数案から余分なものを意味的フィルタリング 3. 外部シンボリックプランナーが計画を作成 4. 計画をスコアでランキングし最適な計画を選ぶ従来手法 Agent Capabilities：計画 10月7日更新分

LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of
OpenAI's o1 on PlanBench o1（大規模推論モデル）が本当に推論能力が向上しているかを調査するため、計画のベンチマークで評価 o1は従来のLLMを大きく上回る性能を示し、特に標準的な問題セットにおいてはほぼ満点に近い97.8%の正解率を達成より計画が難しい問題になると性能は低下していくことがわかった o1-previewは100問題を解くために約42ドルのコストがかかり、これは従来のLLMの数十倍に相当する Agent Capabilities：計画 10月7日更新分

Planning in Strawberry Fields: Evaluating and Improving the Planning and
Scheduling Capabilities of LRM o1 o1-previewとo1-miniの計画およびスケジューリングの既存のベンチマークで評価し、さらに外部検証器を組み込んだLRM-Moduloシステムを提案 LLMが「近似的な検索」システムであり、計画や推論のような「システム2」的なタスクには向いていない o1は、従来のLLMと異なり、計算能力を動的にスケールさせる機能を持ち、推論能力を強化している • 計画問題は、PlanBench（PDDLで記述された離散的かつ決定論的な空間の自動計画問題）で評価 • スケジューリング問題はNatural Planや、旅行計画をテーマとしたTravelPlannerのベンチマークで評価 LRM-Moduloシステムは外部検証器のフィードバックをもとに回答の改善を繰り返す。難しいタスクも大きく改善した。 Agent Capabilities：計画 10月7日更新分

Inference Scaling for Long-Context Retrieval Augmented Generation ロングコンテキストLLMのRAGにおける推論スケーリング則に則った手法（DRAG、IterDRAG）を提案デモベースのDRAGと反復デモベースのIterDRAGが、複雑な知識集約型クエリに対して優れた性能を発揮実験ではテスト時の計算を最適に割り当てることで、標準的なRAG手法と比べて最大58.9%の性能向上を達成した
RAGの性能が計算リソースが増加するにつれて、ほぼ線形に性能向上することが観察されました限られた計算リソースの中で取得するドキュメントの数、例の数、反復ステップ数を決める計算割り当てモデルも提案その式を使えば、32kトークン使うなら、取得ドキュメント数20件、例の数5件、反復ステップ数2回のように推定される DRAG、IterRAGの説明 Agent Capabilities：推論 10月21日更新分

Steering Large Language Models between Code Execution and Textual Reasoning
LLMのコード生成とテキスト推論の使い分けに焦点を当てた研究数理的、論理的、最適化タスクは、コードを用いた方が精度が高い結果を得られる場合がある 7つの異なる手法を用いて14のタスクと6種類のLLMを評価 LLMのサイズやタスクの複雑さに応じて、コード生成とテキスト推論の使い分けが異なることがわかった大きなモデルほどテキスト生成に頼る傾向があり、小さなモデルの方がコードを使う傾向がある Code + Text + Summaryのような複合的な手法が有効であることがわかった Agent Capabilities：推論 10月21日更新分

Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on
How to Make your LLMs use External Data More Wisely MicrosoftがLLMが外部データに依存するタスクには4つの段階があると主張レベル1（Explicit Fact Queries - 明示的事実クエリ）特徴: 直接的な事実を外部データから取得するクエリ。簡単なデータ検索のみで解決可能例: 「2024年のオリンピック開催地はどこ？」技術: Retrieval-Augmented Generation (RAG)による簡単なデータ検索レベル2（Implicit Fact Queries - 暗黙的事実クエリ）特徴: 複数のデータソースを組み合わせて推論する必要があるクエリ例: 「キャンベラが首都である国の与党はどこ？」（オーストラリアとその政党に関する知識を統合する必要がある）技術: マルチホップ推論や逐次的データ取得レベル3（Interpretable Rationale Queries - 解釈可能な理論クエリ）特徴: 専門知識や理論的な枠組みに基づいたクエリ。医療や法的なガイドラインに従って処理する必要がある例: 「ある症状に対する診断と治療法は？」（医療ガイドラインに基づく）技術: ドメイン固有の理論やルールに基づいたプロンプト設計や推論レベル4（Hidden Rationale Queries - 隠れた理論クエリ）特徴: ドメインに隠された複雑な知識や経験に基づくクエリ。明示的に記述されていないが、データの中に潜在的に含まれている知識が必要例: 「過去の経済データから将来の企業成長を予測するには？」技術: オフライン学習やIn-Context Learningなど、高度な推論と経験の蓄積が必要 Agent Capabilities：推論 10月7日更新分

MARPLE: A Benchmark for Long-Horizon Inference 日常的なシナリオにおいて、どのエージェントが環境の変化を引き起こしたのかを推論するベンチマークを作成「誰が冷蔵庫を開けたのか」「誰が電気をつけたのか」といった推理もの形式の推論問題各タスクは、2人のエージェントの行動履歴を時刻順に観測し、いかに少ない証拠で正しい推論ができるかが評価のポイント人間の方（青線）が少ない証拠で高い確率で正解を当てられている。
モダリティを追加するとさらによくなり、全ての行動履歴が観測されれば正しい答えを導けている（GPT-4以外） Agent Capabilities：推論 10月7日更新分

Evaluation of OpenAI o1: Opportunities and Challenges of AGI •
複雑な推論タスクの集合である「AGI-Benchmark 1.0」を公開 • 5つの主要な認知能力に分類された27のタスクを含み、モデルの適応性と多様な課題に対する有効性を評価 • コンピュータサイエンス、数学、自然科学、医学、言語学、社会科学のタスクを含む高度な推論能力：高校数学、定量的投資、チップ設計などの分野でステップバイステップの問題解決能力を示した分野別の知識：医療遺伝学、放射線学、人類学、地質学などの多岐にわたる分野で、大学院生や若手専門家に匹敵、あるいはそれ以上の性能を発揮した創造的かつ実用的な応用：3Dレイアウト生成や芸術教育などの分野で、機能的なデザインや教育プランを生成しましたが、柔軟性と適応性はまだ人間に劣る自然言語理解：感情分析や皮肉の理解など、微妙な言語のニュアンスを捉える能力を示したが、非常に微細な感情のニュアンスには課題がある科学的・医療的推論：医学的診断、放射線レポート生成、医学試験問題の回答において強力な推論能力を示した Agent Capabilities：評価 10月7日更新分

The Imperative of Conversation Analysis in the Era of LLMs:
A Survey of Tasks, Techniques, and Trends LLMの発展に伴い、会話データから有用な情報を抽出し、ビジネスの意思決定を支援する会話分析（CA）のニーズが生まれている。会話データには、顧客のプロファイルや購入意欲、感情の変化、営業スキルの欠点、改善提案など、ビジネスに有用な情報が多く含まれている。CAは、このようなデータを分析して顧客の行動やニーズを理解し、マーケティング戦略やカスタマーサポートの改善に役立てることができる。会話分析を回すプロセス 1. シーン再構築（Scene Reconstruction）会話の中から参加者のプロフィールや感情、意図といった要素を抽出し、会話の背景となるシーンを再構築する。これにより、会話の内容だけでなく、その背景にある重要な要素が明らかになる。 2. 因果分析（Causality Analysis）会話のシーン要素に影響を与えた要因を深く探るプロセス。具体的には、参加者の感情の変化や説得の戦略など、会話の背後にある要因を明らかにする。 3. スキル向上（Skill Enhancement）因果分析で得られた知見に基づいて、人間の参加者（コールセンターの従業員など）やAIエージェントのスキルを向上させる学習をおこなう 4. 会話生成（Conversation Generation）改善されたスキルや知識を基に新たな会話を生成する。次回の会話において目標をより効果的に達成をする Agent Capabilities：評価 10月7日更新分

AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction
Trajectories LLMエージェントの汎用性を高める学習用のAGENTBANKデータセットを構築 • 16のタスクと5つのスキルをカバーする5万以上の行動と思孝のアノテーションをしている軌跡データセット • Answer Forcing：GPT-4が失敗した軌跡を正解の答えを与えた上で再度軌跡を生成 • Reformat：数学やコード生成など、公式解答を行動シーケンスに変換 • Heuristic Action Search：探索アルゴリズムを用いて最適な行動シーケンスを取得 • 行動ステップに対する思孝をgpt-3.5-turboで生成 • 思考過程を学習データに加えることで未知のタスクに対する性能が、思考過程がない場合に比べ向上した SAMOYEDモデル • AGENTBANKの軌跡データを使ってLlama-2ベースのモデルをファインチューニング • 汎用的な指示データ（Dgeneral）やコードデータ（Dcode）も使用し、割合はBANK : 指示 : コード= 8 : 1 : 1 • AdamW、学習率5e-5、バッチサイズ128、シーケンス長は2048で3エポックの訓練、NVIDIA A100 GPU Agent Capabilities：学習 10月21日更新分

CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On
Device Appleからローカル環境で動作するSLMを用いた問題解決のためのマルチエージェントフレームワークの提案 • 同じSLMでプロンプトを変えて各エージェントを担うため、モデルのサイズ、遅延、メモリ使用量を削減につながる • プロンプト圧縮もおこない、エージェントが使用する関数定義を単一のトークンに圧縮する • ファインチューニングされたSLMは、Claude-3.5に比べてタスク完了率の精度が大幅に向上 SLMにインプットするプロンプト量の削減（学習とプロンプト圧縮の効果）精度がLLMよりも高くなる結果に Agent Capabilities：学習 10月21日更新分

Thinking LLMs: General Instruction Following with Thought Generation LLMに思考能力を持たせるための学習手法、思考選好最適化（TPO）を提案 LLMに思考プロセスと応答を生成させ、その応答部分のみを評価するジャッジモデルを用いて、思考と応答の質を最適化
思考自体の質を直接評価するのではなく、応答の質を基にして間接的に思考の有用性を判断するのがポイント２種類のプロンプトを用意している • Generic Thought Prompt：モデルに自由に思考プロセスを書かせ、その後に応答を生成する形式 • Specific Thought Prompt：より具体的にモデルの思考をガイドし、一次応答とその評価を思考に含むように促す形式 • 思考プロセスが学習のイテレーションごとに短くなり、Generic では61%、Specific では30%短縮された • 応答精度も推論や問題解決タスクだけでなく、非推論タスクでも精度が数％向上した学習プロセス思考プロンプト Agent Capabilities：学習 10月21日更新分

Agent-as-a-Judge: Evaluate Agents with Agents エージェントを用いて他のエージェントシステムを評価する手法を提案 • エージェントが別のエージェントシステムの中間過程を評価し、フィードバックできる • 人間と同様に評価エージェントは成果物のコードを見たり、ファイル依存関係など最終結果以外も観察する
3つのエージェントシステムMetaGPT、GPT-Pilot、OpenHandsの性能をコード生成タスクで評価した • Agent-as-a-Judgeは人間の評価者と同等かそれ以上に信頼できる評価ができた • 要件達成率の人間評価とのズレはAgent-as-a-Judgeが8.20%の差異に対し、LLM-as-a-Judgeは32.24%の差があった • 評価時間も3人の評価者の合計で86.5時間かかったが、Agentは約2時間しかかからず、時間を97.64%削減 • 人間はコストが約1,297.50ドルかかったが、Agentは30.58ドルしかかからず、コストを97.72%削減 Agent-as-a-Judgeのフィードバックからエージェントは自己改善を実現することも示された Agent Capabilities：自己修正 10月21日更新分

LLM Self-Correction with DECRIM: DECOMPOSE, CRITIQUE, AND REFINE for Enhanced
Following of Instructions with Multiple Constraints LLMsが複数の制約を含む指示に従うことができるかを評価するベンチマークの提案 • 実際のユーザーがAIアシスタントに行ったリクエストを基にしているため、現実のユースケースに近い DECRIM（Decompose, Critique, and Refine） • 複数の制約を持つ指示に対して適切に従えるように自己修正を行うパイプライン • 従う指示を列挙し、応答が満たしているか評価、フィードバックをもとに回答の洗練をおこなう • 単純なGPT-4と比較してMistralモデルをベースにすると全ての指示に従ったかと個々の制約に従ったかの精度が顕著に向上 • 特に指示の分解と批判に人間からのフィードバックがあると指示に従う度合いがGPT4を大きく超えた Agent Capabilities：自己修正 10月21日更新分

Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented
Generation RAGに「検証モジュール」を導入し、外部取得と内部生成の両方のエラーを軽減するための手法の提案検索、生成、検証、再取得、再生成をおこなう Agent Capabilities：自己修正 10月21日更新分

AutoPenBench: Benchmarking Generative Agents for Penetration Testing エージェントによるシステムの脆弱性を検証するペンテストの自動化のベンチマークを提案 • セキュリティツール（MetasploitやNmapなど）を用いて脆弱なコンテナを攻撃し、脆弱性を見つけるタスク
• 33のタスクそれぞれが異なる脆弱性を持つ • 脆弱性を発見すると見つけられる文字列を取得できたか（CTF形式）で評価するエージェントは、順番にシステムの発見、調査、脆弱性の検出、攻撃、フラグの取得をおこなう自律型エージェントは21％の成功率支援型エージェントは人間の協力を得てタスクを分割して進行し、 64％の成功率を達成 Agent Capabilities：安全性自律型と支援型のステージごとの評価 10月21日更新分

Multimodal Situational Safety MLLMから視覚的な文脈を踏まえた安全性が必要になりベンチマークを開発 • ベンチマークにはチャットタスク、物理タスクで安全な状況と危険な状況が半々含まれている危険な状況の種類身体的な危害 • 自己危害（例：崖の近くで走る）
• 他者危害（例：他人に危険を与える行動）物的損害 • 個人財産の損害（例：家庭内で物を壊す） • 公共財産の損害（例：公共の場所での危険行為）違法行為 • 人権侵害行為（例：プライバシー侵害） • 財産権侵害行為（例：違法な撮影）不快行動 • 文化的・宗教的信念の侵害（例：宗教施設での不適切な行動） • 破壊的行動（例：他人を怒らせる行動） Agent Capabilities：安全性安全な状況では平均精度はほぼ90%以上、危険な状況での精度は劇的に低下クエリが危険かどうかを適切に判断できない 10月21日更新分

ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web
Agents IBMからST-WebAgentBenchは企業内でWebエージェントの安全性と信頼性を評価するベンチマークエージェントがどれだけ安全に動作し、企業のポリシーや規制に違反しないかを評価必要なこと：ユーザーの同意とアクションの確認、許可された範囲内でのみ操作、ユーザーの指示に忠実、ポリシーの遵守、センシティブデータの保護ポリシーの階層：企業ポリシー＞ユーザー指示＞タスク指示 • 企業ポリシー例「システム内のデータを削除しない」 • ユーザー指示例「新しいフォームを送信する前に必ず私に確認を求める」 • タスク指示例「新しいGitLabの課題を作成する際に、デフォルトのサイズと優先度を使用する」 • GitLab、ShoppingAdmin、SuiteCRMの環境でおこなう WebArenaのリーダーボードでトップのAgentWorkflowMemory でも成功率36.9%で、ポリシー違反が頻繁に発生特に、ユーザー同意の取得に関して37回の違反があった。ポリシー数が増えるとタスク完了率が低下した。 Agent Capabilities：安全性 10月21日更新分

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents エージェントが有害な行動を実行するか評価するベンチマークを提案
タスクは、偽造パスポートを注文するような詐欺、他者の個人情報をインターネット上で公開し、嫌がらせをおこなうサイバー犯罪、脅迫メールを送信し、SNSで批判するハラスメントなど評価項目：有害リクエストの拒否率、有害マルチステップタスクの実行能力、脱獄（Jailbreak）の効果 • 多くのLLMエージェントは、脱獄を行わずとも有害な要求に従う傾向がある • 汎用脱獄テンプレートを使用することで、多くのエージェントが有害な行動を実行するようになる • 脱獄後もエージェントの能力は維持され、複雑なタスクを正確に遂行できることがわかっている Agent Capabilities：安全性脱獄用テンプレ害のあるリクエストでも実行してしまう 10月21日更新分

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions
AIエージェントと人間の相互作用における安全リスクを評価するフレームワークを提案医療、金融、教育などの分野にわたる92のシナリオでマルチターンの対話で評価 • チェック項目に対するリスク：各シナリオで設定されたリスク要因を引き起こす • システムや操作性のリスク：セキュリティの脅威、金融やヘルスケアで損害を被るような行動をする • コンテンツのリスク：嘘、暴力的または極端なコンテンツ、ヘイトスピーチ、性的な内容、ハラスメント生成する • 社会的リスク：世論操作、プロパガンダの拡散、市場の不公平な操作など、政治的、経済的に悪影響を与える • 法的リスク：AIエージェントの行動が、法的な規制に違反したり、個人の権利を侵害する大規模なモデルほど、目標を達成しながらリスクを避ける能力が高いことが示された Agent Capabilities：安全性 10月7日更新分

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses
in LLM-based Agents エージェントの攻撃に関するベンチマークを提案直接的なプロンプトインジェクション (DPI) • ユーザープロンプトを直接操作し、エージェントに悪意のあるタスクを実行させる攻撃観察によるプロンプトインジェクション (OPI) • エージェントが使用する外部ツールから得られる情報に悪意のある指示を埋め込み、エージェントの行動を操作する攻撃メモリ毒性攻撃 • エージェントのメモリデータベースに悪意のあるデータを挿入し、将来的なタスクの実行に悪影響を与える攻撃 Plan-of-Thought (PoT)バックドア攻撃 • システムプロンプトに隠されたトリガーを挿入し、特定の条件下でエージェントに意図しない行動を実行させる攻撃混合攻撃 • 上記の複数の攻撃を組み合わせて、エージェントの複数のステージに同時に攻撃を仕掛ける混合攻撃が、平均攻撃成功率84.3%と、最も効果的な攻撃 DPIは、全体的に72.68%の攻撃成功率 OPIは、平均成功率27.55%、DPIほどの脅威ではないメモリ毒性攻撃は7.92%と低く脅威ではない PoTバックドア攻撃は100%近く成功 Agent Capabilities：安全性 10月7日更新分

Agents Thinking Fast and Slow: A Talker-Reasoner Architecture DeepMindから心理学者ダニエル・カーネマンの”thinking fast
and slow” に基づいて設計されたエージェントを提案 Talker（System1）とReasoner（System2）の2つのシステムを組み合わせたアーキテクチャ Talker：メモリから情報を取得し、既存の知識を活用して迅速な応答を行う Reasoner：複雑な問題解決、計画立案、ツール呼び出しなど、時間のかかる深い推論をする信念状態がメモリに格納され、両者をつないでいる信念の状態には、ユーザーの目標、タスクの制約条件、ユーザーの感情、フィードバック、タスクの進行状況が含まれる睡眠コーチングエージェントを開発し、実際にユーザーと対話させ評価させた Talkerが自動的にReasonerの助けが必要かどうかを判断できるようになることが課題 Agent Framework 10月21日更新分

AFlow: Automating Agentic Workflow Generation エージェントワークフローを自動生成するフレームワークAFLOWを提案 • ワークフローをコードで表現し、その探索空間をMCTSを用いて効率的に探索する • コードでは、ノードとエッジとオペレータの組み合わせでワークフローを作る
• オペレータが探索空間を狭めるため、本当によくあるMADとかアンサンブルで、それをどう繋ぎ合わせるかになるタスクごとに最適なワークフローを作れるのが大きいかもしれない同じ自動探索のADASよりは高い精度になっている Agent Framework 10月21日更新分

AgentSquare: Automatic LLM Agent Search in Modular Design Space LLMエージェント設計の自動化フレームワークの提案
• LLMエージェント設計をプランニング、推論、ツール使用、メモリのモジュールに抽象化 • 初期エージェントをランダムに選び、その設計を基に探索プロセスを開始 • モジュール進化を行い、新しいモジュールを生成し一部のモジュールを入れ替える • 新しいモジュールや既存のモジュールを再結合し、異なる組み合わせを探索 • エージェントの性能を予測し、不要な候補を除外し、効率的にエージェントを探索 6つの代表的なタスクで手作りのエージェントよりも平均17.2%の性能向上を達成エージェントの進化の様子 Agent Framework 10月21日更新分

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement エージェントが自分自身のコードを分析し、再帰的に改良する自己改善型エージェント「Gödel
Agent」を提案 Gödel Agentは自分自身を参照し、自分のコードやロジックを再帰的に更新できるメモリに実行中の状態やコードを置いておき、自己認識と自己修正するタスクごとのアーキテクチャ自己改善の方向性数理的タスク：CoT推論、自己検証とフィードバックループマルチタスク：モジュール化されたアーキテクチャ、動的リソース割り当て推論タスク：自己修正と再帰的推論、複数のロジックを作りディベートメモリを使いながらアーキテクチャの自己改善 Agent Framework 10月21日更新分

MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents
従来のエージェントは関数呼び出しを用いたツールの使用に限定されていたが、提案手法のMOSSは、動的にコードを生成・実行から生成したコードのツール化から自己進化することが可能エージェントが外部ツールやライブラリを動的に統合できるよう、依存関係の注入機能を提供している Mossクラスをに必要な依存関係を注入する。エージェントがファイル編集タスクを実行する場合、ファイルを操作するためのツール（例：FileEditorやModuleEditorなど）が注入される依存関係を注入するタイミングは、タスク開始、ツール利用、新しい外部ライブラリやツールの統合、コード生成時があげられる例：Pythonファイルの中国語コメントを英語に翻訳するタスクタスク実行中に新しいコードを生成し、すぐに実行もできる Agent Framework 10月7日更新分

Collective Critics for Creative Story Generation 物語生成の創造性を向上させ、物語の一貫性を維持できるフレームワークを提案物語の計画段階（CRPLAN）とテキスト生成段階（CRTEXT）の2段階で構成複数のLLM批評者とリーダーの協力によるコラボレーティブな批評プロセスが物語の質を高める •
CRPLANでは、物語の計画をより創造的にし、物語全体の構造やテーマ、結末を改善する • 批判者がオリジナルなテーマや背景設定、独自の物語構造、独特な結末で改善案を提案する • CRTEXTでは、物語の表現力を向上させることに焦点を当てる • 批判者がセリフをより表現力のある言葉に置き換え、描写を変える • ペルソナを導入することで、批評者が特定の物語の要素に焦点を当て、より詳細で文脈に即した批評が行えるため、物語計画の質が向上テキストの描写を変えた例ペルソナの導入効果 Agentic AI Systems 10月21日更新分

ShapefileGPT: A Multi-Agent Large Language Model Framework for Automated Shapefile
Processing Shapefileの操作は専門的なGISの知識とスキルを必要とするため、GIS以外の研究者にとっては使用が困難 ShapefileGPTはプランナーとワーカーでShapefileのタスクを自動化する Shapefileの処理に特化した関数ライブラリを開発し、APIドキュメントを用意することでエージェントが使えるタスクはジオメトリ操作、空間クエリと計算、距離と方向の操作都市計画、環境科学、農業、公共衛生の分野で、専門的なGISソフトウェアなしでデータ解析を実行できるようになる Agentic AI Systems 10月21日更新分

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active
Assistance エージェントがユーザのニーズを予測して積極的にタスクを提案するプロアクティブエージェントを提案 Proactive Agentのアルゴリズム • エージェントは、ユーザーの活動、環境イベント、状態を観察し、タスクの予測をする • タスクの予測をおこないユーザーが受け入れた場合、もしくはユーザーが不要なタイミングに予測しなければ正の報酬 • ユーザーが必要としたときにタスク予測できない場合、もしくは予測しても拒否された場合は負の報酬 • 報酬が最大になるよう学習する Qwen2-7B-Proactiveモデルが最も高いF1スコア（66.47%）を達成し、他のオープンソースおよびクローズドソースのモデルを上回ったが、誤報が多くて使い心地は悪いかも Recall：ユーザーが必要としているアシストを正しく予測できた Precision：提案されたタスクのうち、ユーザーが実際に受け入れた Agentic AI Systems 10月21日更新分

Agentic Information Retrieval エージェント型情報検索（Agentic IR）の概念を提案 Agentic IRのアーキテクチャは、メモリ、思考、外部ツールの使用を組み合わせ、エージェントが複数ターンを通じてユーザーや環境とインタラクティブに相互作用する設計応用例：ライフアシスタントではユーザーの予定管理やリアルタイム情報を提供、ビジネスアシスタントでは財務データの分析やマーケティング戦略の支援、コーディングアシスタントは、コードの生成やデバッグを自動化
し、開発者の生産性を向上させる従来のIR方法に比べ、汎用的な設計ビジネスアシスタントの例 Agentic AI Systems 10月21日更新分

HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR
Applications Amazonから人事関連の反復的なプロセスを自動化するためタスク指向型対話システムの提案 • LLMを使い、エンティティ選択、エンティティ抽出、質問生成、API連携する • 休暇の申請、福利厚生に関する問い合わせ、求人の応募、オンボーディングの案内、研修申請、職場の問題報告、従業員調査の参加、HR関連のポリシーの取得に利用できる • ユーザーが入力した情報から必要なエンティティ（例えば、医療請求に必要な情報など）を正確に抽出する • システム応答が長いと離脱されるため、理想的な応答時間は2秒以内で、94%のケースでこの応答時間を実現している HR-Agentは、タスク処理の効率性、応答時間、ユーザー満足度において他のシステムを上回る成果を示す Agentic AI Systems 10月21日更新分

Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise 経験の浅い教育者がリアルタイムで専門家のようなアドバイスを受けられるTutor
CoPilotを提案 Tutor CoPilotは、チャットやホワイトボード上でのやりとりを解析し、適切なガイダンスを生成 900人のチューターを対象に、Tutor CoPilotが学生の学習成果にどのような影響を与えるかを調査 Tutor CoPilotが複雑な概念を分かりやすく説明するのに役立つと高評価を得ている一方で、学生の学年レベルに適さないアドバイスが生成されることがあるとの指摘 Agentic AI Systems 10月21日更新分

AI-Press: A Multi-Agent News Generating and Feedback Simulation System Powered
by Large Language Models LLMによるニュース生成には専門性や倫理的判断の欠如、世論の反応を予測するのも困難マルチエージェントとRAGを活用した自動ニュース作成・洗練システムのAI-Pressを提案 • ニュース作成：ニュースの材料や情報を収集し、初期のニュース草案を作成する役割 • ニュース洗練：初期草案を何度も編集し、最終的な高品質なニュースに仕上げる役割 • シミュレーション：世論フィードバックをシミュレートし、フィードバックに基づいて内容を調整する役割ニュースの網羅性、深さ、客観性、重要性、読みやすさの面で優れた評価を得た Agentic AI Systems 10月21日更新分

LLMs May Not Be Human-Level Players, But They Can Be
Testers: Measuring Game Difficulty with LLM Agents 人間のテスターがゲームの難易度を評価してきたが、時間とコストがかかっていた AdobeからLLMを使ってゲームの難易度を測定するフレームワークを提案 LLMエージェントは、シンプルな推論技術（Chain-of-Thought）を使うことで、人間のプレイヤーが感じる難易度と強い相関を示した LLMが効果的なゲームテストエージェントとして機能する可能性がある将来的には、ゲームのバグ発見やゲームプレイのバランス調整にも役立てることを期待 Agentic AI Systems 10月21日更新分

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback
訓練データ作成を自動化するためのテストベッドDataEnvGymを提案従来は人間がモデルの弱点を分析し、データを作成する必要があったが、このプロセスを自動化するデータ生成エージェント（教師）を使って生徒モデルの精度改善することを目的とする DataEnvGymには3つの異なる環境が用意されている • OPEN-ENDED環境：制約が少なく、エージェントが自由にデータを生成する環境（特定のタスクの性能向上に難） • SKILL-LIST環境：必要なスキルに基づいたデータ生成をおこなう環境（特定のスキルに対する改善可能） • SKILL-TREE環境：必要なスキルを階層的に整理し、スキル間の関係を考慮したデータ生成を行う環境（細かいスキルに焦点を当てられる）どれも似たり寄ったりな精度。生徒モデルの性能（状態）に応じたデータ生成の方がわずかに良さそう Agentic AI Systems 10月21日更新分

Mentigo: An Intelligent Agent for Mentoring Students in the Creative
Problem Solving Process 中学生の創造的問題解決（CPS）を支援するメンターエージェントシステム「Mentigo」を提案創造的問題解決は、創造的かつ批判的な思考を用いて、新しい視点やアイデアを駆使し、複雑な問題に対して効果的な解決策を導き出すプロセス問題発見、情報収集、問題定義、解決策の創出、解決策の評価、解決策の実行でインタラクティブな対話をする MentigoのDBには、学生の進行状態や各CPSステージ、学生の状態に対応する指導戦略が含まれている生徒は「スマートホームの課題」と「低炭素キャンパスの課題」のCPSタスクに取り組み学生のエンゲージメント、認知的スキル（特に分析・評価・創造能力）を大幅に向上させることが実証された Agentic AI Systems 10月7日更新分

Control Industrial Automation System with Large Language Models LLMエージェントを産業自動化システムに導入するフレームワークを提案産業自動化には階層があり、上層からエンタープライズ、運用管理、制御、フィールドとなる
• エンタープライズは、マネージャーエージェントが生産計画や資源管理など、高レベルの管理をおこなう指示例「今週の生産スケジュールを見直し、次週の計画を立ててください。」 • 運用管理では、マネージャーエージェントが工場の運用をリアルタイムで管理し、生産ライン全体の性能を最適化指示例「新しい注文に基づいて、2番目の生産ラインを再構成してください。」 • 制御レベルでは、PLCやDCSを通じて、フィールド層の機械や装置をリアルタイムで制御指示例「3番目のコンベアを5分間、前進方向で稼働させてください。」 • 全層で要約エージェントが全層からのデータを収集し、システムの状態を要約指示例「本日の生産ラインのパフォーマンスを生産量、効率、不具合発生率などを含めて報告してください。」 Agentic AI Systems 10月7日更新分

Agents' Room: Narrative Generation through Multi-step Collaboration Google DeepMindから創造的な長編物語を作成するマルチエージェントシステムを提案物語の創作は、徹底的な計画、興味を引く文体、一貫したストーリーテリングが求められる。
計画エージェントはキャラクターの描写や物語の骨組みを考案し、執筆エージェントが最終的なテキストを生成エージェントは情報を「スクラッチパッド」に保存し、他者と情報を共有することでタスクの一貫性を保つ全体のプロセスはオーケストレータによって管理され、必要なエージェントを呼び出し、タスクの進行を調整結果はまだ人間には及ばない。特にありきたりな物語でなく、オリジナリティのある創造性がまだ不十分。 LLMによる評価では提案手法が人間に迫る勢いだが、単にLLMが自分の回答を気に入っているだけかもしれない。 Agentic AI Systems 10月7日更新分

ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data- Driven
Scientific Discovery LLMエージェントが科学的発見における各タスクをどの程度、遂行できるかを評価するベンチマーク • バイオインフォマティクス、計算科学、地理情報科学、心理学・認知神経科学の分野から44本の査読論文をもとに102のタスク • 評価はタスクの成功基準を満たす(SR) コードの類似性(CBS) エラーなしの実行成功率(VER). コストで新規性とかではない性能を見るとSelf-Debugが良さそうで、CodeActはコストがかかっているだけでシンプルな方法で良さそう Research Agents 10月21日更新分

Chain of Ideas: Revolutionizing Research in Novel Idea Development with
LLM Agents LLMを用いた新しい研究アイデアの生成手法Chain-of-Ideas (CoI)エージェントを提案 • 研究テーマの文献を探索し、Anchor Paperの引用や参照文献をもとに、過去の研究と最新の研究を鎖で整理 • LLMが次に進むべき研究の方向性を予測し、段階的に新しい研究アイデアを生成 • 過去の文献に含まれる実験計画を参考にしつつ、新たなアイデアを実行に移すための実験設計独創性や意義があるアイデアが生成され、技術的な質や明確さの点でも高評価、ただ実現可能性が若干劣る Research Agents 10月21日更新分

Two Heads Are Better Than One: A Multi-Agent System Has
the Potential to Improve Scientific Idea Generation VIRSCI（Virtual Scientists）はマルチエージェントシステムで、科学的なアイデア生成プロセスをシミュレート 1. 協力者の選定：リーダーエージェントが他のエージェント（科学者役）を選び、研究チームを編成 2. トピックディスカッション：チームが研究トピックを話し合い、最も有望なテーマを決定 3. アイデア生成：チームメンバーが各自の専門知識を活かして、具体的な研究アイデアを提案し、それを評価 4. 新規性評価：提案されたアイデアの新規性や独自性を、過去の研究と比較しながら評価 5. アブストラクト生成：最も優れたアイデアを選び、研究論文の概要（アブストラクト）を生成評価指標に、過去の論文との類似性、現代の研究との類似性、現代の研究との関連性と影響力を測るチームメンバーが増えすぎるとコストもかかり、新規性が下がる。最適は8名だった Research Agents 10月21日更新分

dZiner: Rational Inverse Design of Materials with AI Agent AIエージェントを活用した材料設計の逆問題設計手法
dZiner を提案特定の物性（例えば、結合親和性や吸着能力）を目標として分子構造を設計する dZinerは、目標とする特性と初期分子を入力し、エージェントが設計ガイドラインの取得→分子の修正→合成可能性と化学妥当性の検証→サロゲートモデルの結果の評価→収束判定をする Claude 3.5 Sonnetエージェントが他のモデルに比べて一貫して高い性能を発揮した Research Agents 10月21日更新分

SWE-Bench+: Enhanced Coding Benchmark for LLMs SWE-Bench の改善とその評価の妥当性を議論もともとのSWE-Benchには2,294件の課題が含まれており、Pythonリポジトリから集められた実際のバグレポートや新機能のリクエストが含まれている
SWE-Benchの課題 • 解決策がレポートやコメントに明示されている「ソリューションリーク」がある（既存手法では正解の約32%が依存） • テストケースの弱さにより誤ったパッチが通過してしまう（既存手法では正解の31%でおこっていた） SWE-Bench＋の提案 • LLMの学習カットオフ日以降に作成された課題のみを含め、解法がレポートやコメントに含まれていないものに限定 • 最も高性能なAutoCodeRover(gpt-4o)でも解決率は 3.83%、従来の18.83%と比較して大幅に低下疑わしい正解の内訳 Software Agents 10月21日更新分

HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at
Scale FPTからSWEにおける多様なタスクを自動化する汎用的なマルチエージェントシステムを提案 4つのエージェント（Planner、Navigator、Code Editor、Executor）から成り、複雑なタスクに対応する GitHubのIssue解決(SWE-bench)、リポジトリレベルのコード生成(RepoExec)、バグの切り分けや修正 (Defects4J)で評価性能を見ると、GitHubのIssue解決は特化型エージェントの方がわずかに精度が高く見えるが、その他は最も高い精度を発揮していた HyperAgentのシステム 10月7日更新分 Software Agents

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering OpenAIからエージェントの機械学習エンジニアリング能力を評価するベンチマークMLE-benchを提案
Kaggleの75のコンペティションが題材でAIDEと呼ばれる機械学習に特化したエージェントを利用エージェントがデータの前処理、モデルの学習、実験の評価を繰り返しおこなう AIDEはソリューションの生成器、評価者、選択器を繰り返し利用することで徐々にアルゴリズムを改良していく実験の結果ではo1-previewを75のコンペの1回の試行(500stepまでか24h以内)で、平均16.9%でメダル圏内まで進めている AIDEの探索の図各ノードに思考とコードがある MLE-benchの流れ Data Agents 10月21日更新分

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML 既存のAutoMLシステムでは技術的な専門知識を必要とし、設定が複雑であるため、多くのユーザーが利用しにくい AutoML-Agentはデータ取得、前処理、モデル設計、ハイパーパラメータ調整、デプロイメントまでカバーしている
各エージェントが図のように自己の役割を全うする画像分類、テキスト分類、時系列予測など7つのタスク14のデータセットで評価提案手法(赤)は成功率で、成功の基準はユーザーが設定した特定の制約や条件（例えば、推論時間が100ミリ秒以下、精度が95%以上など）を満たした割合であり、かなり高い水準を維持しているタスク成功率 Data Agents 10月21日更新分

DA-Code: Agent Data Science Code Generation Benchmark for Large Language
Models データサイエンスのコード生成タスクのDA-Codeベンチマーク DA-エージェント • Docker上に構築された環境内で動作し、Bash、Python、SQL、 Terminateを行動空間に持つ • 標準出力、エラーメッセージ、タイムアウト、失敗成功などを応答するさまざまなLLMをDA-Codeベンチマークで評価した結果、現時点では30.5%の精度しか達成できていないエージェントフレームワーク（OpenDevin、AutoGen、X-Agentなど）と比較しても優れているベンチマークの内訳モデルごとのDA-Agentの性能比較エージェント間の性能比較 Data Agents 10月21日更新分

Data Analysis in the Era of Generative AI 生成AIがデータ分析のプロセスにどう活用できるのか、人間とのインタラクションのあり方を考察した研究データ分析のプロセスには、タスクの定式化、データの収集、探索的な分析、仮説の生成と検証、結果の報告が含まれる。
生成AIがデータ分析でできること • 既存のデータから適切なデータを見つけ、DBやWebからのデータ抽出、データクレンジングや異常検出、データ統合 • ドメイン知識に基づく探索的分析や、タスクやデータに基づいた適切な統計的評価 • ライブラリやツールの深い理解不要で、可視化やテーブル、構造化データの生成 • 分析や仮説を検証し、生成されたインサイトを分析 • 対話的な意思決定支援、分析に基づく推薦、カスタマイズされたプレゼンテーションやダッシュボード生成データ分析システムの設計上の注意 • ユーザーが自然言語で意図を伝えやすく、システムがそれを理解して適切な出力を生成できること • マルチモーダルな入力（テキスト、音声、ボタン）を組み合わせ、ユーザーが自然に意図を伝えられる仕組みがあること • 分析結果や視覚化は、ユーザーにとって理解しやすく、検証・修正可能であること • 生成AIが視覚化やレポート作成の提案を行い、ユーザーがその提案に基づいてさらに微調整を行えること 10月7日更新分 Data Agents

Navigating the Digital World as Humans Do: Universal Visual Grounding
for GUI Agents SeeAct-Vは、環境を視覚的に観察し、直接ピクセルレベルでGUI操作を行うエージェント • HTMLやアクセシビリティツリーなどのテキストベースの情報を必要としない • GUI上のピクセル座標の指定はUgroundモデルが推定することで実行率を高める • UGroundは、10MのGUI要素と1.3Mのスクリーンショットから成る大規模なデータセットで訓練されている確かに向上しているがまだ劇的な改善に至っていない Digital Agents 10月21日更新分

Agent S: An Open Agentic Framework that Uses Computers Like
a Human Agent Sは、GUIを通じて自律的にPCとインタラクションし、複雑なデスクトップタスクを自動化する外部知識や内部経験からタスクを計画し、サブタスクを実行する OSWorldおよびWindowsAgentArenaで評価しているが、全体的にgpt-4o単体より数%の改善だけ GUIの要素を正しく認識・操作する能力が乏しく、認識精度を上げる必要がある反復的行動の防止や、行動の反省・改善を行う機能を強化し、エージェントの実行能力を向上させる必要がある Digital Agents 10月21日更新分

AGENTOCCAM: A Simple Yet Strong Baseline for LLM-Based Web Agents
AmazonからWebエージェントのAGENTOCCAMを提案 • 他のエージェントに比べて追加モジュールやサンプル、オフラインデータ、オンライン検索を使用せずに高い性能を実現 • 観察空間と行動空間の調整に力を入れている • 多くのWebエージェントは、Webページ上のすべての情報をそのまま観察対象とする • 観察のHTML要素をMarkdown形式に変換し、Webページをより短く、LLMが処理しやすい形式に変換 • ページ上で不必要なスクロールやタブ操作を削減し、重要な操作に集中できるようにする • branchとpruneという計画アクションを導入し、複数の選択肢を考慮しながらタスクを進める • 毎ページ工夫を施すため、時間はかかるが無駄な行動が減り結果的にタスクが早く終わる行動空間の工夫観察空間の工夫 Digital Agents 10月21日更新分

A Survey on Complex Tasks for Goal-Directed Interactive Agents 目標指向のインタラクティブエージェントのサーベイ
タスクの目標は、環境の特定の状態に到達すること、または質問に回答することの2種類ナビゲーションとオブジェクト操作 • 物理的またはシミュレーション環境でオブジェクトを操作し、目標を達成するデジタルアシスタント • ツールやAPIを使用してデジタルな環境でタスクを実行し、ユーザーを支援 GUIインタラクション • ウェブページやモバイルアプリのGUIと直接対話し、タスクを完了コードインタープリタ • コードインタープリターを利用し、プログラムを実行したり、コードベースのタスクを完了 10月7日更新分 Digital Agents

MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents
Embodied エージェント向けの過去のマルチモーダルな軌跡データの検索手法を提案 • MLLMの検索器はタスク指示と現在の観察画像と検索対象の軌跡データを入力し選好度を推論する • 選好度の高い軌跡を選び、その軌跡からMLLMに重要なシーンを予測させ軌跡を要約させる検索結果が表面的な画像の類似性だけでなく、タスクの成功に寄与する軌跡を検索でき、情報をコンパクトにすることができる MLLMの学習には選好学習するため、各軌跡が寄与したかを評価する必要があるためコストは高い関連度の高い過去軌跡をどう手に入れるかが肝になる Embodied Agents 10月21日更新分

Mars: Situated Inductive Reasoning in an Open-World Environment 人間のような帰納的推論がエージェントにできるかテストできるMars環境と手法を提案帰納的推論に求められる二つの要素
• 具体的な状況でその場にある情報や知識を利用して推論を行う状況性（situatedness） • 過去の経験から一般的で抽象的な法則や規則を導き出す抽象性（abstractiveness） Marsは既存環境のCrafterを改良し、地形や生存条件、タスクの依存関係などがランダムに変更され、エージェントはその中でタスクを完了するために新しい知識を学び、それを適用する必要がある Induction from Reflectionは、過去の行動履歴からルールを導出し、スキルライブラリに管理する手法スキルライブラリが蓄積されるにつれて、過去の経験を活かしたスコアは向上したが、28%に留まっている Embodied Agents 10月21日更新分

GenSim: A General Social Simulation Platform with Large Language Model
based Agents LLエージェントベースのシミュレーションプラットフォームGenSim の提案 GenSimでは、10万のエージェントをサポートし、並列計算を活用して効率的なシミュレーションを実現映画ウェブサイトにおけるユーザーの映画の評価シミュレーションを行い、異なる規模のエージェント数で結果の変動を比較したエージェント数が32万や320万に増えると、ユーザー評価結果の変動が大幅に減少し、信頼性が向上した Gensimの応用例 • エージェント同士の就職市場での活動をシミュレーション • ユーザーの行動データをもとに商品やコンテンツの推薦を行う推薦システムをシミュレーション • エージェント同士が議論を行うグループディスカッションのシミュレーション • 有名な映画データセットを用いたユーザーのアイテム（映画）評価シミュレーション • 市民や政府関係者に設定し、都市のインフラ計画や政策の影響をシミュレーション • 教師や生徒役で教育方針の効果シミュレーション Multi Agent Systems 10月21日更新分

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining マルチエージェント協調によるLLMの事前学習のデータ選択手法を提案 •
既存手法（データの質の高い部分を選別する、複数のドメインからデータを混ぜる、モデルの性能に影響を与えるデータを動的に選ぶ）を独立したエージェントとして扱う • 各エージェントの貢献度（各データの質のスコアの重みづけ）を動的に調整しながらデータを選択する • LLMエージェントでは全くない LLMの訓練の収束が加速し、複数のベンチマークにおいて従来の最先端手法と比較して最大10.5%の性能向上を達成データセットの質のトレードオフデータのスコア基準 Multi Agent Systems 10月21日更新分

Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts
MASによる自動プロンプト生成手法を提案プロンプトの自動生成は3つのグループが連携し、反復的におこなわれる（右図） 1. 分析グループ: ユーザーの要求を解析し、必要なモジュールを選択する（左図） 2. 設計グループ: モジュールごとの設計を行い、プロンプトを生成する 3. テストグループ: 生成されたプロンプトを使用してLLMの性能を評価し、エージェント同士のディスカッションを通じてフィードバックを提供する Multi Agent Systems 10月7日更新分

RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance
コード生成の精度を向上させるマルチエージェントフレームワークRGDを提案ガイドエージェント • タスクの説明に基づいてコード生成のためのガイドを生成 • ガイド例「ユーザーの入力を解析し、適切な日付フォーマットに変換する。その後、Pythonのdatetimeモジュールを使用して曜日を計算し、結果を返す関数を作成する。」 • メモリから関連する過去の成功事例を参照して、ガイドの品質を向上させるデバッグエージェント • ガイドエージェントによって生成されたガイドを基に、初期のコードを生成 • コードがすべてのテストケースに合格するまで、このプロセスは反復フィードバックエージェント • 実行結果から失敗したテストケースと成功したテストケースを分析し、失敗の原因を特定して修正案を提供 Multi Agent Systems 10月7日更新分

From Facts to Insights: A Study on the Generation and
Evaluation of Analytical Reports for Deciphering Earnings Calls 収支報告を活用した分析レポートの自動生成をマルチエージェントフレームワークで実現 • 投資家役が、レポートに含めるべき特定の情報や分析を指定する • 執筆者役が、初稿を作成し、他のエージェントがフィードバックを提供する • 分析者役が、過去の財務データを分析し、レポートにどのように組み込むかを指摘 • 心理学者役が、音声から経営陣の自信の度合いや不確実性を評価し指摘 • 編集者役が、レポートが目標とする聴衆に適しているかどうかを指摘投資家役がレポートの最終版を承認するまで繰り返しレビューと改善をする生成レポートは洞察に富み、情報が包括的で、将来的な展望に富んだ内容になるマルチエージェントワークフロー Multi Agent Systems 10月7日更新分

Weekly AI Agents News! 10月号 論文のアーカイブ

Weekly AI Agents News! 10月号 論文のアーカイブ

More Decks by masatoto

Other Decks in Research

Featured

Transcript

Weekly AI Agents News! 10月号論文のアーカイブ

Weekly AI Agents News! 10月号論文のアーカイブ