$30 off During Our Annual Pro Sale. View Details »

Weekly AI Agents News! 9月号 論文のアーカイブ

masatoto
October 03, 2024

Weekly AI Agents News! 9月号 論文のアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

masatoto

October 03, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論文 9月分 プロフィール ・PingPong: A Benchmark for Role-Playing Language Models

    with User Emulation and Multi-Model Evaluation 推論 • LOGICGAME: Benchmarking Rule-Based Reasoning Abilities of Large Language Models • To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning • Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning • Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent • MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning 自己修正 • CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction • An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation ツール利用 • Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature • ToolACE: Winning the Points of LLM Function Calling メモリ • Self-evolving Agents with reflective and memory-augmented abilities • Agent Workflow Memory
  2. 論文 9月分 評価 • A Survey on Evaluation of Multimodal

    Large Language Models • RAD-Bench: Evaluating Large Language Models’ Capabilities in Retrieval Augmented Dialogues 安全性 • Safeguarding AI Agents: Developing and Analyzing Safety Architectures Agent framework • xLAM: A Family of Large Action Models to Empower AI Agent Systems • Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots Agentic AI Systems • MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents • Large Language Model-Based Agents for Software Engineering: A Survey • AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction • Can LLMs Generate Novel Research Ideas? • SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning • DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? • Agents in Software Engineering: Survey, Landscape, and Vision
  3. 論文 9月分 Multi Agent Systems • Into the Unknown Unknowns:

    Engaged Human Learning through Participation in Language Model Agent Conversations • Agentic Retrieval-Augmented Generation for Time Series Analysis • Persuasion Games with Large Language Models • MEDCO: Medical Education Copilots Based on A Multi-Agent Framework • AUTOGEN STUDIO: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems • BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi- Agent Systems • Focus Agent: LLM-Powered Virtual Focus Group • Using Generative Agents to Create Tip Sheets for Investigative Data Reporting Computer Controlled Agents • Windows Agent Arena Evaluating Multi-Modal OS Agents at Scale
  4. PingPong: A Benchmark for Role-Playing Language Models with User Emulation

    and Multi-Model Evaluation LLMのロールプレイ能力を評価するためのベンチマークPingPongを提案 ベンチマークは3人の役割で構成される • プレイヤー:キャラクターを演じる • 質問者:ユーザー行動をシミュレートする • 審判者:対話の質を評価する 評価基準:キャラクターの一貫性、エンターテインメント性、言語の流暢さ 評価のバイアスを減らすため、審判者は複数のモデルで平均する 人間によるアノテーションとの相関が高さではClaude 3.5 Sonnetが最も高い評価 Agent Capabilities:プロフィール 9月23日 更新分
  5. LOGICGAME: Benchmarking Rule-Based Reasoning Abilities of Large Language Models LLMの規則(ルール)に基づく推論能力を評価するベンチマーク「LOGICGAME」を提案

    LOGICGAMEは、ルール理解、実行、計画能力を評価することを目的とする タスクは計画と実行のカテゴリがあり、計画では数独、マインスイーパー、論理方程式など、実行では文字列分 割、文字列再配置、文字列挿入がある 最も性能の高いモデルでも20%程度の精度にとどまり、特に難易度の高い問題では10%以下 • モデルが一般的な知識や経験に依存せず、明示的に与えられたルールのみに基づいて推論する能力に課題あり • モデルが複雑な戦略的思考や長期的な意思決定を正確に行うことが難しい • 少ないショット数では性能が向上しない場合が多く、計画タスクでは逆に性能が低下する • モデルが少ないコンテキストから学習し、新しい問題に適応することが困難であることが示された Agent Capabilities:推論 9月9日 更新分
  6. To CoT or not to CoT? Chain-of-thought helps mainly on

    math and symbolic reasoning Chain-of-Thought (CoT) の有効な問題範囲を把握するため、著名な学会の論文をメタ分析かつ実験も実施 数学や記号的推論に対して有効性があり、特に数式を含む問題で効果を発揮することが多い 常識的推論や知識ベースの質問応答などの非記号的推論には効果なし CoTは推論過程の可視化に優れている一方で、複雑な計算はCoTなしのPlan+Tool Solverの方が精度が高い Agent Capabilities:推論 4位 1位 3位 2位 Bad Good 9月23日 更新分
  7. Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language

    Model Reasoning LLMの推論フレームワークIteration of Thought (IoT)を提案 内的対話(IDA)で推論結果に指示や問いかけをし、動的に推論パスを調整しながら応答を改善 IDAの例:「その答えをもう少し詳しく説明してください。」「先ほどの回答で考慮していなかった要素はありますか?」「異なる 角度から問題を再考してみましょう。」「他の選択肢を考慮しましょう」 IoTは内的対話を繰り返し、反復が規定回数か、自身の応答の質に基づいて反復を停止する 内的対話の方向性で、多様な解決パスを探索し、特にパズルやクロスワードのタスクで高い成功率だった 複数の文書にまたがる情報を統合するタスクにおいても他の手法を上回る正確さだった ほぼMulti Agent Debateの範疇だと思う Agent Capabilities:推論 9月23日 更新分
  8. Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent LLMの推論能力を強化するために、マルチエージェント戦略を取る手法を提案 •

    複数の推論エージェントがToTを使って並行して推論パスを探索し、Thought Validatorが各推論パスを評価 • 誤った推論パスは排除され、最終的な投票メカニズムに基づき、信頼性の高い解答を得る Thought Validatorプロンプトの検証項目 • 推論の全過程が元の質問に適切に対応しているか • 推論が論理的で一貫しているか • 推論の中で使用される数値や事実が正確であるか • 推論が元の質問を全ての側面で適切に解決しているか • 推論の中に潜在的なエラーや弱点がないか 性能の高いモデルでは精度向上幅は小さいが、精度の低いモデルだと9%近く改善した Agent Capabilities:推論 9月23日 更新分
  9. MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning LLMの推論能力を向上させる新しいフレームワークMAGICOREを提案 • 複数の推論パスを生成し、プロセス報酬モデルのように各推論ステップと回答をLLMがそれぞれ評価する

    • プロセス評価からどのステップが誤っているかを発見し、回答を改善し評価する • このプロセスを繰り返し、回答が十分に改善された時点でリファインメントを終了 Llama3-8BやGPT-3.5-turboのように精度が低いモデルを使うと精度が向上している コストが下がった今、性能の高いモデルを使わない理由がこの手法で精度が向上しなかったからとしか思えない Agent Capabilities:推論 9月23日 更新分
  10. CoT Rerailer: Enhancing the Reliability of Large Language Models in

    Complex Reasoning Tasks through Error Detection and Correction CoTは中間ステップで誤りを累積させる可能性があるためCoT Rerailerを提案 CoT Rerailerは、自己一貫性とMulti-Agent Debateを用いて、推論過程の誤りを修正 1. 誤りの検出 • 複数のCoT推論パスを生成し、 Self-Consistency をおこなう • 一貫性がない場合、最も誤りが少ない推論パスを判定 2. 誤りの修正 • 推論パスを個々のステップに分解し、順番に各ステップの誤りを評価 • 誤りを見つけたら、修正案を提案者、批判者、評価者によるMADで生成 3. 修正された推論パスの再生成 • 修正された推論パスを用いて、残りの推論ステップを再生成 Agent Capabilities:自己修正 9月9日 更新分
  11. An Empirical Study on Self-correcting Large Language Models for Data

    Science Code Generation 自己修正とCoTプロンプトを利用し、生成されたコードを段階的に改善する手法の提案 • 提案手法の流れは、外部知識の取得と初期コード生成、文法チェックとコード実行、フィードバックによる反復修正 データサイエンスのコード生成タスクで評価 • PyTorch、Sklearn、Matplotlibにおいて、従来のモデルよりも優れた結果を達成 改善回数を増やすことで、モデルのパフォーマンスは大幅に向上(右表) • 改善回数を1回から5回に増やすと、全体的な精度は14.0%から83.2%に向上 • 最初の回答から1回目の改善にかけて精度が急激に改善 Agent Capabilities:自己修正 9月9日 更新分
  12. Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific

    Literature Agent Capabilities:ツール利用 研究者が特定のトピックに関する知識を体系的に探索できるよう支援するツールKnowledge Navigator を開発 LLMとクラスタリングを組み合わせ、階層的にトピックを整理する 1. 文書のタイトルや概要を埋め込み、UMAPで低次元化しGMMでソフトクラスタリング 2. サブトピック名と概要をLLMが生成し、無関係なサブトピックをLLMがフィルタリング 3. 各サブトピックをテーマごとにLLMでグループ化 今後はKnowledge Navigatorの出力を他のタスクやエージェントの計画に組み込み拡張することを検討している 9月9日 更新分
  13. ToolACE: Winning the Points of LLM Function Calling LLMの関数呼び出し能力を向上させるToolACEというデータ生成パイプラインを提案 人工APIデータの生成:APIの種類やデータ構造の多様性を保つ工夫し、26,507種類のAPIを生成

    マルチエージェント対話生成:逐次呼び出しや並列呼び出しを含む人工APIを使った対話データの生成 • データの2層による検証プロセス • ルールベースの検証:API名が正しいか、すべての必要なパラメータが提供されているか、パラメータの形式が正しいか • モデルベースの検証:モデルを使って、生成されたデータが論理的に一貫しているか Agent Capabilities:ツール利用 BFCL-v2 leaderboard (08/16/2024) 9月9日 更新分
  14. Self-evolving Agents with reflective and memory-augmented abilities 自己進化型エージェントSAGEフレームワークを提案 • アルゴリズム:記憶を参照しタスクの実行→フィードバックの取得→内省と改善→記憶の管理→次のタスクへ

    • 内省:タスクにおける成功や失敗の原因を特定し、将来の改善点を明らかにするためのプロセス • メモリ:短期記憶は時間の経過とともに忘却していき、重要度が高い内容は保持され、残りは長期記憶に保存 記憶には知識、解決策、フィードバックを保存し、重要度は、情報の関連性、希少性、汎用性、頻度で決める Agent Capabilities:メモリ 9月9日 更新分
  15. A Survey on Evaluation of Multimodal Large Language Models 1/2

    Agent Capabilities:評価 9月9日 更新分
  16. A Survey on Evaluation of Multimodal Large Language Models 2/2

    Agent Capabilities:評価 MLLMの評価に使用されるタスクを一般的なタスクと特定のタスクに分けている 特定のタスクのAIエージェントに関して紹介 Mobile-Agent:AIエージェントのUIのナビゲーション能力を評価 評価:ナビゲーションの精度、目標達成能力、UIの認識の適切さ VisualAgentBench:視覚情報を利用してタスクを実行する能力を評価 評価:視覚情報の処理能力、タスクの成功率、視覚推論能力、環境の動的変化への適応能力 EgoPlan-Bench:エージェントが自己の視点を用いてタスクを計画・実行する能力を評価 評価:視覚的計画立案能力、タスクの順序管理、長期的な目標達成能力 PCA-EVAL:エージェントの知覚と行動の統合能力を評価 評価:知覚情報の正確な解釈、適切な行動選択、マルチステップ推論能力 OpenEQA:エージェントが視覚とテキスト情報からオープン質問に答える能力を評価 評価:視覚とテキストの統合能力、質問に対する応答の正確性、視覚情報の解釈力 Ferret-UI:UIを操作するエージェントの能力を評価 評価:UIの理解と操作能力、タスク完遂力、UIとのインタラクション Crab:複雑な制御タスクを実行するエージェントの能力を評価 評価:操作精度、動作の滑らかさ、目標達成能力、タスクに対する適応性。 9月9日 更新分
  17. RAD-Bench: Evaluating Large Language Models’ Capabilities in Retrieval Augmented Dialogues

    マルチターンRAGの評価ベンチマークの提案 Retrieval Synthesis(取得情報の統合) • 外部から取得した情報を知識統合し、深める • ニュースの要約:過去の出来事、専門家の意見、最新動向を統合してニュース記事を書く • 教育資料の作成:深みのある教育コンテンツを段階的に作成する • 学術論文の執筆:学術論文の「Related Work」セクションなどを執筆する Retrieval Reasoning(取得情報の推論) • カスタマーサポート:取得した外部情報を基に、段階的に問題を絞り込み、解決に導く • 金融分析:アナリストが、取得した財務データをもとに企業の財務分析を行う • 旅行計画:外部データベースから取得した情報をもとに、旅行プランを提案する • 一次回答から個別回答へ、簡単な分析から複雑な分析へ、基本的な提案から予算や日程に合わせた詳細な提案へ 結果 旅行計画以外はマルチターンRAGで10点中高い結果を出した 推論は段階的に難しくなるためターン数の増加に伴い精度低下 統合は何回もおこなうと関連性が取れず精度が落ちる可能性がある Agent Capabilities:評価 9月23日 更新分
  18. Safeguarding AI Agents: Developing and Analyzing Safety Architectures SuperAGI からAIエージェントシステムの安全性向上に向けたフレームワークを提案し、評価

    憎悪とハラスメント、違法な武器と暴力、規制薬物、自殺と自己傷害、犯罪計画の5つのカテゴリに分類された21 の危険なプロンプトを使用して、各フレームワークの安全性を測定 1. LLMベースの入力・出力フィルタリング • LLMを使って、AIエージェントの入力と出力をフィルタリングし、不適切または危険なコンテンツの生成を防ぐ • シンプルかつ迅速に危険なプロンプトや出力をブロックしますが、柔軟性に欠ける 2. 安全エージェントの導入 • システム内に安全エージェントを組み込み、AIエージェントが生成した出力を監視・修正して、安全性を確保する • 危険な出力を部分的に修正するため、柔軟かつ中程度の安全性を提供 3. 階層的な安全管理システム • システム全体で安全性を監視する管理エージェントを導入し、各エージェントが行うタスクごとに安全性を確保する • システム全体で最も高い安全性を提供しますが、処理時間とリソース消費が大きくなる Agent Capabilities:安全性 0が危険、3が安全 9月23日 更新分
  19. xLAM: A Family of Large Action Models to Empower AI

    Agent Systems Salesforce からAIエージェントタスク向けに設計された大規模アクションモデル「xLAM」シリーズを提案 xLAMが複数のエージェント能力ベンチマークであるWebshop、ToolQuery、ToolBenchで優れた成績を収め、特 にBerkeley Function-Calling Leaderboardでは1位を獲得した 学習パイプラインはデータの生成から品質評価、拡張をおこない学習後のベンチマーク評価結果からデータの質 を高めるようにデータ改善パイプラインを作っている BFCL-v2 leaderboard (cutoff date 09/03/2024) 9月9日 更新分 Agent Framework
  20. Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots TencentからLLMエージェントCognitive

    Kernelを提案し、自動的にタスクを完了するシステムの実現を目指す Cognitive Kernelは、推論カーネル、知覚カーネル、メモリカーネルで構成される • 推論カーネル:システムの中心で、タスクを理解し、次に実行すべきアクションを決定する • 知覚カーネル:システムが環境から情報を収集する部分で、Webやローカルファイルからリアルタイムの情報を取得 • メモリカーネル:過去のタスクや状態を記録し、長期的なタスクの遂行に役立つ Web上の情報収集とタスク、アップロードしたファイルのQA、会話履歴の取得に基づくQAで評価 ChatGPT、Kimi-Chatなどと比較して競争力のある、またはそれ以上の性能を示した Agent Framework 9月23日 更新分
  21. MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models

    Agents 自律的な機械学習研究フレームワークMLR-Copilotを提案 研究アイデアの生成、実験の実施、修正の3つのフェーズから構成 1. 研究アイデアの生成 既存の研究論文から研究課題を抽出し、仮説と実験計画を生成 2. 実験の実施 既存の研究論文からプロトタイプコードを取得し、それを実験計画に適合するように適応 3. 修正 実験の問題や改善点を研究者からフィードバックを受け取り、必要に応じて実験計画や実装を修正 5つの機械学習研究タスクにおいて、提案フレームワークの有効性を評価 研究アイデアは、ハイブリッドモデル、アンサンブル、前処理の変更、データ拡張の導入など新規性は薄い Agentic AI Systems 9月9日 更新分
  22. Large Language Model-Based Agents for Software Engineering: A Survey ソフトウェア開発のためのLLMエージェントのサーベイ論文

    終盤には通常のLLMエージェントの構成要素についてイラストやツリー構造で分かりすくまとまっている Agentic AI Systems 単体テストのためのエージェント コード生成のためのエージェント 要求工学のためのエージェント 9月9日 更新分
  23. AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in

    Relation Extraction ReActベースのLLMエージェントを関係抽出タスクに適応 複数のモジュール(検索、メモリ、抽出)と連携して情報を取得・処理する 1. エージェントが入力文を受け取り、関係の種類を推測する 2. 検索モジュールを使って関連するサンプルや知識を取得する 3. メモリモジュールを利用して過去の推論結果を参照し、誤りを避ける 4. 必要な情報が収集されたら、抽出モジュールが関係を抽出する AgentREが生成する推論の軌跡は、SLMのチューニングに利用可能 Agentic AI Systems 9月9日 更新分
  24. From MOOC to MAIC: Reshaping Online Teaching and Learning through

    LLM- driven Agents AIとLLMを活用した新しいオンライン教育の形を提案 1動画にN人の生徒で学ぶ教育から、N体のエージェントの中で1人の生徒が学ぶパーソナライズスタイルへ 学習者が孤立感を感じることなく、学習意欲を維持でき、授業内容や進行を動的に調整することもでき、学生の エンゲージメントが向上し、教師の負担軽減になった Agentic AI Systems 9月9日 更新分
  25. Can LLMs Generate Novel Research Ideas? StanfordからLLMと人間の研究者によるアイデア生成を比較する実験を行い、LLMが新規性の高いアイデアを生 成できるかどうかを検証した Idea Generation

    Agent は、関連文献の検索、アイデア生成、ランキングという3つの主要な機能を持つ LLMが生成したアイデアは、人間のアイデアよりも新規性が高いと評価されたが、実現可能性ではわずかに劣る ことが分かった • LLMが生成されたアイデアの多くは重複している • LLM自身が生成したアイデアを正確に評価する能力がまだ低いため、人間による評価やフィルタリングが必要である • LLMが生成するアイデアは詳細な実装方法が不明瞭であり、具体的なステップやデータセット選定に不備がある 以下の結果のAI+RerankはLLMが生成したアイデアのランキングを人間がおこなう Agentic AI Systems 9月23日 更新分
  26. SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning SciAgentsは、科学的発見を自動化するために設計されたマルチエージェントシステム

    数千の科学論文から抽出された概念や関係性を結びつけた大規模な知識グラフを使用する エージェントの役割 • プランナー:研究の計画を立て、次に何をすべきかを指示する • オントロジスト:知識グラフの関係性を定義し、科学的な概念間のつながりを深く理解する • 科学者:知識グラフを基に新しい仮説を生成し、その仮説を詳細に展開する • 批評者:生成された仮説を批評し、改善点を提案する • アシスタント:文献検索APIなどを使用して、仮説の新規性や実現可能性を評価する 自動化された科学的発見プロセス • グラフ内の2つの概念を選び、それら関係性を考える • 関係性をもとに、科学者エージェントが仮説を生成し、設計や実験計画を立案する • 批評エージェントが仮説の評価を行い、改善案を提示する Agentic AI Systems 9月23日 更新分
  27. DSBench: How Far Are Data Science Agents to Becoming Data

    Science Experts? • DSBenchは、466のデータ分析タスクと74のモデリングタスクから構成され、主にEloquenceやKaggleのコン ペティションからタスクを収集している。 • サブミッションが正しくできるかをTask Successで測るとgpt-4が最も高く、4oになると精度が下がる。 • RPG指標が100だとコンペ優勝と同性能、50だとベースラインと優勝精度の差の半分しか改善できなかった。 • エージェントはkaggleのDiscussionなどは観測せず、コンペ概要とデータとその概要のみ観測しているので人 間と完全に同様なものを観測したわけではない。 • むしろ全て観測すれば、サブミッション方法も精度の高いベースラインのアイデアも分かり、もっと精度を上 げられるはず。 Agentic AI Systems 9月23日 更新分
  28. Agents in Software Engineering: Survey, Landscape, and Vision SEにおけるLLMエージェントの構造を認知、記憶、行動の3つで分解している •

    行動を内部行動と外部行動に分けており、内部行動は推論の質を高める行動で、外部行動が環境と対話する行動 • 記憶は3種類あり、モデルの知識、実行履歴、外部知識で分けている • 認知には入力形式でテキストか視覚か聴覚かで分けている Agentic AI Systems 9月23日 更新分
  29. Into the Unknown Unknowns: Engaged Human Learning through Participation in

    Language Model Agent Conversations 複雑な情報探索において、ユーザーがまだ知らない「未知の未知」を発見するための手法Collaborative STORM (Co-STORM)を提案 研究者や市場分析者など、まだ気づいていない視点を見つけたい方が利用する 利用者はマルチエージェントの会話の中に時折入り、未知の未知を発見する 会話の内容はマインドマップで管理される マインドマップは階層構造を持ち、中心テーマから関連するサブトピックへと情報が整理されている どの情報が既に探索されたか、どの部分がまだ掘り下げられていないかを把握できる 最終的に生成されるレポートは、関連性、幅広さ、深さ、新規性のすべての面で優れていた Multi Agent Systems 9月9日 更新分
  30. Agentic Retrieval-Augmented Generation for Time Series Analysis 時系列解析のためのマルチエージェント型RAGフレームワークを提案 階層型マルチエージェント形式をとり、各サブエージェントは時系列タスク特化SLMになっている 各プロンプトプールは、key-valueストアで、Keyに特定の時系列パターン(トレンド、周期性、イベント)、

    Valueに過去のデータから学習された具体的な知識が含まれ、SLMの予測に利用される(RAGの部分) • Key-Valueの例:”祝日の影響”:”毎年の祝日セール期間中には、オンラインショッピングのトラフィックが平均30%増加 する。” 時系列予測、分類、異常検知、欠損補完タスクで評価し、Llama3ベースな提案手法が高い評価結果を示した Multi Agent Systems 9月9日 更新分
  31. MEDCO: Medical Education Copilots Based on A Multi-Agent Framework MEDCOは、医療教育における診断スキル向上を目指したマルチエージェントシステム

    仮想学生が医療教育現場での診察をシミュレートし、患者、専門医、放射線技師と対話する • 教育フェーズ:学生が259人の患者と対話し診断結果レポートを作成し、専門医から評価を受けメモリに記録 • 実践フェーズ:患者の初期診断のあと、メモリを参照し、再考と想起を経て、患者に追加質問し最終診断する MEDCOで訓練を受けた学生が、診断能力を向上させるとともに、人間らしい学習行動を示すことが確認 Multi Agent Systems 9月9日 更新分
  32. AUTOGEN STUDIO: A No-Code Developer Tool for Building and Debugging

    Multi- Agent Systems MicrosoftからAUTOGEN STUDIOというノーコード開発ツールの提案 複数のエージェントが協力してタスクを実行するMASを構築、デバッグ、評価するために設計 AutoGenがプロ開発向けだったため、もっと開発の敷居を下げるために開発された Multi Agent Systems 9月9日 更新分
  33. BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of

    Language Models in Multi-Agent Systems LLMの協力と競争能力を評価するためのベンチマークBattleAgentBenchを提案 レベル1:基礎的なエージェント能力 • ステージ1と2では、単一エージェントのゲームルール理解と空間認識能力を評価 • Claude 3.5 SonnetとGPT-4o-miniが高い精度を達成 レベル2:ペアエージェントのインタラクション • ステージ3と4では、2つのエージェントが協力または競争してタスクを遂行する能力を評価 • Claude 3.5 Sonnet以外は指示フォーマットの複雑さが増すにつれて精度低下 レベル3;マルチエージェントダイナミクス • ステージ5から7では、複雑な協力および競争シナリオで、複数のエージェントの動的な協力関係を評価 • Claude 3.5 SonnetとGPT-4o-miniは複雑な環境でも高いスコアを維持し、動的な協力シナリオでも高性能 Multi Agent Systems 9月9日 更新分
  34. Focus Agent: LLM-Powered Virtual Focus Group HCI系の研究でフォーカスグループのシミュレーションシステムを提案 フォーカスグループは、特定のテーマに対して質的に深い洞察を得るために利用される方法 参加者の招集や経験豊富なモデレーターの不足が課題となり、AIモデレーターの可能性を検討した 人間参加者の中でAIモデレーターが有効か、AI参加者とAIモデレーターによるシミュレーションで検証した

    AI参加者は、多くの場合で人間の意見と一致する意見を生成したが、一般的な意見に集中しがちで、ユニークな視点 や創造的なアイデアは人間の方が多く提供される傾向がある AIモデレーターは、進行や質問もできるが、質問の繰り返しや人間の意図を十分に理解できないなどの限界があった Multi Agent Systems 9月9日 更新分
  35. Using Generative Agents to Create Tip Sheets for Investigative Data

    Reporting 生成AIエージェントが調査報道のためのヒントシートを作成する 調査報道は、データを駆使して公共の利益に関わる重要な事実や問題を明らかにする 報道(環境問題、健康問題、社会的不平等など) 大量のデータからニュース価値のある情報を抽出することが目的 ジャーナリストがデータセットとその説明を提供し、ヒントシートを生成する マルチエージェントの処理の流れ 1. リポーターがデータセットを探索し、ニュース価値のある質問を生成 2. アナリストがリポーターが生成した質問に基づいて分析計画を立てる 3. 分析を実行し、リポーターは結果を解釈して、ニュースとして価値があるか判断 4. エディタが分析結果をまとめ、ニュース価値のある洞察をヒントシートに記述 生成エージェントは、ニュース価値と精度の面で優れていることが確認 発見されたヒントのうち約3分の1は最終的に記事に採用された Multi Agent Systems 9月23日 更新分
  36. Windows Agent Arena Evaluating Multi-Modal OS Agents at Scale MicrosoftからWindowsエージェントの評価環境

    「WINDOWSAGENTARENA」を提案 マルチモーダルエージェントNaviを導入しテストした 難易度はタスク解決のステップ数で分割 Naviは19.5%の成功率を達成したが、人間の成功率 74.5%と比較するとまだ低い • テキスト中心のタスク(Webブラウジングやシステム操 作)では比較的高い性能を発揮 • アイコンやキーボードショートカットに依存するタスクで は性能が低下 • gpt-4oよりgpt-4Vのほうが精度が高い Computer Controlled Agents 9月23日 更新分