Weekly AI Agents News! 9月号論文のアーカイブ

Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190 ９月号論文編

Slide 2

Slide 2 text

はじめに • LLMエージェントに関するニュースや論文をほぼ毎週更新しています。 • 論文、プロダクトの順番でまとめています。 • 個人の備忘録で取り組んでおり、誤りがある場合もあります。 • 文字サイズ16ptで小さいのでPCで見ることをおすすめします。 • SpeakerDeckに過去の4月、5月、6月、７月、8月の資料を分けて公開しています。 • 7月から隔週で更新します。

Slide 3

Slide 3 text

9月の所感 • o1-previewが登場し、CoTがまた注目されていたように思います。 • 特に推論方法の改善で、MADと推論の中間過程のプロセス評価と自己修正がポイントになっています。 • 例えば、ToTの思考ステップをプロセス報酬モデルで評価するなど • 人工データによる事後学習では、質の高い人工データを残すようにパイプライン化している印象を受けます。 • エージェント応用ではデータ分析、研究の自動化、ソフトウェア開発に関わる論文が増えています。

Slide 4

Slide 4 text

論文 9月分プロフィール・PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation 推論 • LOGICGAME: Benchmarking Rule-Based Reasoning Abilities of Large Language Models • To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning • Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning • Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent • MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning 自己修正 • CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction • An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation ツール利用 • Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature • ToolACE: Winning the Points of LLM Function Calling メモリ • Self-evolving Agents with reflective and memory-augmented abilities • Agent Workflow Memory

Slide 5

Slide 5 text

論文 9月分評価 • A Survey on Evaluation of Multimodal Large Language Models • RAD-Bench: Evaluating Large Language Models’ Capabilities in Retrieval Augmented Dialogues 安全性 • Safeguarding AI Agents: Developing and Analyzing Safety Architectures Agent framework • xLAM: A Family of Large Action Models to Empower AI Agent Systems • Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots Agentic AI Systems • MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents • Large Language Model-Based Agents for Software Engineering: A Survey • AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction • Can LLMs Generate Novel Research Ideas? • SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning • DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? • Agents in Software Engineering: Survey, Landscape, and Vision

Slide 6

Slide 6 text

論文 9月分 Multi Agent Systems • Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations • Agentic Retrieval-Augmented Generation for Time Series Analysis • Persuasion Games with Large Language Models • MEDCO: Medical Education Copilots Based on A Multi-Agent Framework • AUTOGEN STUDIO: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems • BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi- Agent Systems • Focus Agent: LLM-Powered Virtual Focus Group • Using Generative Agents to Create Tip Sheets for Investigative Data Reporting Computer Controlled Agents • Windows Agent Arena Evaluating Multi-Modal OS Agents at Scale

Slide 7

Slide 7 text

PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation LLMのロールプレイ能力を評価するためのベンチマークPingPongを提案ベンチマークは3人の役割で構成される • プレイヤー：キャラクターを演じる • 質問者：ユーザー行動をシミュレートする • 審判者：対話の質を評価する評価基準：キャラクターの一貫性、エンターテインメント性、言語の流暢さ評価のバイアスを減らすため、審判者は複数のモデルで平均する人間によるアノテーションとの相関が高さではClaude 3.5 Sonnetが最も高い評価 Agent Capabilities：プロフィール 9月23日更新分

Slide 8

Slide 8 text

LOGICGAME: Benchmarking Rule-Based Reasoning Abilities of Large Language Models LLMの規則(ルール)に基づく推論能力を評価するベンチマーク「LOGICGAME」を提案 LOGICGAMEは、ルール理解、実行、計画能力を評価することを目的とするタスクは計画と実行のカテゴリがあり、計画では数独、マインスイーパー、論理方程式など、実行では文字列分割、文字列再配置、文字列挿入がある最も性能の高いモデルでも20%程度の精度にとどまり、特に難易度の高い問題では10%以下 • モデルが一般的な知識や経験に依存せず、明示的に与えられたルールのみに基づいて推論する能力に課題あり • モデルが複雑な戦略的思考や長期的な意思決定を正確に行うことが難しい • 少ないショット数では性能が向上しない場合が多く、計画タスクでは逆に性能が低下する • モデルが少ないコンテキストから学習し、新しい問題に適応することが困難であることが示された Agent Capabilities：推論 9月9日更新分

Slide 9

Slide 9 text

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning Chain-of-Thought (CoT) の有効な問題範囲を把握するため、著名な学会の論文をメタ分析かつ実験も実施数学や記号的推論に対して有効性があり、特に数式を含む問題で効果を発揮することが多い常識的推論や知識ベースの質問応答などの非記号的推論には効果なし CoTは推論過程の可視化に優れている一方で、複雑な計算はCoTなしのPlan+Tool Solverの方が精度が高い Agent Capabilities：推論４位 1位３位２位 Bad Good 9月23日更新分

Slide 10

Slide 10 text

Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning LLMの推論フレームワークIteration of Thought (IoT)を提案内的対話（IDA）で推論結果に指示や問いかけをし、動的に推論パスを調整しながら応答を改善 IDAの例：「その答えをもう少し詳しく説明してください。」「先ほどの回答で考慮していなかった要素はありますか？」「異なる角度から問題を再考してみましょう。」「他の選択肢を考慮しましょう」 IoTは内的対話を繰り返し、反復が規定回数か、自身の応答の質に基づいて反復を停止する内的対話の方向性で、多様な解決パスを探索し、特にパズルやクロスワードのタスクで高い成功率だった複数の文書にまたがる情報を統合するタスクにおいても他の手法を上回る正確さだったほぼMulti Agent Debateの範疇だと思う Agent Capabilities：推論 9月23日更新分

Slide 11

Slide 11 text

Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent LLMの推論能力を強化するために、マルチエージェント戦略を取る手法を提案 • 複数の推論エージェントがToTを使って並行して推論パスを探索し、Thought Validatorが各推論パスを評価 • 誤った推論パスは排除され、最終的な投票メカニズムに基づき、信頼性の高い解答を得る Thought Validatorプロンプトの検証項目 • 推論の全過程が元の質問に適切に対応しているか • 推論が論理的で一貫しているか • 推論の中で使用される数値や事実が正確であるか • 推論が元の質問を全ての側面で適切に解決しているか • 推論の中に潜在的なエラーや弱点がないか性能の高いモデルでは精度向上幅は小さいが、精度の低いモデルだと9%近く改善した Agent Capabilities：推論 9月23日更新分

Slide 12

Slide 12 text

MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning LLMの推論能力を向上させる新しいフレームワークMAGICOREを提案 • 複数の推論パスを生成し、プロセス報酬モデルのように各推論ステップと回答をLLMがそれぞれ評価する • プロセス評価からどのステップが誤っているかを発見し、回答を改善し評価する • このプロセスを繰り返し、回答が十分に改善された時点でリファインメントを終了 Llama3-8BやGPT-3.5-turboのように精度が低いモデルを使うと精度が向上しているコストが下がった今、性能の高いモデルを使わない理由がこの手法で精度が向上しなかったからとしか思えない Agent Capabilities：推論 9月23日更新分

Slide 13

Slide 13 text

CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction CoTは中間ステップで誤りを累積させる可能性があるためCoT Rerailerを提案 CoT Rerailerは、自己一貫性とMulti-Agent Debateを用いて、推論過程の誤りを修正 1. 誤りの検出 • 複数のCoT推論パスを生成し、 Self-Consistency をおこなう • 一貫性がない場合、最も誤りが少ない推論パスを判定 2. 誤りの修正 • 推論パスを個々のステップに分解し、順番に各ステップの誤りを評価 • 誤りを見つけたら、修正案を提案者、批判者、評価者によるMADで生成 3. 修正された推論パスの再生成 • 修正された推論パスを用いて、残りの推論ステップを再生成 Agent Capabilities：自己修正 9月9日更新分

Slide 14

Slide 14 text

An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation 自己修正とCoTプロンプトを利用し、生成されたコードを段階的に改善する手法の提案 • 提案手法の流れは、外部知識の取得と初期コード生成、文法チェックとコード実行、フィードバックによる反復修正データサイエンスのコード生成タスクで評価 • PyTorch、Sklearn、Matplotlibにおいて、従来のモデルよりも優れた結果を達成改善回数を増やすことで、モデルのパフォーマンスは大幅に向上(右表) • 改善回数を1回から5回に増やすと、全体的な精度は14.0%から83.2%に向上 • 最初の回答から1回目の改善にかけて精度が急激に改善 Agent Capabilities：自己修正 9月9日更新分

Slide 15

Slide 15 text

Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature Agent Capabilities：ツール利用研究者が特定のトピックに関する知識を体系的に探索できるよう支援するツールKnowledge Navigator を開発 LLMとクラスタリングを組み合わせ、階層的にトピックを整理する 1. 文書のタイトルや概要を埋め込み、UMAPで低次元化しGMMでソフトクラスタリング 2. サブトピック名と概要をLLMが生成し、無関係なサブトピックをLLMがフィルタリング 3. 各サブトピックをテーマごとにLLMでグループ化今後はKnowledge Navigatorの出力を他のタスクやエージェントの計画に組み込み拡張することを検討している 9月9日更新分

Slide 16

Slide 16 text

ToolACE: Winning the Points of LLM Function Calling LLMの関数呼び出し能力を向上させるToolACEというデータ生成パイプラインを提案人工APIデータの生成：APIの種類やデータ構造の多様性を保つ工夫し、26,507種類のAPIを生成マルチエージェント対話生成：逐次呼び出しや並列呼び出しを含む人工APIを使った対話データの生成 • データの2層による検証プロセス • ルールベースの検証：API名が正しいか、すべての必要なパラメータが提供されているか、パラメータの形式が正しいか • モデルベースの検証：モデルを使って、生成されたデータが論理的に一貫しているか Agent Capabilities：ツール利用 BFCL-v2 leaderboard (08/16/2024) 9月9日更新分

Slide 17

Slide 17 text

Agent Workflow Memory エージェントは複雑なタスクや環境の変化に適応できず、過去の成功や失敗から学べない Agent Workflow Memory はエージェントが過去のタスクで得た成功体験をワークフローとして抽出し、そのワークフローをエージェントのメモリに統合するオンラインでワークフローを貯めていくと初期時に急速に成功率が向上し、それ以降は安定した成功率を保つただ累積が40%から伸びていないので、難しいタスクに関してはメモリを別途人間で用意する必要があるのかも Agent Capabilities：メモリ 9月23日更新分

Slide 18

Slide 18 text

Self-evolving Agents with reflective and memory-augmented abilities 自己進化型エージェントSAGEフレームワークを提案 • アルゴリズム：記憶を参照しタスクの実行→フィードバックの取得→内省と改善→記憶の管理→次のタスクへ • 内省：タスクにおける成功や失敗の原因を特定し、将来の改善点を明らかにするためのプロセス • メモリ：短期記憶は時間の経過とともに忘却していき、重要度が高い内容は保持され、残りは長期記憶に保存記憶には知識、解決策、フィードバックを保存し、重要度は、情報の関連性、希少性、汎用性、頻度で決める Agent Capabilities：メモリ 9月9日更新分

Slide 19

Slide 19 text

A Survey on Evaluation of Multimodal Large Language Models 1/2 Agent Capabilities：評価 9月9日更新分

Slide 20

Slide 20 text

A Survey on Evaluation of Multimodal Large Language Models 2/2 Agent Capabilities：評価 MLLMの評価に使用されるタスクを一般的なタスクと特定のタスクに分けている特定のタスクのAIエージェントに関して紹介 Mobile-Agent：AIエージェントのUIのナビゲーション能力を評価評価：ナビゲーションの精度、目標達成能力、UIの認識の適切さ VisualAgentBench：視覚情報を利用してタスクを実行する能力を評価評価：視覚情報の処理能力、タスクの成功率、視覚推論能力、環境の動的変化への適応能力 EgoPlan-Bench：エージェントが自己の視点を用いてタスクを計画・実行する能力を評価評価：視覚的計画立案能力、タスクの順序管理、長期的な目標達成能力 PCA-EVAL：エージェントの知覚と行動の統合能力を評価評価：知覚情報の正確な解釈、適切な行動選択、マルチステップ推論能力 OpenEQA：エージェントが視覚とテキスト情報からオープン質問に答える能力を評価評価：視覚とテキストの統合能力、質問に対する応答の正確性、視覚情報の解釈力 Ferret-UI：UIを操作するエージェントの能力を評価評価：UIの理解と操作能力、タスク完遂力、UIとのインタラクション Crab：複雑な制御タスクを実行するエージェントの能力を評価評価：操作精度、動作の滑らかさ、目標達成能力、タスクに対する適応性。 9月9日更新分

Slide 21

Slide 21 text

RAD-Bench: Evaluating Large Language Models’ Capabilities in Retrieval Augmented Dialogues マルチターンRAGの評価ベンチマークの提案 Retrieval Synthesis（取得情報の統合） • 外部から取得した情報を知識統合し、深める • ニュースの要約：過去の出来事、専門家の意見、最新動向を統合してニュース記事を書く • 教育資料の作成：深みのある教育コンテンツを段階的に作成する • 学術論文の執筆：学術論文の「Related Work」セクションなどを執筆する Retrieval Reasoning（取得情報の推論） • カスタマーサポート：取得した外部情報を基に、段階的に問題を絞り込み、解決に導く • 金融分析：アナリストが、取得した財務データをもとに企業の財務分析を行う • 旅行計画：外部データベースから取得した情報をもとに、旅行プランを提案する • 一次回答から個別回答へ、簡単な分析から複雑な分析へ、基本的な提案から予算や日程に合わせた詳細な提案へ結果旅行計画以外はマルチターンRAGで10点中高い結果を出した推論は段階的に難しくなるためターン数の増加に伴い精度低下統合は何回もおこなうと関連性が取れず精度が落ちる可能性がある Agent Capabilities：評価 9月23日更新分

Slide 22

Slide 22 text

Safeguarding AI Agents: Developing and Analyzing Safety Architectures SuperAGI からAIエージェントシステムの安全性向上に向けたフレームワークを提案し、評価憎悪とハラスメント、違法な武器と暴力、規制薬物、自殺と自己傷害、犯罪計画の5つのカテゴリに分類された21 の危険なプロンプトを使用して、各フレームワークの安全性を測定 1. LLMベースの入力・出力フィルタリング • LLMを使って、AIエージェントの入力と出力をフィルタリングし、不適切または危険なコンテンツの生成を防ぐ • シンプルかつ迅速に危険なプロンプトや出力をブロックしますが、柔軟性に欠ける 2. 安全エージェントの導入 • システム内に安全エージェントを組み込み、AIエージェントが生成した出力を監視・修正して、安全性を確保する • 危険な出力を部分的に修正するため、柔軟かつ中程度の安全性を提供 3. 階層的な安全管理システム • システム全体で安全性を監視する管理エージェントを導入し、各エージェントが行うタスクごとに安全性を確保する • システム全体で最も高い安全性を提供しますが、処理時間とリソース消費が大きくなる Agent Capabilities：安全性 0が危険、3が安全 9月23日更新分

Slide 23

Slide 23 text

xLAM: A Family of Large Action Models to Empower AI Agent Systems Salesforce からAIエージェントタスク向けに設計された大規模アクションモデル「xLAM」シリーズを提案 xLAMが複数のエージェント能力ベンチマークであるWebshop、ToolQuery、ToolBenchで優れた成績を収め、特にBerkeley Function-Calling Leaderboardでは1位を獲得した学習パイプラインはデータの生成から品質評価、拡張をおこない学習後のベンチマーク評価結果からデータの質を高めるようにデータ改善パイプラインを作っている BFCL-v2 leaderboard (cutoff date 09/03/2024) 9月9日更新分 Agent Framework

Slide 24

Slide 24 text

Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots TencentからLLMエージェントCognitive Kernelを提案し、自動的にタスクを完了するシステムの実現を目指す Cognitive Kernelは、推論カーネル、知覚カーネル、メモリカーネルで構成される • 推論カーネル：システムの中心で、タスクを理解し、次に実行すべきアクションを決定する • 知覚カーネル：システムが環境から情報を収集する部分で、Webやローカルファイルからリアルタイムの情報を取得 • メモリカーネル：過去のタスクや状態を記録し、長期的なタスクの遂行に役立つ Web上の情報収集とタスク、アップロードしたファイルのQA、会話履歴の取得に基づくQAで評価 ChatGPT、Kimi-Chatなどと比較して競争力のある、またはそれ以上の性能を示した Agent Framework 9月23日更新分

Slide 25

Slide 25 text

MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents 自律的な機械学習研究フレームワークMLR-Copilotを提案研究アイデアの生成、実験の実施、修正の3つのフェーズから構成 1. 研究アイデアの生成既存の研究論文から研究課題を抽出し、仮説と実験計画を生成 2. 実験の実施既存の研究論文からプロトタイプコードを取得し、それを実験計画に適合するように適応 3. 修正実験の問題や改善点を研究者からフィードバックを受け取り、必要に応じて実験計画や実装を修正 5つの機械学習研究タスクにおいて、提案フレームワークの有効性を評価研究アイデアは、ハイブリッドモデル、アンサンブル、前処理の変更、データ拡張の導入など新規性は薄い Agentic AI Systems 9月9日更新分

Slide 26

Slide 26 text

Large Language Model-Based Agents for Software Engineering: A Survey ソフトウェア開発のためのLLMエージェントのサーベイ論文終盤には通常のLLMエージェントの構成要素についてイラストやツリー構造で分かりすくまとまっている Agentic AI Systems 単体テストのためのエージェントコード生成のためのエージェント要求工学のためのエージェント 9月9日更新分

Slide 27

Slide 27 text

AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction ReActベースのLLMエージェントを関係抽出タスクに適応複数のモジュール（検索、メモリ、抽出）と連携して情報を取得・処理する 1. エージェントが入力文を受け取り、関係の種類を推測する 2. 検索モジュールを使って関連するサンプルや知識を取得する 3. メモリモジュールを利用して過去の推論結果を参照し、誤りを避ける 4. 必要な情報が収集されたら、抽出モジュールが関係を抽出する AgentREが生成する推論の軌跡は、SLMのチューニングに利用可能 Agentic AI Systems 9月9日更新分

Slide 28

Slide 28 text

From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM- driven Agents AIとLLMを活用した新しいオンライン教育の形を提案 1動画にN人の生徒で学ぶ教育から、N体のエージェントの中で1人の生徒が学ぶパーソナライズスタイルへ学習者が孤立感を感じることなく、学習意欲を維持でき、授業内容や進行を動的に調整することもでき、学生のエンゲージメントが向上し、教師の負担軽減になった Agentic AI Systems 9月9日更新分

Slide 29

Slide 29 text

Can LLMs Generate Novel Research Ideas? StanfordからLLMと人間の研究者によるアイデア生成を比較する実験を行い、LLMが新規性の高いアイデアを生成できるかどうかを検証した Idea Generation Agent は、関連文献の検索、アイデア生成、ランキングという3つの主要な機能を持つ LLMが生成したアイデアは、人間のアイデアよりも新規性が高いと評価されたが、実現可能性ではわずかに劣ることが分かった • LLMが生成されたアイデアの多くは重複している • LLM自身が生成したアイデアを正確に評価する能力がまだ低いため、人間による評価やフィルタリングが必要である • LLMが生成するアイデアは詳細な実装方法が不明瞭であり、具体的なステップやデータセット選定に不備がある以下の結果のAI+RerankはLLMが生成したアイデアのランキングを人間がおこなう Agentic AI Systems 9月23日更新分

Slide 30

Slide 30 text

SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning SciAgentsは、科学的発見を自動化するために設計されたマルチエージェントシステム数千の科学論文から抽出された概念や関係性を結びつけた大規模な知識グラフを使用するエージェントの役割 • プランナー：研究の計画を立て、次に何をすべきかを指示する • オントロジスト：知識グラフの関係性を定義し、科学的な概念間のつながりを深く理解する • 科学者：知識グラフを基に新しい仮説を生成し、その仮説を詳細に展開する • 批評者：生成された仮説を批評し、改善点を提案する • アシスタント：文献検索APIなどを使用して、仮説の新規性や実現可能性を評価する自動化された科学的発見プロセス • グラフ内の2つの概念を選び、それら関係性を考える • 関係性をもとに、科学者エージェントが仮説を生成し、設計や実験計画を立案する • 批評エージェントが仮説の評価を行い、改善案を提示する Agentic AI Systems 9月23日更新分

Slide 31

Slide 31 text

DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? • DSBenchは、466のデータ分析タスクと74のモデリングタスクから構成され、主にEloquenceやKaggleのコンペティションからタスクを収集している。 • サブミッションが正しくできるかをTask Successで測るとgpt-4が最も高く、4oになると精度が下がる。 • RPG指標が100だとコンペ優勝と同性能、50だとベースラインと優勝精度の差の半分しか改善できなかった。 • エージェントはkaggleのDiscussionなどは観測せず、コンペ概要とデータとその概要のみ観測しているので人間と完全に同様なものを観測したわけではない。 • むしろ全て観測すれば、サブミッション方法も精度の高いベースラインのアイデアも分かり、もっと精度を上げられるはず。 Agentic AI Systems 9月23日更新分

Slide 32

Slide 32 text

Agents in Software Engineering: Survey, Landscape, and Vision SEにおけるLLMエージェントの構造を認知、記憶、行動の3つで分解している • 行動を内部行動と外部行動に分けており、内部行動は推論の質を高める行動で、外部行動が環境と対話する行動 • 記憶は３種類あり、モデルの知識、実行履歴、外部知識で分けている • 認知には入力形式でテキストか視覚か聴覚かで分けている Agentic AI Systems 9月23日更新分

Slide 33

Slide 33 text

Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations 複雑な情報探索において、ユーザーがまだ知らない「未知の未知」を発見するための手法Collaborative STORM （Co-STORM）を提案研究者や市場分析者など、まだ気づいていない視点を見つけたい方が利用する利用者はマルチエージェントの会話の中に時折入り、未知の未知を発見する会話の内容はマインドマップで管理されるマインドマップは階層構造を持ち、中心テーマから関連するサブトピックへと情報が整理されているどの情報が既に探索されたか、どの部分がまだ掘り下げられていないかを把握できる最終的に生成されるレポートは、関連性、幅広さ、深さ、新規性のすべての面で優れていた Multi Agent Systems 9月9日更新分

Slide 34

Slide 34 text

Agentic Retrieval-Augmented Generation for Time Series Analysis 時系列解析のためのマルチエージェント型RAGフレームワークを提案階層型マルチエージェント形式をとり、各サブエージェントは時系列タスク特化SLMになっている各プロンプトプールは、key-valueストアで、Keyに特定の時系列パターン（トレンド、周期性、イベント）、 Valueに過去のデータから学習された具体的な知識が含まれ、SLMの予測に利用される（RAGの部分） • Key-Valueの例：”祝日の影響”：”毎年の祝日セール期間中には、オンラインショッピングのトラフィックが平均30%増加する。” 時系列予測、分類、異常検知、欠損補完タスクで評価し、Llama3ベースな提案手法が高い評価結果を示した Multi Agent Systems 9月9日更新分

Slide 35

Slide 35 text

MEDCO: Medical Education Copilots Based on A Multi-Agent Framework MEDCOは、医療教育における診断スキル向上を目指したマルチエージェントシステム仮想学生が医療教育現場での診察をシミュレートし、患者、専門医、放射線技師と対話する • 教育フェーズ：学生が259人の患者と対話し診断結果レポートを作成し、専門医から評価を受けメモリに記録 • 実践フェーズ：患者の初期診断のあと、メモリを参照し、再考と想起を経て、患者に追加質問し最終診断する MEDCOで訓練を受けた学生が、診断能力を向上させるとともに、人間らしい学習行動を示すことが確認 Multi Agent Systems 9月9日更新分

Slide 36

Slide 36 text

Persuasion Games with Large Language Models LLMを用いたマルチエージェントシステムによるユーザー説得フレームワークを提案保険、銀行、投資における300の対話を生成し、LLMがどのようにして説得力を発揮するかを評価したユーザー側のLLMに感情（感謝、怒りなど）と動機（製品への興味、変化の欲求など）を与えて比較する対話の後、ユーザーの行動が購入、サイト訪問、情報請求になれば説得できたとみなし、購入拒否は説得失敗対話の前後のアンケートで製品やブランドに対するユーザーの視点の変化でポジティブになると説得成功ベースラインに比べ、情報請求が増えたが、否定的な感情がユーザーにつくと対話が短くなり説得率も低下 Multi Agent Systems 説得するための回答生成フロー 9月9日更新分

Slide 37

Slide 37 text

AUTOGEN STUDIO: A No-Code Developer Tool for Building and Debugging Multi- Agent Systems MicrosoftからAUTOGEN STUDIOというノーコード開発ツールの提案複数のエージェントが協力してタスクを実行するMASを構築、デバッグ、評価するために設計 AutoGenがプロ開発向けだったため、もっと開発の敷居を下げるために開発された Multi Agent Systems 9月9日更新分

Slide 38

Slide 38 text

BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems LLMの協力と競争能力を評価するためのベンチマークBattleAgentBenchを提案レベル1：基礎的なエージェント能力 • ステージ1と2では、単一エージェントのゲームルール理解と空間認識能力を評価 • Claude 3.5 SonnetとGPT-4o-miniが高い精度を達成レベル2：ペアエージェントのインタラクション • ステージ3と4では、2つのエージェントが協力または競争してタスクを遂行する能力を評価 • Claude 3.5 Sonnet以外は指示フォーマットの複雑さが増すにつれて精度低下レベル3；マルチエージェントダイナミクス • ステージ5から7では、複雑な協力および競争シナリオで、複数のエージェントの動的な協力関係を評価 • Claude 3.5 SonnetとGPT-4o-miniは複雑な環境でも高いスコアを維持し、動的な協力シナリオでも高性能 Multi Agent Systems 9月9日更新分

Slide 39

Slide 39 text

Focus Agent: LLM-Powered Virtual Focus Group HCI系の研究でフォーカスグループのシミュレーションシステムを提案フォーカスグループは、特定のテーマに対して質的に深い洞察を得るために利用される方法参加者の招集や経験豊富なモデレーターの不足が課題となり、AIモデレーターの可能性を検討した人間参加者の中でAIモデレーターが有効か、AI参加者とAIモデレーターによるシミュレーションで検証した AI参加者は、多くの場合で人間の意見と一致する意見を生成したが、一般的な意見に集中しがちで、ユニークな視点や創造的なアイデアは人間の方が多く提供される傾向がある AIモデレーターは、進行や質問もできるが、質問の繰り返しや人間の意図を十分に理解できないなどの限界があった Multi Agent Systems 9月9日更新分

Slide 40

Slide 40 text

Using Generative Agents to Create Tip Sheets for Investigative Data Reporting 生成AIエージェントが調査報道のためのヒントシートを作成する調査報道は、データを駆使して公共の利益に関わる重要な事実や問題を明らかにする報道（環境問題、健康問題、社会的不平等など）大量のデータからニュース価値のある情報を抽出することが目的ジャーナリストがデータセットとその説明を提供し、ヒントシートを生成するマルチエージェントの処理の流れ 1. リポーターがデータセットを探索し、ニュース価値のある質問を生成 2. アナリストがリポーターが生成した質問に基づいて分析計画を立てる 3. 分析を実行し、リポーターは結果を解釈して、ニュースとして価値があるか判断 4. エディタが分析結果をまとめ、ニュース価値のある洞察をヒントシートに記述生成エージェントは、ニュース価値と精度の面で優れていることが確認発見されたヒントのうち約3分の1は最終的に記事に採用された Multi Agent Systems 9月23日更新分

Slide 41

Slide 41 text

Windows Agent Arena Evaluating Multi-Modal OS Agents at Scale MicrosoftからWindowsエージェントの評価環境「WINDOWSAGENTARENA」を提案マルチモーダルエージェントNaviを導入しテストした難易度はタスク解決のステップ数で分割 Naviは19.5%の成功率を達成したが、人間の成功率 74.5%と比較するとまだ低い • テキスト中心のタスク（Webブラウジングやシステム操作）では比較的高い性能を発揮 • アイコンやキーボードショートカットに依存するタスクでは性能が低下 • gpt-4oよりgpt-4Vのほうが精度が高い Computer Controlled Agents 9月23日更新分

Slide 42

Slide 42 text

No content