Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190

Slide 2

Slide 2 text

はじめに • LLMエージェントに関するニュースや論文をほぼ毎週更新しています。 • 論文、プロダクトの順番でまとめています。 • 個人の備忘録で取り組んでおり、誤りがある場合もあります。 • 文字サイズ16ptで小さいのでPCで見ることをおすすめします。 • SpeakerDeckに過去の4月、5月、6月、7月、8月の資料を分けて公開しています。 • 7月から隔週で更新します。

Slide 3

Slide 3 text

9月9日 更新 • 論文 • プロダクト・ニュース

Slide 4

Slide 4 text

論文 8/26~9/6まで 推論 • LOGICGAME: Benchmarking Rule-Based Reasoning Abilities of Large Language Models 自己修正 • CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction • An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation メモリ • Self-evolving Agents with reflective and memory-augmented abilities ツール利用 • Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature • ToolACE: Winning the Points of LLM Function Calling 評価 • A Survey on Evaluation of Multimodal Large Language Models Agent framework • xLAM: A Family of Large Action Models to Empower AI Agent Systems

Slide 5

Slide 5 text

論文 8/26~9/7まで Agentic AI Systems • MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents • Large Language Model-Based Agents for Software Engineering: A Survey • AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction Multi Agent Systems • Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations • Agentic Retrieval-Augmented Generation for Time Series Analysis • Persuasion Games with Large Language Models • MEDCO: Medical Education Copilots Based on A Multi-Agent Framework • AUTOGEN STUDIO: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems • BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi- Agent Systems • Focus Agent: LLM-Powered Virtual Focus Group

Slide 6

Slide 6 text

LOGICGAME: Benchmarking Rule-Based Reasoning Abilities of Large Language Models LLMの規則(ルール)に基づく推論能力を評価するベンチマーク「LOGICGAME」を提案 LOGICGAMEは、ルール理解、実行、計画能力を評価することを目的とする 計画と実行のカテゴリがあり、計画では数独、マインスイーパー、論理方程式など、実行では文字列分割、文字 列再配置、文字列挿入がある 最も性能の高いモデルでも20%程度の精度にとどまり、特に難易度の高い問題では10%以下 • モデルが一般的な知識や経験に依存せず、明示的に与えられたルールのみに基づいて推論する能力に課題あり • モデルが複雑な戦略的思考や長期的な意思決定を正確に行うことが難しい • 少ないショット数では性能が向上しない場合が多く、計画タスクでは逆に性能が低下する • モデルが少ないコンテキストから学習し、新しい問題に適応することが困難であることが示された Agent Capabilities:推論

Slide 7

Slide 7 text

CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction CoTは中間ステップで誤りを累積させる可能性があり、CoT Rerailerを提案 CoT Rerailerは、自己一貫性とMulti-Agent Debateを用いて、推論過程の誤りを修正 1. 誤りの検出 • 複数のCoT推論パスを生成し、 Self-Consistency をおこなう • 一貫性がない場合、最も誤りが少ない推論パスを判定 2. 誤りの修正 • 推論パスを個々のステップに分解し、順番に各ステップの誤りを評価 • 誤りを見つけたら、修正案を提案者、批判者、評価者によるMADで生成 3. 修正された推論パスの再生成 • 修正された推論パスを用いて、残りの推論ステップを再生成 Agent Capabilities:自己修正

Slide 8

Slide 8 text

An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation 自己修正とCoTプロンプトを利用し、生成されたコードを段階的に改善する手法の提案と実験 • 提案手法は、外部知識の取得と初期コード生成、文法チェックとコード実行、フィードバック解析による反復修正を行う データサイエンスのコード生成タスクで評価 • PyTorch、Sklearn、Matplotlibライブラリにおいて、従来のモデルよりも優れた結果を達成 改善回数を増やすことで、モデルのパフォーマンスは大幅に向上 • 改善回数を1回から5回に増やすと、全体的な精度は14.0%から83.2%に向上 • 最初の改善から2回目の改善にかけて精度が急激に改善 Agent Capabilities:自己修正

Slide 9

Slide 9 text

Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature Agent Capabilities:ツール利用 研究者が特定のトピックに関する知識を体系的に探索できるよう支援するツール「Knowledge Navigator」を開発 LLMとクラスタリングを組み合わせ、階層的にトピックを整理する 1. 文書のタイトルや概要を埋め込み、UMAPで低次元化しGMMでソフトクラスタリング 2. サブトピック名と概要をLLMが記述し、無関係なサブトピックをLLMがフィルタリング 3. 各サブトピックをテーマごとにLLMでグループ化 今後はKnowledge Navigatorの出力を他のタスクやエージェントの計画に組み込み拡張することを検討している

Slide 10

Slide 10 text

ToolACE: Winning the Points of LLM Function Calling LLMの関数呼び出し能力を向上させるToolACEというデータ生成パイプラインを提案 • APIデータの自己進化による生成:APIの種類やデータ構造の多様性を保つ工夫し、26,507種類のAPIを生成 • マルチエージェント対話生成:逐次呼び出しや並列呼び出しを含む人工APIを使った対話データの生成 • データの2層による検証プロセス • ルールベースの検証:API名が正しいか、すべての必要なパラメータが提供されているか、パラメータの形式が正しいか • モデルベースの検証:モデルを使って、生成されたデータが論理的に一貫しているか Agent Capabilities:ツール利用 BFCL-v2 leaderboard (08/16/2024)

Slide 11

Slide 11 text

Self-evolving Agents with reflective and memory-augmented abilities 自己進化型エージェントSAGEフレームワークを提案 • アルゴリズム:記憶を参照しタスクの実行→フィードバックの取得→内省と改善→記憶の管理→次のタスクへ • 内省:タスクにおける成功や失敗の原因を特定し、将来の改善点を明らかにするためのプロセス • メモリ:短期記憶は時間の経過とともに忘却していき、重要度が高い内容は保持され、残りは長期記憶に保存 記憶には知識、解決策、フィードバックを保存し、重要度は、情報の関連性、希少性、汎用性、頻度で決める Agent Capabilities:メモリ

Slide 12

Slide 12 text

A Survey on Evaluation of Multimodal Large Language Models 1/2 Agent Capabilities:評価

Slide 13

Slide 13 text

A Survey on Evaluation of Multimodal Large Language Models 2/2 Agent Capabilities:評価 MLLMの評価に使用されるタスクを一般的なタスクと特定のタスクに分けている 特定のタスクのAIエージェントに関して紹介 Mobile-Agent:AIエージェントの環境の移動選択能力とタスク遂行能力を評価 評価:ナビゲーションの精度、障害物回避、目標到達能力、環境認識の適切さ VisualAgentBench:視覚情報を利用してタスクを実行する能力を評価 評価:視覚情報の処理能力、タスクの成功率、視覚推論能力、環境の動的変化への適応能力 EgoPlan-Bench:エージェントが自己の視点を用いてタスクを計画・実行する能力を評価 評価:視覚的計画立案能力、タスクの順序管理、長期的な目標達成能力 PCA-EVAL:エージェントの知覚と行動の統合能力を評価 評価:知覚情報の正確な解釈、適切な行動選択、マルチステップ推論能力 OpenEQA:エージェントが視覚とテキスト情報からオープン質問に答える能力を評価 評価:視覚とテキストの統合能力、質問に対する応答の正確性、視覚情報の解釈力 Ferret-UI:UIを操作するエージェントの能力を評価 評価:UIの理解と操作能力、タスク完遂力、UIとのインタラクション Crab:複雑な制御タスクを実行するエージェントの能力を評価 評価:操作精度、動作の滑らかさ、目標達成能力、タスクに対する適応性。

Slide 14

Slide 14 text

xLAM: A Family of Large Action Models to Empower AI Agent Systems Salesforce からAIエージェントタスク向けに設計された大規模アクションモデル「xLAM」シリーズを提案 xLAMが複数のエージェント能力ベンチマークであるWebshop、ToolQuery、ToolBenchで優れた成績を収め、特 にBerkeley Function-Calling Leaderboardでは1位を獲得した 学習パイプラインはデータの生成から品質評価、拡張をおこない学習後のベンチマーク評価結果からデータの質 を高めるようにデータ改善パイプラインを作っている BFCL-v2 leaderboard (cutoff date 09/03/2024)

Slide 15

Slide 15 text

MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents 自律的な機械学習研究フレームワークMLR-Copilotを提案 研究アイデアの生成、実験の実施、修正の3つのフェーズから構成 1. 研究アイデアの生成 既存の研究論文から研究課題を抽出し、仮説と実験計画を生成 2. 実験の実施 既存の研究論文からプロトタイプコードを取得し、それを実験計画に適合するように適応 3. 修正 実験の問題や改善点を研究者からフィードバックを受け取り、必要に応じて実験計画や実装を修正 5つの機械学習研究タスクにおいて、提案フレームワークの有効性を評価 研究アイデアは、ハイブリッドモデル、アンサンブル、前処理の変更、データ拡張の導入など新規性は薄い Agentic AI Systems

Slide 16

Slide 16 text

Large Language Model-Based Agents for Software Engineering: A Survey ソフトウェア開発のためのLLMエージェントのサーベイ論文 終盤には通常のLLMエージェントの構成要素についてイラストやツリー構造で分かりすくまとまっている Agentic AI Systems 単体テストのためのエージェント コード生成のためのエージェント 要求工学のためのエージェント

Slide 17

Slide 17 text

AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction ReActベースのLLMエージェントを関係抽出タスクに適応 複数のモジュール(検索、メモリ、抽出)と連携して情報を取得・処理する 1. エージェントが入力文を受け取り、関係の種類を推測する 2. 検索モジュールを使って関連するサンプルや知識を取得する 3. メモリモジュールを利用して過去の推論結果を参照し、誤りを避ける 4. 必要な情報が収集されたら、抽出モジュールが関係を抽出する AgentREが生成する推論の軌跡は、SLMのチューニングに利用可能 Agentic AI Systems

Slide 18

Slide 18 text

From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM- driven Agents AIとLLMを活用した新しいオンライン教育の形を提案 1動画にN人の生徒で学ぶ教育から、N体のエージェントの中に1人の生徒が学ぶパーソナライズスタイルへ 学習者が孤立感を感じることなく、学習意欲を維持でき、授業内容や進行を動的に調整することもでき、学生の エンゲージメントが向上し、教師の負担軽減になった Agentic AI Systems

Slide 19

Slide 19 text

Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations 複雑な情報探索において、ユーザーがまだ知らない「未知の未知」を発見するための手法Collaborative STORM (Co-STORM)を提案 研究者や市場分析者など、まだ気づいていない視点を見つけたい方が利用する 利用者は複数の専門的なエージェントの会話の中に時折入り、未知の未知を発見する 会話の内容はマインドマップで管理される マインドマップは階層構造を持ち、中心テーマから関連するサブトピックへと情報が整理されている どの情報が既に探索されたか、どの部分がまだ掘り下げられていないかを把握できる 最終的に生成されるレポートは、関連性、幅広さ、深さ、新規性のすべての面で優れていた Multi Agent Systems

Slide 20

Slide 20 text

Agentic Retrieval-Augmented Generation for Time Series Analysis 時系列解析のためのマルチエージェント型RAGフレームワークを提案 階層型マルチエージェント形式をとり、各サブエージェントは時系列タスク特化SLMになっている 各プロンプトプールは、key-valueストアで、Keyに特定の時系列パターン(トレンド、周期性、イベント)、 Valueに過去のデータから学習された具体的な知識が含まれ、SLMの予測に利用される(RAGの部分) • Key-Valueの例:”祝日の影響”:”毎年の祝日セール期間中には、オンラインショッピングのトラフィックが平均30%増加 する。” 時系列予測、分類、異常検知、欠損補完タスクで評価し、Llama3ベースな提案手法が高い評価結果を示した Multi Agent Systems

Slide 21

Slide 21 text

MEDCO: Medical Education Copilots Based on A Multi-Agent Framework MEDCOは、医療教育における診断スキル向上を目指したマルチエージェントシステム 仮想学生が医療教育現場での診察をシミュレートし、患者、専門医、放射線技師と対話する • 教育フェーズ:学生が259人の患者と対話し診断結果レポートを作成し、専門医から評価を受けメモリに記録 • 実践フェーズ:患者の初期診断のあと、メモリを参照し、再考と想起を経て、患者に追加質問し最終診断する MEDCOで訓練を受けた学生が、診断能力を向上させるとともに、人間らしい学習行動を示すことが確認 Multi Agent Systems

Slide 22

Slide 22 text

Persuasion Games with Large Language Models LLMを用いたマルチエージェントシステムによるユーザー説得フレームワークを提案 保険、銀行、投資における300の対話を生成し、LLMがどのようにして説得力を発揮するかを評価した ユーザー側のLLMに感情(感謝、怒りなど)と動機(製品への興味、変化の欲求など)を与えて比較する 対話の後、ユーザーの行動が購入、サイト訪問、情報請求になれば説得できたとみなし、購入拒否は説得失敗 対話の前後のアンケートで製品やブランドに対するユーザーの視点の変化でポジティブになると説得成功 ベースラインに比べ行動は情報請求が増えたが、否定的な感情がユーザーにつくと対話が短くなり説得率も低下 Multi Agent Systems 説得するための回答生成フロー

Slide 23

Slide 23 text

AUTOGEN STUDIO: A No-Code Developer Tool for Building and Debugging Multi- Agent Systems MicrosoftからAUTOGEN STUDIOというノーコード開発ツールの提案 複数のエージェントが協力してタスクを実行するMASを構築、デバッグ、評価するために設計 AutoGenがプロ開発向けだったため、もっと開発の敷居を下げるために開発された Multi Agent Systems

Slide 24

Slide 24 text

BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems LLMの協力と競争能力を評価するためのベンチマークBattleAgentBenchを提案 レベル1:基礎的なエージェント能力 • ステージ1と2では、単一エージェントのゲームルール理解と空間認識能力を評価 • Claude 3.5 SonnetとGPT-4o-miniが高い精度を達成 レベル2:ペアエージェントのインタラクション • ステージ3と4では、2つのエージェントが協力または競争してタスクを遂行する能力を評価 • Claude 3.5 Sonnet以外は指示フォーマットの複雑さが増すにつれて精度低下 レベル3;マルチエージェントダイナミクス • ステージ5から7では、複雑な協力および競争シナリオで、複数のエージェントの動的な協力関係を評価 • Claude 3.5 SonnetとGPT-4o-miniは複雑な環境でも高いスコアを維持し、動的な協力シナリオでも高性能 Multi Agent Systems

Slide 25

Slide 25 text

Focus Agent: LLM-Powered Virtual Focus Group HCI系の研究でフォーカスグループのシミュレーションシステムを提案 フォーカスグループは、特定のテーマに対して質的に深い洞察を得るために利用される方法 参加者の招集や経験豊富なモデレーターの不足が課題となり、AIモデレーターの可能性を検討した 人間参加者の中でAIモデレーターが有効か、AI参加者とAIモデレーターによるシミュレーションで検証した AI参加者は、多くの場合で人間の意見と一致する意見を生成したが、一般的な意見に集中しがちで、ユニークな視点 や創造的なアイデアは人間の方が多く提供される傾向がある AIモデレーターは、進行や質問もできるが、質問の繰り返しや人間の意図を十分に理解できないなどの限界があった Multi Agent Systems

Slide 26

Slide 26 text

9月9日 更新 • 論文 • プロダクト・ニュース

Slide 27

Slide 27 text

プロダクト/ニュース ニュース • Large Language Model Agents Course ブログ • Mastering AI Agents: From Basics to Multi-Agent Systems • This Week in AI was WILD: Grok 2, Claude, SearchGPT, AgentQ and AI Scientist You Can’t Afford to Miss • Navigating the New Types of LLM Agents and Architectures

Slide 28

Slide 28 text

Large Language Model Agents Course • LLMエージェントに対するBerkeleyの授業がMOOC形式で受けられる • 講義してくれる方も様々な企業から集まっている • 9/9(月)からスタート!

Slide 29

Slide 29 text

Mastering AI Agents: From Basics to Multi-Agent Systems AIエージェントは、LLMに基づいており、自律的にタスクを実行する能力を持っています。 複雑なタスクを分解し、計画、推論、学習を通じてゴールを達成します。 AIエージェントは、情報提供型AIから行動型AIへ、さらにはユーザーのニーズを予測し、能動的に行動するAIへと 進化しています。 ビジネスプロセスの自動化や顧客サービスの向上、科学研究の加速、クリエイティブな分野での活用が期待され ています。 AIエージェントの構造、初歩的な構築方法、高度な技術、マルチエージェントシステムのパフォーマンス向上、 課題と将来の展望が書いてます。 Planningの出力例 https://medium.com/@vinitgela/the-rise-of-ai-agents-91f93379c0c8

Slide 30

Slide 30 text

This Week in AI was WILD: Grok 2, Claude, SearchGPT, AgentQ and AI Scientist You Can’t Afford to Miss 8月18日に公開された生成AIニュースまとめ記事 • Claudeのプロンプトキャッシング: AnthropicがClaudeにプロンプトキャッシング機能を追加。これにより、会 話履歴やコードベースをキャッシュし、レスポンス速度と精度が向上する。キャッシングコストは初期に25% 増だが、再利用時は通常の10%のコストで済む。 • Grok 2 (Elon Muskのx.ai): Grok 2は、Claude 3.5 SonnetやGPT-4-Turboを凌駕する性能を持ち、特に論理や 数学的推論で優れた結果を示す。 • SearchGPT: 広告なしで正確かつパーソナライズされた結果を提供する新しい検索エンジン。Googleの支配力 を脅かす存在として注目されている。 • Mr. StrawberryのAIハイプ: AIに関する嘘の情報をTwitterで広め、フォロワーを集めたが、結局は「パフォー マンスアート」だったと告白。 • AgentQ: 複雑なタスクをこなす次世代AIエージェント。MCTSとAIの自己評価を組み合わせ、ウェブナビゲー ションや意思決定を大幅に改善する。 • AI Scientist: Sakana AIが開発したAI Scientistは、完全に自律的に研究を行い、新しい知識を発見できるツー ル。仮説の生成、実験、研究論文の作成まで自動化。 • GoogleのGeminiイベント: デモでトラブルが発生し、期待に応えられなかったが、Googleは会話型ボイスモデ ルの提供でOpenAIに先行した。

Slide 31

Slide 31 text

Navigating the New Types of LLM Agents and Architectures The failure of ReAct agents gives way to a new generation of agents — and possibilities • 2023年には「Retrieval Augmented Generation」(RAG)が注目されましたが、2024年は「エージェント」が 焦点となっています。 • 多くの企業がチャットボットエージェントを活用し、エージェントの構築に新たなフレームワークが登場しま したが、消費者や企業ユーザーへの普及は進んでいません。 • 最初の世代のReActエージェントは高度に抽象化された構造を持ちましたが、実用性に乏しく、その結果、よ り限定された問題空間を持つ次世代エージェントが登場しました。 • 次世代エージェントは、より狭い解決策空間を持ち、特定のタスクに集中するため、強力なエージェントが構 築しやすい点が特徴です。また、多くのエージェントはLLMによるルーターと各コンポーネントで構成され、 反復的なデータ処理が行われます。 • エージェントを使用するべきかどうかは、アプリケーションが反復的なデータフローを必要とするか、過去の 行動に基づいて異なるフローをたどる必要があるか、複数のアクションの状態空間を持つかによって判断でき ます。 • エージェントが直面する一般的な課題としては、長期的な計画の難しさ、ツール呼び出しの誤作動、パフォー マンスの不安定さが挙げられます。これらの課題に対処するためには、問題空間を事前に分割することや、 コードベースのルーターを導入することが有効です。

Slide 32

Slide 32 text

過去のアーカイブ • SpeakerDeckに4月、5月、6月、7月、8月の資料を分けて公開しています。

Slide 33

Slide 33 text

No content