Weekly AI Agents News! 4月号論文のアーカイブ

Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190 ݄̐߸ 論⽂編

Slide 2

Slide 2 text

はじめに • こちらはアーカイブです。更新⽇付をつけてジャンルごとに並び替えています。 • LLMエージェントに関するニュースや論⽂をほぼ毎週更新しています。 • 論⽂、プロダクトの順番でまとめています。 • 個⼈の備忘録で取り組んでおり、誤りがある場合もあります。 • ⽂字サイズ16ptで⼩さいのでPCで⾒ることをおすすめします。

Slide 3

Slide 3 text

論⽂ 4⽉分 Agent Capabilities 推論 • Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs • ChatShop: Interactive Information Seeking with Language Agents • Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models • Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought • Graph of Thoughts: Solving Elaborate Problems with Large Language Models メモリ • Memory Sharing for Large Language Model based Agents • A Survey on the Memory Mechanism of Large Language Model based Agents エージェントの評価 • Foundational Challenges in Assuring Alignment and Safety of Large Language Models • GPT in Sheep's Clothing: The Risk of Customized GPTs 計画 • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing Agent Framework • The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions • Aligning LLM Agents by Learning Latent Preference from User Edits • AgentKit: Flow Engineering with Graphs, not Coding • The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey • GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications • AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications

Slide 4

Slide 4 text

論⽂ 4⽉分 Agentic AI Systems • CT-Agent: Clinical Trial Multi-Agent with Large Language Model-based Reasoning • Automated Social Science: Language Models as Scientist and Subjects∗ • A Multimodal Automated Interpretability Agent • ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models • AutoCodeRover: Autonomous Program Improvement Multi Agent Systems • NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding • AgentCoord: Visually Exploring Coordination Strategy for LLM-based Multi-Agent Collaboration • Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents • Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation • 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System Computer Controlled Agents • MMInA: Benchmarking Multihop Multimodal Internet Agents • OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments • Autonomous Evaluation and Refinement of Digital Agents

Slide 5

Slide 5 text

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs • CoTの派⽣を網羅的にサーベイした論⽂ • CoTは問題を分解する途中過程を表す • CoTだけでは複雑な問題に対する理解が不⾜している • CoXでは途中過程の中間ノードを異なる形で設計し、具体的なタスクや⽬的に応じた構造を変えている Agent Capabilities: 推論 4⽉29⽇更新分

Slide 6

Slide 6 text

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs Chain-of-Intermediates 問題解決プロセスを明確な中間ステップに分割することに重点 Chain-of-Augmentation タスク実⾏プロセスに追加の情報や指⽰を組み込むことに重点 Chain-of-Feedback ⽣成された内容の改善や精度向上を⽬的としたフィードバックの組み込みに重点 Chain-of-Models 異なる専⾨性を持つ複数のモデルを連携させることに重点 Multi-Modal Interaction 画像内の詳細に焦点を当てるタスク、テキストベースで画像編集を⾏うタスクなど Factuality & Safety LLMsが⽣成する情報の事実性や安全性を⾼めるタスク Multi-Step Reasoning 問題を⼩さなステップに分割して逐⼀解決するタスク Instruction Following 与えられた指⽰に従って特定のタスクを実⾏する能⼒を強化するタスク LLMs as Agents LLMを計画や意思決定プロセスに活⽤するタスク Evaluation Tools LLMの性能を評価するために特別に設計されたタスク 4⽉29⽇更新分 Agent Capabilities: 推論

Slide 7

Slide 7 text

ChatShop: Interactive Information Seeking • 現状のLLMエージェントは戦略的に新しい情報を探求する能⼒が⽋けている • ウェブショッピングのタスクを利⽤し、エージェントが対話を通じてユーザーの好みを探り、情報を徐々に蓄積することで意思決定を⾏うChatShopというタスクを提案 • エージェントがリアルタイムでユーザーと対話しながら商品情報を収集し、適切な商品を推薦する能⼒が評価買い物客が⼈間かエージェントかでエラー分析要件忘れ/誤解/質問不⾜/繰り返す同じ質問/ミスリード Agent Capabilities: 推論 4⽉21⽇更新分

Slide 8

Slide 8 text

Visualization-of-Thought • “思考の視覚化”（VoT）プロンプティングを提案 • LLMが推論過程を視覚化（厳密には⾔語化）することで、空間推論を向上できることを⽰す • グリッドワールドのナビゲーションなど簡易環境で検証した Agent Capabilities: 推論 4⽉21⽇更新分

Slide 9

Slide 9 text

LM-Guided Chain-of-Thought • ⼩規模な⾔語モデルを活⽤して、 100B以上のLLMの推論能⼒を向上させるフレームワーク • 軽量モデルが問題に対して論理的根拠を⽣成し、LLMがその結果に基づきタスクの出⼒を⽣成する • 軽量モデルの学習（知識蒸留とPPO）のみ必要で資源効率に優れている Agent Capabilities: 推論 4⽉14⽇更新分

Slide 10

Slide 10 text

Graph Chain-of-Thought • 既存のテキストのみを使⽤した知識拡張は、テキスト間の関連性やグラフ構造を考慮していない • 学術は引⽤、著者、出版でグラフ化され、ヘルスケア、法律、ECでも同様にグラフが定義できる • Graph-CoTは、LLMがグラフのノードを移動し、必要な情報を段階的に収集することを可能にする • 各ステップでは下図のように推論、グラフとのインタラクションを⽣成、実⾏をおこなう Agent Capabilities: 推論 4⽉14⽇更新分

Slide 11

Slide 11 text

Memory Sharing • LLMマルチエージェント⽤のメモリ共有フレームワークを導⼊ • プロンプトと回答のスコアを評価しメモリとインデックスに追加するか判断 • 捻りはない評価プロンプト Agent Capabilities: メモリ 4⽉21⽇更新分

Slide 12

Slide 12 text

A Survey on the Memory Mechanism of Large Language Model based Agents • LLM エージェントのメモリに関してサーベイした論⽂ (1) LLMエージェントのメモリとは何か (2) なぜLLMエージェントにメモリが必要なのか (3) LLMエージェントのメモリをどのように実装し評価するかメモリモジュールの重要性 4⽉29⽇更新分 Agent Capabilities: メモリ

Slide 13

Slide 13 text

A Survey on the Memory Mechanism of Large Language Model based Agents (1) LLMエージェントのメモリとは何か？ • エージェントの試⾏履歴で表される • タスクごとにエージェントの試⾏軌跡データを管理する • 試⾏軌跡データは状態と⾏動の組の系列で表される 4⽉29⽇更新分 Agent Capabilities: メモリ

Slide 14

Slide 14 text

A Survey on the Memory Mechanism of Large Language Model based Agents (2) なぜLLMエージェントにメモリが必要なのか • 経験の蓄積 • 将来似たタスクを遂⾏する際に効率が上がる • 過去のエラー計画、不適切な⾏動、または失敗した経験を記憶する • 環境探索 • いつ、どのように探索を⾏うかをより適切に決定することができる • 様々な⾏動をおこないフィードバックと共に記録する • 知識の抽象化 • 未知の環境に対して⼀般化できるようになる • ⽣の観察を要約することで⾼次に抽象化して記録する • 対話 • メモリがなければ、エージェントは⽂脈を知らず、会話を続けることができない • 過去の会話に関する情報を記憶する • パーソナライズ • ユーザーとエージェントの対話中の事実情報だけでなく、ユーザーの好みやスタイルも記憶する 4⽉29⽇更新分 Agent Capabilities: メモリ

Slide 15

Slide 15 text

A Survey on the Memory Mechanism of Large Language Model based Agents (3) LLMエージェントのメモリをどのように実装し評価するかメモリモジュールをどのように効果的に評価するかは未解決の問題 (1) 直接評価：メモリモジュールの能⼒を独⽴に測定する (2) 間接評価：エージェントタスクを通じてメモリモジュールを評価する 4⽉29⽇更新分 Agent Capabilities: メモリ

Slide 16

Slide 16 text

GPT in Sheep's Clothing: The Risk of Customized GPTs • 様々な種類のサイバー攻撃がGPTsを使⽤してどのように実⾏されるかを⽰した論⽂ • 防御策も提案（ GPTの⾃⼰評価からセキュリティリスクを特定し、対策を講じる）脅威の⼀覧防御策の⼀覧 Agent Capabilities: エージェントの評価 4⽉29⽇更新分

Slide 17

Slide 17 text

Foundational Challenges in Assuring Alignment and Safety • LLMの安全性に関する課題 • エージェントの安全性を保証するための指摘事項 • LLMエージェントが継続的に⽣涯学習（Lifelong Learning）をすること • フィードバックや新しい経験に基づいて⾃⾝の理解を適応させる能⼒によって駆動する必要がある • そのために強化学習や転移学習の利⽤と発展が求められる • LLMエージェントが不完全で不確実で⾼いリスクを伴う状況に対してロバストかつ慎重に⾏動すること • 曖昧なシナリオで慎重な決定を下すため、アンサンブル、不確実性の定量化や安全な強化学習を導⼊する必要がある • LLMエージェントが欺瞞、権⼒追求、⾃⼰保存などの望ましくない⾏動にどのように傾くか把握すること • 解釈可能性の技術から、⾏動の原因分析をする必要がある • LLMエージェント向けのよりロバストなモニタリングシステムを構築すること • 予期せぬ⾏動や予想される規範からの逸脱を特定するための⾼度な異常検出アルゴリズムを組み込む • LLMエージェント間の共謀⾏動を防⽌および検出すること • 敵対的攻撃などから技術を発展させる必要がある Agent Capabilities: エージェントの評価 4⽉21⽇更新分

Slide 18

Slide 18 text

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing • モンテカルロ⽊探索（MCTS）とLLMを統合したALPHALLM を提案し計画と⾃⼰改善を改良 • Imagination （類似プロンプト⽣成）、 Searching （MCTS）、 Criticizing （フィードバック提供）の3つのコンポーネントで構成 • MCTSでは以下の⼯夫をして探索範囲を狭めている • ⾏動空間をトークンや⽂レベルでなくオプションレベルにする • 状態空間も状態マージの既存⼿法からグルーピングをおこなう Agent Capabilities: 計画 4⽉21⽇更新分

Slide 19

Slide 19 text

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions • OpenAIからプロンプトインジェクションやジェイルブレイクなどのセキュリティ脅威に対処する対処法の提案 • モデルが指⽰に従う優先度をメッセージタイプで分ける指⽰階層（System>User>Model>Tool）を定義 • 実際にセキュリティ脅威の攻撃に対して頑健になった（Web browsingでの攻撃の脅威が少しはマシになるか）優先度がわかる例性能⽐較 4⽉29⽇更新分 Agent Framework

Slide 20

Slide 20 text

Aligning LLM Agents by Learning Latent Preference from User Edits • ユーザーによる編集フィードバックを基にLLMエージェントのパーソナライズを改善する⼿法の提案 • ユーザーの⽂章の編集履歴から好みを学習し、それを活⽤してユーザーにより適したレスポンスを⽣成することで、ユーザーの労⼒を減らし、エージェントのパフォーマンスを向上させる（Human in the Loop） 4⽉29⽇更新分 Agent Framework

Slide 21

Slide 21 text

AgentKit: Flow Engineering with Graphs, not Coding • 個別のサブタスクをノードとして定義し、ノードを連結して直観的な「思考プロセス」を形成することができるLLMプロンプティングフレームワークAgentKitを提案 • 各ノードは⼊⼒の前処理、LLMへのプロンプト処理、結果の後処理を⾏うよう設計 • プログラミング経験のないユーザーでも⾼度なエージェントを設計できる（Difyと似ているノーコード系） 4⽉29⽇更新分 Agent Framework

Slide 22

Slide 22 text

AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey • シングルとマルチのエージェントアーキテクチャの良し悪しや現状のエージェントの課題を説明した論⽂ • シングルエージェントアーキテクチャ • ReAct：Reasoning + Act ⼈間のフィードバックが⼊れられない、思考のループなどが課題 • RAISE : ReActにメモリを持たせたが、複雑なタスクに幻覚を⾒る • Reflextion：⾔語フィードバックで幻覚を減らすが、参照情報が必要で検索性能とトークンの制限に苦しむ • AUTOGPT+P：Planningを⼊れてツールを使うが、正しくないツール利⽤や⼈間から計画の修正ができない • LATS：計画と⾏動と推論をツリーベースにするが、推論時間とアルゴリズムの複雑さから実⽤性が困難か • マルチエージェントアーキテクチャ • Dynamic LLM-Agent Network ：タスクごとにエージェントの貢献度を測定し、貢献度の⾼いチームを作る • AgentVerse：ラウンドごとにチームメンバーを⼊れ替え、タスクをこなす • MetaGPT：エージェント間の会話を構造化した⽂書でやりとりし、情報共有の仕⽅を徹底した • 課題 • エージェントの評価コストが⾼い • ベンチマークに他のエージェントも評価できるほど汎⽤性がない • 現実世界と問いデータとの差がどのくらいあるのか 4⽉21⽇更新分 Agent Framework

Slide 23

Slide 23 text

Gorilla Execution Engine (GoEx) • ⾃律型エージェントアプリケーションのアクションの安全性にはケアが必要 • 取り返しのつかない誤送⾦や誤送信、⼀定期間は取り返しのつく購⼊・予約やファイル更新など • 実⾏したアクションの取り消し機能、アクセス権限機能などの安全性に配慮したアクション実⾏ランタイム環境を開発⾃律型エージェントが徐々にサービスに深く組み込まれる 4⽉14⽇更新分 Agent Framework

Slide 24

Slide 24 text

AI2App • AIエージェントアプリケーションを開発するための統合開発環境（Visual IDE） • プロトタイピングキャンバス、AI⽀援コードエディター、エージェントデバッガー、管理システム、デプロイメントツールなど、⼀連の開発ツールがウェブベースのGUIで統合 4⽉14⽇更新分 Agent Framework

Slide 25

Slide 25 text

CT-Agent • GPT-4、マルチエージェント、LEAST-TO-MOST、およびReActを活⽤して、臨床試験タスクのために設計された臨床マルチエージェントシステム（CT-Agent）を提案 • マルチエージェントにすることで標準的なプロンプト法より改善した • 臨床試験の登録 • ⼈体に対する薬剤の安全性 • 疾患に対する薬剤の有効性 • LEAST-TO-MOST • ReActとLeast-to-Mostの組み合わせ Agentic AI Systems 4⽉29⽇更新分

Slide 26

Slide 26 text

Automated Social Science • 社会科学的仮説（構造因果モデル）を⾃動⽣成し、⼈の役割をエージェントが担い、テストする⽅法の提案 • SCMを⽤いたシミュレーションから得られた洞察は、LLMだけのそれでは得られないことを⽰している構造因果モデル（SCM）のシナリオ例構造因果モデルとLLMを組み合わせた社会科学的仮説の⾃動テストシステム Agentic AI Systems 4⽉29⽇更新分

Slide 27

Slide 27 text

A Multimodal Automated Interpretability Agent • NNモデルの解釈可能性の実験を⾃律的に⾏うエージェントシステムの構築 • 解釈可能性のクエリが与えられると、特定の仮説をテストする実験を実⾏し、実験結果を観察し、ユーザのクエリに答えられるようになるまで仮説を更新する • ⼈間でもできる作業だが⾯倒なため、エージェントに代替デモサイトあり：https://multimodal-interpretability.csail.mit.edu/maia/ 質問例「特定のニューロンを活性化させる画像を教えて！」「モデルのバイアスを教えて！」 MAIA Agentic AI Systems 4⽉29⽇更新分

Slide 28

Slide 28 text

AutoCodeRover • ソフトウェア開発の⾃動化、バグ修正と機能追加を⽬的としている • LLMをコード検索機能と組み合わせ、プログラムの修正やパッチを⾃動的に⽣成するアプローチ • 開発者が平均2.77⽇かかる課題を、10分未満で解決できる例も67件あった Agentic AI Systems 4⽉14⽇更新分

Slide 29

Slide 29 text

ResearchAgent • 科学研究の⽣産性を向上のため、LLMを活⽤した研究アイデア⽣成エージェントを提案 • 論⽂を基に問題点の特定、⽅法論の開発、実験デザインの提案を⾃動でおこなう • 論⽂引⽤グラフや、多数の論⽂から抽出・集約された関連エンティティを活⽤しアイデア⽣成 • 複数の査読エージェントのレビューに基づいて、⽣成されたアイデアを反復的に改良 Agentic AI Systems 4⽉14⽇更新分

Slide 30

Slide 30 text

NegotiationToM • ⼼の理論の評価が⼈⼯データやゲーム設定で、現実の⼈間の相互作⽤シナリオでの評価が不⾜ • 多次元の精神状態（欲求、信念、意図）をカバーするNegotiationToMベンチマークを構築 • NegotiationToMは難易度が⾼く、欲求、信念、意図の順で精度が⾼いが、⼈間と⽐較して劣る性能を⽰した Multi Agent Systems 4⽉29⽇更新分

Slide 31

Slide 31 text

AgentCoord: Visually Exploring Coordination Strategy • 協調マルチエージェントタスクのログ分析は、⼤量のテキストから重要な情報を抽出することになり、認知的負担が課題 • AgentCoordは、視覚的インターフェースを通じてユーザーが容易に理解・操作できるよう設計されている Multi Agent Systems 4⽉29⽇更新分

Slide 32

Slide 32 text

Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents • 複数エージェントによる資源共有問題で戦略的かつ倫理的な意思決定を⾏う能⼒を評価するためのシミュレーション環境をを開発 • エージェントに「もし全員がこの⾏動をとったらどうなるか」という視点から判断するように指⽰ • GPT-4 と Claude-3 Opus は即時報酬の最⼤化ではなく、その⾏動が集団全体に与える⻑期的な影響を考慮できた Multi Agent Systems 資源の分配個⼈の判断エージェント：漁師共有資源：湖の⿂漁師の仕事をみんなが続けるためには、全員が捕獲しすぎず、繁殖と収⼊の⻑期バランスを取る個⼈の結果をもとに次のラウンドを全員で議論将来の計画過去ラウンドに基づいて将来の戦略を個⼈が練る MARL的な問題設定 4⽉29⽇更新分

Slide 33

Slide 33 text

Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation • RLHFで微調整されたモデルは過信しやすいことが別論⽂で⽰されている • LLMの信頼度推定に複数のLLMエージェントによる2段階のグループ審議プロセス⽅法を提案 Multi Agent Systems 4⽉21⽇更新分

Slide 34

Slide 34 text

360°REA • LLMエージェントの性能向上を⽬指し、組織の360度評価システムに着想を得たマルチエージェントフレームワークを提案 • 360度評価を⽤いて、⾃⼰、仲間、上司レベルから貴重なフィードバックを得る Multi Agent Systems 4⽉14⽇更新分

Slide 35

Slide 35 text

MMInA: Benchmarking Multihop Multimodal Internet Agents • 複数ウェブサイトを遷移しながらタスクを遂⾏するWebエージェントのベンチマーク • 全体的にGemini-Pro-Visionの⽅がGPT-4Vより精度が⾼い • ２つのサイトで済む簡単なタスク設定でも１サイト⽬で70%、２サイト⽬で8%まで成功率が落ちる Computer Controlled Agents 4⽉21⽇更新分

Slide 36

Slide 36 text

OSWORLD • OSWORLDはMLLMエージェントを使ったコンピュータタスクのベンチマークプラットフォーム • Ubuntu、Windows、macOSなどの異なるOSで動作するエージェントの評価をサポート • エージェントの性能評価では、⼈間が72.36%に対し、最も優れたモデルは12.24%の成功率 Computer Controlled Agents 4⽉14⽇更新分

Slide 37

Slide 37 text

Autonomous Evaluation and Refinement of Digital Agents • デジタルエージェントの性能をVLMで軌跡かステップレベルで評価し⾃動で改良する⼿法を提案 • ⾃動評価の精度はオラクルと⽐較し80~90% ユーザーの意図は、GitLab で最もスターが付けられている上位 1 リポジトリにスターを付けることでしたが、ボットは既にスターが付けられている特定のリポジトリにスターを付けようとしました。問題のリポジトリがスター付きのトップ1であることを⽰すものはなく、ボットはユーザーの意図に基づいて正しいリポジトリとやりとりしていることを確認するためのアクションを実⾏しませんでした。したがって、タスクは正常に完了していません。成功した評価の例 Computer Controlled Agents 4⽉14⽇更新分

Slide 38

Slide 38 text

No content