Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News! 4月号 論文のアーカイブ

masatoto
April 30, 2024

Weekly AI Agents News! 4月号 論文のアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

masatoto

April 30, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論⽂ 4⽉分 Agent Capabilities 推論 • Beyond Chain-of-Thought: A Survey

    of Chain-of-X Paradigms for LLMs • ChatShop: Interactive Information Seeking with Language Agents • Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models • Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought • Graph of Thoughts: Solving Elaborate Problems with Large Language Models メモリ • Memory Sharing for Large Language Model based Agents • A Survey on the Memory Mechanism of Large Language Model based Agents エージェントの評価 • Foundational Challenges in Assuring Alignment and Safety of Large Language Models • GPT in Sheep's Clothing: The Risk of Customized GPTs 計画 • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing Agent Framework • The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions • Aligning LLM Agents by Learning Latent Preference from User Edits • AgentKit: Flow Engineering with Graphs, not Coding • The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey • GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications • AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications
  2. 論⽂ 4⽉分 Agentic AI Systems • CT-Agent: Clinical Trial Multi-Agent

    with Large Language Model-based Reasoning • Automated Social Science: Language Models as Scientist and Subjects∗ • A Multimodal Automated Interpretability Agent • ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models • AutoCodeRover: Autonomous Program Improvement Multi Agent Systems • NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding • AgentCoord: Visually Exploring Coordination Strategy for LLM-based Multi-Agent Collaboration • Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents • Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation • 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System Computer Controlled Agents • MMInA: Benchmarking Multihop Multimodal Internet Agents • OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments • Autonomous Evaluation and Refinement of Digital Agents
  3. Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs •

    CoTの派⽣を網羅的にサーベイした論⽂ • CoTは問題を分解する途中過程を表す <input, thoughts, output> • CoTだけでは複雑な問題に対する理解が不⾜している • CoXでは途中過程の中間ノードを異なる形で設計し、具体的なタスクや⽬的に応じた構造を変えている Agent Capabilities: 推論 4⽉29⽇ 更新分
  4. Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs Chain-of-Intermediates

    問題解決プロセスを明確な中間ステップに分割するこ とに重点 Chain-of-Augmentation タスク実⾏プロセスに追加の情報や指⽰を組み込むこ とに重点 Chain-of-Feedback ⽣成された内容の改善や精度向上を⽬的としたフィー ドバックの組み込みに重点 Chain-of-Models 異なる専⾨性を持つ複数のモデルを連携させることに 重点 Multi-Modal Interaction 画像内の詳細に焦点を当てるタスク、 テキストベースで画像編集を⾏うタスクなど Factuality & Safety LLMsが⽣成する情報の事実性や安全性を⾼めるタス ク Multi-Step Reasoning 問題を⼩さなステップに分割して逐⼀解決するタスク Instruction Following 与えられた指⽰に従って特定のタスクを実⾏する能⼒ を強化するタスク LLMs as Agents LLMを計画や意思決定プロセスに活⽤するタスク Evaluation Tools LLMの性能を評価するために特別に設計されたタスク 4⽉29⽇ 更新分 Agent Capabilities: 推論
  5. ChatShop: Interactive Information Seeking • 現状のLLMエージェントは戦略的に新しい情報を探求する能⼒が⽋けている • ウェブショッピングのタスクを利⽤し、エージェントが対話を通じてユーザーの好みを探り、情報を徐々に蓄 積することで意思決定を⾏うChatShopというタスクを提案 •

    エージェントがリアルタイムでユーザーと対話しながら商品情報を収集し、適切な商品を推薦する能⼒が評価 買い物客が⼈間かエージェントかでエラー分析 要件忘れ/誤解/質問不⾜/繰り返す同じ質問/ミスリード Agent Capabilities: 推論 4⽉21⽇ 更新分
  6. A Survey on the Memory Mechanism of Large Language Model

    based Agents • LLM エージェントのメモリに関してサーベイした論⽂ (1) LLMエージェントのメモリとは何か (2) なぜLLMエージェントにメモリが必要なのか (3) LLMエージェントのメモリをどのように実装し評価するか メモリモジュールの重要性 4⽉29⽇ 更新分 Agent Capabilities: メモリ
  7. A Survey on the Memory Mechanism of Large Language Model

    based Agents (1) LLMエージェントのメモリとは何か? • エージェントの試⾏履歴で表される • タスクごとにエージェントの試⾏軌跡データを管理する • 試⾏軌跡データは状態と⾏動の組の系列で表される 4⽉29⽇ 更新分 Agent Capabilities: メモリ
  8. A Survey on the Memory Mechanism of Large Language Model

    based Agents (2) なぜLLMエージェントにメモリが必要なのか • 経験の蓄積 • 将来似たタスクを遂⾏する際に効率が上がる • 過去のエラー計画、不適切な⾏動、または失敗した経験を記憶する • 環境探索 • いつ、どのように探索を⾏うかをより適切に決定することができる • 様々な⾏動をおこないフィードバックと共に記録する • 知識の抽象化 • 未知の環境に対して⼀般化できるようになる • ⽣の観察を要約することで⾼次に抽象化して記録する • 対話 • メモリがなければ、エージェントは⽂脈を知らず、会話を続けることができない • 過去の会話に関する情報を記憶する • パーソナライズ • ユーザーとエージェントの対話中の事実情報だけでなく、ユーザーの好みやスタイルも記憶する 4⽉29⽇ 更新分 Agent Capabilities: メモリ
  9. A Survey on the Memory Mechanism of Large Language Model

    based Agents (3) LLMエージェントのメモリをどのように実装し評価するか メモリモジュールをどのように効果的に評価するかは未解決の問題 (1) 直接評価:メモリモジュールの能⼒を独⽴に測定する (2) 間接評価:エージェントタスクを通じてメモリモジュールを評価する 4⽉29⽇ 更新分 Agent Capabilities: メモリ
  10. GPT in Sheep's Clothing: The Risk of Customized GPTs •

    様々な種類のサイバー攻撃がGPTsを使⽤してどのように実⾏されるかを⽰した論⽂ • 防御策も提案( GPTの⾃⼰評価からセキュリティリスクを特定し、対策を講じる) 脅威の⼀覧 防御策の⼀覧 Agent Capabilities: エージェントの評価 4⽉29⽇ 更新分
  11. Foundational Challenges in Assuring Alignment and Safety • LLMの安全性に関する課題 •

    エージェントの安全性を保証するための指摘事項 • LLMエージェントが継続的に⽣涯学習(Lifelong Learning)をすること • フィードバックや新しい経験に基づいて⾃⾝の理解を適応させる能⼒によって駆動する必要がある • そのために強化学習や転移学習の利⽤と発展が求められる • LLMエージェントが不完全で不確実で⾼いリスクを伴う状況に対してロバストかつ慎重に⾏動すること • 曖昧なシナリオで慎重な決定を下すため、アンサンブル、不確実性の定量化や安全な強化学習を導⼊ する必要がある • LLMエージェントが欺瞞、権⼒追求、⾃⼰保存などの望ましくない⾏動にどのように傾くか把握すること • 解釈可能性の技術から、⾏動の原因分析をする必要がある • LLMエージェント向けのよりロバストなモニタリングシステムを構築すること • 予期せぬ⾏動や予想される規範からの逸脱を特定するための⾼度な異常検出アルゴリズムを組み込む • LLMエージェント間の共謀⾏動を防⽌および検出すること • 敵対的攻撃などから技術を発展させる必要がある Agent Capabilities: エージェントの評価 4⽉21⽇ 更新分
  12. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing •

    モンテカルロ⽊探索(MCTS)とLLMを統合したALPHALLM を提案し計画と⾃⼰改善を改良 • Imagination (類似プロンプト⽣成)、 Searching (MCTS)、 Criticizing (フィードバック提供)の3つの コンポーネントで構成 • MCTSでは以下の⼯夫をして探索範囲を狭めている • ⾏動空間をトークンや⽂レベルでなくオプションレベルにする • 状態空間も状態マージの既存⼿法からグルーピングをおこなう Agent Capabilities: 計画 4⽉21⽇ 更新分
  13. The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions •

    OpenAIからプロンプトインジェクションやジェイルブレイクなどのセキュリティ脅威に対処する対処法の提案 • モデルが指⽰に従う優先度をメッセージタイプで分ける指⽰階層(System>User>Model>Tool)を定義 • 実際にセキュリティ脅威の攻撃に対して頑健になった(Web browsingでの攻撃の脅威が少しはマシになるか) 優先度がわかる例 性能⽐較 4⽉29⽇ 更新分 Agent Framework
  14. Aligning LLM Agents by Learning Latent Preference from User Edits

    • ユーザーによる編集フィードバックを基にLLMエージェントのパーソナライズを改善する⼿法の提案 • ユーザーの⽂章の編集履歴から好みを学習し、それを活⽤してユーザーにより適したレスポンスを⽣成するこ とで、ユーザーの労⼒を減らし、エージェントのパフォーマンスを向上させる(Human in the Loop) 4⽉29⽇ 更新分 Agent Framework
  15. AgentKit: Flow Engineering with Graphs, not Coding • 個別のサブタスクをノードとして定義し、ノードを連結して直観的な「思考プロセス」を形成することができ るLLMプロンプティングフレームワークAgentKitを提案

    • 各ノードは⼊⼒の前処理、LLMへのプロンプト処理、結果の後処理を⾏うよう設計 • プログラミング経験のないユーザーでも⾼度なエージェントを設計できる(Difyと似ているノーコード系) 4⽉29⽇ 更新分 Agent Framework
  16. AI Agent Architectures for Reasoning, Planning, and Tool Calling: A

    Survey • シングルとマルチのエージェントアーキテクチャの良し悪しや現状のエージェントの課題を説明した論⽂ • シングルエージェントアーキテクチャ • ReAct:Reasoning + Act ⼈間のフィードバックが⼊れられない、思考のループなどが課題 • RAISE : ReActにメモリを持たせたが、複雑なタスクに幻覚を⾒る • Reflextion:⾔語フィードバックで幻覚を減らすが、参照情報が必要で検索性能とトークンの制限に苦しむ • AUTOGPT+P:Planningを⼊れてツールを使うが、正しくないツール利⽤や⼈間から計画の修正ができない • LATS:計画と⾏動と推論をツリーベースにするが、推論時間とアルゴリズムの複雑さから実⽤性が困難か • マルチエージェントアーキテクチャ • Dynamic LLM-Agent Network :タスクごとにエージェントの貢献度を測定し、貢献度の⾼いチームを作る • AgentVerse:ラウンドごとにチームメンバーを⼊れ替え、タスクをこなす • MetaGPT:エージェント間の会話を構造化した⽂書でやりとりし、情報共有の仕⽅を徹底した • 課題 • エージェントの評価コストが⾼い • ベンチマークに他のエージェントも評価できるほど汎⽤性がない • 現実世界と問いデータとの差がどのくらいあるのか 4⽉21⽇ 更新分 Agent Framework
  17. A Multimodal Automated Interpretability Agent • NNモデルの解釈可能性の実験を⾃律的に⾏うエージェントシステムの構築 • 解釈可能性のクエリが与えられると、特定の仮説をテストする実験を実⾏し、実験結果を観察し、ユーザのク エリに答えられるようになるまで仮説を更新する

    • ⼈間でもできる作業だが⾯倒なため、エージェントに代替 デモサイトあり:https://multimodal-interpretability.csail.mit.edu/maia/ 質問例 「特定のニューロンを活性化させる画像を教えて!」 「モデルのバイアスを教えて!」 MAIA Agentic AI Systems 4⽉29⽇ 更新分
  18. Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society

    of LLM Agents • 複数エージェントによる資源共有問題で戦略的かつ倫理的な意思決定を⾏う能⼒を評価するためのシミュレーショ ン環境をを開発 • エージェントに「もし全員がこの⾏動をとったらどうなるか」という視点から判断するように指⽰ • GPT-4 と Claude-3 Opus は即時報酬の最⼤化ではなく、その⾏動が集団全体に与える⻑期的な影響を考慮できた Multi Agent Systems 資源の分配 個⼈の判断 エージェント:漁師 共有資源:湖の⿂ 漁師の仕事をみんなが続けるためには、 全員が捕獲しすぎず、繁殖と収⼊の⻑期バランスを取る 個⼈の結果をもとに 次のラウンドを全員で議論 将来の計画 過去ラウンドに基づいて将 来の戦略を個⼈が練る MARL的な問題設定 4⽉29⽇ 更新分
  19. Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation •

    RLHFで微調整されたモデルは過信しやすいことが別論⽂で⽰されている • LLMの信頼度推定に複数のLLMエージェントによる2段階のグループ審議プロセス⽅法を提案 Multi Agent Systems 4⽉21⽇ 更新分
  20. MMInA: Benchmarking Multihop Multimodal Internet Agents • 複数ウェブサイトを遷移しながらタスクを遂⾏するWebエージェントのベンチマーク • 全体的にGemini-Pro-Visionの⽅がGPT-4Vより精度が⾼い

    • 2つのサイトで済む簡単なタスク設定でも1サイト⽬で70%、2サイト⽬で8%まで成功率が落ちる Computer Controlled Agents 4⽉21⽇ 更新分
  21. Autonomous Evaluation and Refinement of Digital Agents • デジタルエージェントの性能をVLMで軌跡かステップレベルで評価し⾃動で改良する⼿法を提案 •

    ⾃動評価の精度はオラクルと⽐較し80~90% ユーザーの意図は、GitLab で最もスターが付けられている上位 1 リポジトリにスターを付けること でしたが、ボットは既にスターが付けられている特定のリポジトリにスターを付けようとしました。 問題のリポジトリがスター付きのトップ1であることを⽰すものはなく、ボットはユーザーの意図に 基づいて正しいリポジトリとやりとりしていることを確認するためのアクションを実⾏しませんでし た。したがって、タスクは正常に完了していません。 成功した評価の例 Computer Controlled Agents 4⽉14⽇ 更新分