Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News! 5月号 論文のアーカイブ

Weekly AI Agents News! 5月号 論文のアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

masatoto

May 31, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論⽂ 5⽉分 Agent Capabilities 計画 • Agent Planning with World

    Knowledge Model • Large Language Models as Planning Domain Generators • Chain of Thoughtlessness: An Analysis of CoT in Planning • Sub-goal Distillation: A Method to Improve Small Language Agents • Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs ペルソナ • From Persona to Personalization: A Survey on Role-Playing Language Agents ⾃⼰修正 • Self-Reflection in LLM Agents: Effects on Problem-Solving Performance ⻑いコンテキスト理解 • Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context • Many-Shot In-Context Learning in Multimodal Foundation Models • In-Context Learning with Long-Context Models: An In-Depth Exploration • Many-Shot In-Context Learning • CinePile: A Long Video Question Answering Dataset and Benchmark RAG • A Survey on Retrieval-Augmented Text Generation for Large Language Models • When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively
  2. 論⽂ 5⽉分 エージェントの評価 • Exploring Prosocial Irrationality for LLM Agents:

    A Social Cognition View • Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models • Hallucination of Multimodal Large Language Models: A Survey • A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI • Large Language Models Meet NLP: A Survey Agent Framework • Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents • Human-Centered LLM-Agent User Interface: A Position Paper • How Far Are We From AGI? • Towards Guaranteed Safe AI:A Framework for Ensuring Robust and Reliable AI Systems • Air Gap: Protecting Privacy-Conscious Conversational Agents • Offline Training of Language Model Agents with Functions as Learnable Weights • Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation • A Survey on Self-Evolution of Large Language Models • The Ethics of Advanced AI Assistants
  3. 論⽂ 5⽉分 Agentic AI Systems • Eliciting Problem Specifications via

    Large Language Models • Assessing and Verifying Task Utility in LLM-Powered Applications • A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing • SWE-AGENT: AGENT-COMPUTER INTERFACES ENABLE AUTOMATED SOFTWARE ENGINEERING • Automating the Enterprise with Foundation Models • Autonomous LLM-driven research from data to human-verifiable research papers Multi Agent Systems • Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts • MapCoder: Multi-Agent Code Generation for Competitive Problem Solving • AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments • Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents • MARE: Multi-Agents Collaboration Framework for Requirements Engineering Computer Controlled Agents • Unveiling Disparities in Web Task Handling Between Human and Web Agent • Latent State Estimation Helps UI Agents to Reason
  4. Agent Planning with World Knowledge Model • LLMは実環境を理解する能⼒が不⼗分であり、幻覚⾏動や⽬的のない試⾏錯誤を⾏う傾向がある • World

    Knowledge Modelというタスク特化の計画⽀援モデルを学習して利⽤することでエージェントの計画の 質を⾼め、ステップレベルで助⾔をもらうことができる Agent Capabilities: Planning 5⽉27⽇ 更新分
  5. Large Language Models as Planning Domain Generators • 単純なLLMでは計画能⼒が乏しく、形式⾔語のPDDL (Planning

    Domain Definition Language)を活⽤した計 画能⼒向上の研究がある • この論⽂では、LLMsを⽤いてテキストからPDDL形式のドメインモデルを⽣成するための⼿法を提案 • ドメインモデルが得られると、初期状態から⽬標を達成するための計画⽴案がおこなえる • ⽣成されたドメインモデルの品質を⾃動評価する指標を提案し、9つの異なる計画ドメインで7つのLLMを評価 し、その性能を分析した 計画タスク Agent Capabilities: Planning 5⽉20⽇ 更新分
  6. Chain of Thoughtlessness: An Analysis of CoT in Planning •

    Blocksworldという古典的な計画の問題に対するCoTの調査 • 特化型プロンプトなほど、性能向上が顕著だが汎⽤性を失う(Stacking Prompt、Blocksworld Universal Algorithm) • 特化型でなければ、CoTは⼀般的な性能向上を⽰さない(Progression Proof、Zero-Shot CoT) • CoTでは、モデルが⼀般的なアルゴリズムを学習するのではなく、特定のパターンマッチングに近い Blocksworld Agent Capabilities: Planning 5⽉13⽇ 更新分
  7. Sub-goal Distillation: A Method to Improve Small Language Agents •

    計算コストを⼤幅に削減しつつ、LLMsの推論能⼒を引き継ぐエージェント⽤の知識蒸留⼿法を提案 • ⼩型⾔語モデルをサブゴール作成とアクション実⾏⽤にそれぞれ知識蒸留と模倣学習をする • ⼩型⾔語モデルには、FLAN-T5-LARGE(770Mパラメータ)を使⽤ ⼿法の概略図と両モジュールの⼊出⼒ ⾚がサブゴール ⿊はエキスパートの⾏動軌跡 Agent Capabilities: Planning 5⽉13⽇ 更新分
  8. Testing and Understanding Erroneous Planning in LLM Agents through Synthesized

    User Inputs • LLMエージェントが⻑期の複雑な計画タスクにおいて誤った計画を検出し、理解するためのフレームワークを 提案 • ユーザーの⼊⼒を基に制約をドメイン固有⾔語(DSL)で定義し、制約充⾜問題に落とし込み、そのもとで⽣ 成された計画が制約に違反するか検出する(制約充⾜問題として解がなければエージェントに計画は不可能) 制約条件を満たすか確認 5⽉6⽇ 更新分 Agent Capabilities: Planning
  9. From Persona to Personalization: A Survey on Role-Playing Language Agents

    • LLMエージェントのロールプレイングに関するサーベイ ⼈⼝統計ペルソナ:職業、⺠族、性格タイプのような特定の⼈⼝統計的特徴を持つ⼈物を表す キャラクターペルソナ:実世界の公⼈や漫画、映画のキャラを含む、個々のキャラクターを表す 個⼈のペルソナ:特定の個⼈の⾏動や好みのデータに基づいてカスタマイズされ、継続的に更新されるユーザー プロファイルを表す 5⽉6⽇ 更新分 Agent Capabilities : ペルソナ
  10. Self-Reflection in LLM Agents: Effects on Problem-Solving Performance • LLMエージェントの⾃⼰反省の様々な⼿法を様々なモデルで⽐較検証

    • ⾃⼰反省を⾏ったエージェントは統計的に有意に問題解決能⼒が向上した • ⾃⼰反省プロセス:誤答の問題のみ、問題と誤答と正解を与えて反省させ、その結果をもとに再回答させる • なお反省の結果に回答内容が含まれればマスクし再回答させる 反省の種類 Agent Capabilities: ⾃⼰修正 5⽉20⽇ 更新分
  11. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of

    context • Gemini 1.5 Pro(May 2024)とFlashの評価論⽂ • ⻑いコンテキストの理解をテキスト、動画、⾳声で評価 • Multiple Needles in a Haystack(プロンプトに与えた⼤量の情報の中から散らばった情報⽚を⾒つけるタスク) • Many Shot Learningで計画タスクや低資源⾔語の翻訳 タスクの例:74万トークンのコードから抽出 タスクの例:25万トークン⽂法書と辞書を参照し翻訳 Multiple Needles in a Haystack トークンが増えても精度が落ちにくい Many Shot Learning サンプル数が増えると 緩やかに計画精度向上 Agent Capabilities: ⻑いコンテキスト理解 5⽉20⽇ 更新分
  12. Many-Shot In-Context Learning in Multimodal Foundation Models • GPT-4o、GPT4(V)-Turbo、Gemini 1.5

    Proの3つのマルチモーダルモデルを使⽤しMany Shot Learningを評価 • Gemini 1.5 Proは、ほとんどのデータセットにおいてデモの数が増加するにつれて安定した性能向上を⽰した • バッチクエリを使⽤することで、個々のクエリと同等以上の性能を達成しながら、推論コストとレイテンシを ⼤幅に削減できた Agent Capabilities: ⻑いコンテキスト理解 5⽉20⽇ 更新分
  13. In-Context Learning with Long-Context Models: An In-Depth Exploration • ICLを⾮常に⻑いコンテキストで実⾏したときのモデルの振る舞いを調査

    1. 数百から数千のサンプル数を利⽤すると、性能が継続的に向上 2. サンプルのランダム選択と検索による取得のICLの⽐較は、サンプル数が増えると差がなくなる 3. サンプル数が増えれば、微調整の⽅が僅かに精度が良くなる 4. サンプルのラベルでソートしてプロンプトに与えるグループ化をすると性能が低下する Agent Capabilities: ⻑いコンテキスト理解 5⽉13⽇ 更新分
  14. Many-Shot In-Context Learning • In-Context Learning のサンプル数を数百から数千に増やしたMany Shot Learningの検証 •

    精度が向上したタスク:感情分析、分類、物流の計画⽴案 • 精度が向上しにくいタスク:翻訳、要約、コード検証 • 教師サンプルの少なさを補うReinforced ICLとUnsupervised ICLの提案 Many Shot Learning では最も成績の良かったショット数 Few Shot Learning ではベンチマークで使⽤されるショット数 5⽉6⽇ 更新分 Agent Capabilities: ⻑いコンテキスト理解
  15. CinePile: A Long Video Question Answering Dataset and Benchmark •

    既存の⻑編動画理解⽤データセットは動画全体を通じた理解の質問が少ない • ⻑編動画理解を⽬的とした新しいデータセットとベンチマーク「CinePile」を公開 • キャラクター(CRD):キャラクターAの決定は他のキャラクターにどのような影響を与えたか?など • 物語(NPA):どのような事件がキャラクターの態度を⼤きく変えたか?など • 設定(STA):特定の時間や場所での設定/ロケーションはどのように⾒えるか?など • 時間(TEMP):シーンの冒頭からエンディングまでのキャラクターの感情の変化は?など • 主題(TH):キャラクターAの⾏動が映画全体のテーマにどのように関連しているか?など • GPT-4oは、キャラクター(CRD) や物語(NPA) において優れた性能を⽰したが、時間 (TEMP) には苦戦 • Gemini 1.5 Proは、設定(STA) で特に⾼い性能を発揮したが、他のカテゴリでは平均的な性能 データセット内訳 平均2分40秒の動画 選択質問( 30万問) 9,396本の動画クリップ Agent Capabilities: ⻑いコンテキスト理解 5⽉20⽇ 更新分
  16. A Survey on Retrieval-Augmented Text Generation for Large Language Models

    • RAGのアルゴリズムをパートごとに⼿法を紹介するサーベイ論⽂ コメント • RAGをLLMエージェントに拡張すると、PlanningとTool UseとReflectionとMemoryが追加される • RAGのインデックスをToolとみなし、 インデクッス選択とクエリ⽣成をPlanningと考えると拡張しやすい • LLMエージェントにすると、Multi-hop Reasoning など⾼度な問題に応⽤できる 5⽉6⽇ 更新分 Agent Capabilities: RAG
  17. When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

    • LLMが追加のコンテキストが必要なときに検索をおこなうように学習する⼿法の提案 • LLMが〈RET〉トークンを⽣成するように訓練され、そのトークンはモデルが質問に答えられない場合に情報 検索が必要であることを⽰す • 質問に直接回答できる場合と、追加情報が必要な場合を区別するようにデータセットを準備する 5⽉6⽇ 更新分 Agent Capabilities: RAG
  18. Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View

    群衆効果(Herd Effect) - 他の参加者が全員間違った回答を選んだ場合に、その 選択に従う傾向が⾮常に⾼い 権威効果(Authority Effect) - 社会的地位や権威のある⽅からの間違った情報に対し て、LLMエージェントはその指⽰に従う傾向が強い 噂の連鎖効果(Rumor Chain Effect) - 情報が伝達される過程で徐々に歪んでいく現象が観察さ れ、情報の正確性が段階的に低下する 確証バイアス(Confirmation Bias) - LLMエージェントは⾃⾝の既存の信念や期待を⽀持する 情報を選びがちで反する情報を無視する傾向がある • LLMエージェントが不確かな条件下での意思決定においてどのような認知バイアスを⽰すかを探求する • LLMエージェントと⼈間が認知バイアスにおいて⾼い⼀貫性を⽰すことが確認された Agent Capabilities: エージェントの評価 5⽉27⽇ 更新分
  19. Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating

    basic world knowledge in language models • AIエージェントにとって、世界モデルを構築して活⽤する能⼒は重要だが、世界モデルの構成要素が明確に定 義されていないため、評価するのは難しい • EWOK(Elements of World Knowledge)フレームワークを提案 • LLMが特定の概念に関する知識を使⽤して、ターゲットテキストと同じ⽂脈テキストか分類する能⼒をテストする • コンセプト:社会的相互作⽤、空間関係、直感的物理、数の感覚、エージェントの推論など • LLMは、社会的相互作⽤(例えば、助ける、妨げるなどの⾏動)を理解する能⼒が⽐較的⾼い • LLMは、空間関係の能⼒が低く、「左/右」といった具体的な空間的指⽰に基づいた⽂脈の判断が難しい Agent Capabilities: エージェントの評価 5⽉20⽇ 更新分
  20. Hallucination of Multimodal Large Language Models: A Survey • マルチモーダルLLMの幻覚の種類、原因、指標、低減⽅法を調査した論⽂

    • 幻覚の種類はカテゴリ幻覚、属性幻覚、関係幻覚の3つに分類 カテゴリ幻覚:画像に存在しないオブジェクトのカテゴリを⽣成する現象 属性幻覚:(⾊、形、材質など)に関して誤った情報を⽣成する現象 関係幻覚:画像内のオブジェクト間の関係を誤って⽣成する現象 5⽉6⽇ 更新分 Agent Capabilities: エージェントの評価
  21. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    Google DeepMindからLLMとの対話によりユーザーが説得されるリスクについて体系的な調査 合理的な説得: 関連する事実、論理的な理由、または信頼できる証拠を提供することに基づき説得する 操作的な説得: 認知バイアスやヒューリスティックを利⽤するか、情報を誤って伝えることで説得する リスク 経済的害:AIがユーザーに不利な経済的決定を促す可能性 • AIが誤った投資情報を提供し、ユーザーが経済的損失を被る。 ⾝体的害:AIの誤った助⾔により、ユーザーの健康や安全が脅かされる可能性 • AIが誤った医療情報を提供し、ユーザーが不適切な治療を受ける。 ⼼理的害:AIがユーザーの⼼理的健康に悪影響を及ぼす可能性 • AIが不安を煽る情報を提供し、ユーザーのストレスや不安が増加する。 社会⽂化的害:AIが社会的または⽂化的な調和を乱す可能性 • AIが偏⾒や差別を助⻑する情報を拡散する。 政治的害:AIが政治的決定に不当な影響を与える可能性 • AIが誤った政治情報を広め、選挙に影響を与える。 プライバシーの害:AIがユーザーの個⼈情報を不適切に使⽤する可能性 • AIがユーザーの同意なしにデータを収集・共有する。 ⾃律性の害:AIがユーザーの意思決定の⾃由を侵害する可能性 • AIが操作的な⼿法を⽤いてユーザーを特定の⾏動に誘導する。 Agent Capabilities: エージェントの評価 5⽉13⽇ 更新分
  22. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities: エージェントの評価 5⽉13⽇ 更新分
  23. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities: エージェントの評価 5⽉13⽇ 更新分
  24. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities: エージェントの評価 5⽉13⽇ 更新分
  25. Large Language Models Meet NLP: A Survey • LLMがNLPタスクにどのように適⽤されているのか? •

    パラメータ固定型: ZSLやFSLなどプロンプト⼿法 • パラメータチューニング型: モデルのパラメータの更新を伴う学習⽅法 Agent Capabilities: エージェントの評価 5⽉27⽇ 更新分
  26. • LLMは従来のNLPタスクを既に解決したのか? • 各タスクで⾼い精度を達成する⼀⽅で、⻑いコンテキストの整合性や幻覚、⾔語⽂化の理解が課題 • LLMは汎⽤型のため、⼩型モデルの教師あり学習と⽐べてまだ性能差がある Neural Language Understanding •

    感情分析:LLMはFSLなどで従来⼿法よりも⾼い精度を達成。複雑な感情やニュアンスを理解 • 情報抽出:LLMは固有表現抽出、関係抽出、イベント抽出タスクで⾼精度 • 対話理解:対話履歴を考慮した⽂脈理解や意図推定において、⼈間に近い理解を実現 • テーブル理解:LLMはテーブル質問応答で精度が⾼いが、複雑な質問やテーブル内の曖昧性の解消が課題 Neural Language Generation • 要約:抽象的な要約や特定の観点からの要約を⽣成できるのが強み • コード⽣成:⾃然⾔語で指⽰し多⾔語対応可能だが、効率性や正確性に課題 • 機械翻訳:⽂脈を考慮した翻訳において⾼品質だが、低リソース⾔語の翻訳は課題 • 数学的推論: 複雑な問題を段階的に分解して解くCoTが効果的だが、複数条件や無限など概念の理解に課題 Large Language Models Meet NLP: A Survey Agent Capabilities: エージェントの評価 5⽉27⽇ 更新分
  27. Agent Design Pattern Catalogue: A Collection of Architectural Patterns for

    Foundation Model based Agents • LLMエージェントを設計するための16パターンを 説明した論⽂ • エージェントはユーザーが提供する⾼レベルの⽬ 標からサブゴールを策定できるもの(⽬標追求と 計画⽴案が可能なもの)とする • 16の設計パターンはユーザー、外部システム、 コーディネーターエージェント、実⾏エージェン トとその間のインタラクションで分けられる • それぞれのパターンでは、メリデメと関連する論 ⽂が紹介されている 実⾏エージェント コーディネーター ユーザー 外部システム Agent Framework 5⽉27⽇ 更新分
  28. Human-Centered LLM-Agent User Interface: A Position Paper • ユーザーが初めて使うシステムのオンボーディングにエージェントを活⽤する •

    LLM-Agent User Interface は LLMエージェントを利⽤したシステムとユーザー間のインタラクションを促進 するインターフェース • LAUIは、ユーザーを学び、そのニーズを理解し、システムについての専⾨知識を活⽤してユーザーにアドバイ スを提供する • LAUIの実例:⾳楽教育アプリを利⽤する⽣徒の演奏スタイルや学習進度に合わせて指導⽅法をカスタマイズ Agent Framework 5⽉27⽇ 更新分
  29. How Far Are We From AGI? • AGIの定義、⽬標、および発展のロードマップを⽰し、AGIの実現に必要な戦略について広範な調 査と議論を通じて掘り下げた120ページに及ぶ論⽂ 特定の分野で⼈間のパフォーマンスを超える

    現実世界のシナリオで⼈間のパフォーマンスを超える ⼈間の介⼊なしに⾃⼰進化する 最⼩限の⼈間の介⼊で新しい状況に適応する ドメイン間で知識を⼀般化する 創造性と⾰新性を⽰す 複雑な意思決定プロセスに従事する ⼈間や他のAIシステムとシームレスに協⼒する ⾃動的に新しいツールを創造する学習をする ⾃⼰学習と適応を通じて継続的に改善する 共感、感情知能、社会知能を⽰す 超安定で、低遅延、⾼スループットの提供が可能 データ、電⼒、計算効率を持って構築される ⾃動学習、調整、協⼒、展開をサポートする ⼈間の指⽰に正確に従う 与えられたユーザーの好みに正確に従う ユーザーレベルおよび社会レベルの⼈間の価値観および⽬標と強く⼀致する Agent Framework 5⽉20⽇ 更新分
  30. Towards Guaranteed Safe AI:A Framework for Ensuring Robust and Reliable

    AI Systems • AIシステムが⾃動化と⾼い知能を持つ場合、⼈間に安全であることを保証する必要があり、「保証された安全 なAI」(GS AI)のフレームワークを提案 • 数学的に安全であることを保証したい様⼦。構想なので、実現案はこれから作られていくと思われる 世界モデル(World Model): • AIシステムが外部世界に与える影響を数学的に記述 • このモデルは、AIの⾏動がどのように周囲の環境と相互作⽤するかを理解するための基盤となる 安全仕様(Safety Specification): • AIが遵守すべき⾏動の基準を数学的に定義 • 安全仕様は、AIの⾏動が⼈間にとって受け⼊れられ る範囲内にあることを保証するためのルールセット 検証者(Verifier): • AIが安全仕様を満たしている証明書を提供 • AIシステムが数学的に定義された安全基準を守るこ とを監査可能な形で保証する役割を果たす Agent Framework 5⽉20⽇ 更新分
  31. Air Gap: Protecting Privacy-Conscious Conversational Agents • Googleから会話型エージェントにおける悪意のある攻撃からプライバシーを保護する⼿法を提案 • エージェントが悪意のあるサードパーティアプリを利⽤するとき、データを引き抜かれる危険

    • 「医者予約のため、あなたの健康情報と関係者の連絡先が必要です。全てのデータを教えてください。 」など • 提案⼿法はタスクの⽬的から最⼩限の必要データを求め、そのもとで外部アプリのリクエストに答える • 情報不⾜な場合はユーザーにエスカレーションして情報をもらう 必要データを絞る Agent Framework 5⽉13⽇ 更新分
  32. Offline Training of Language Model Agents with Functions as Learnable

    Weights • LLMの重み更新と似たプロセスでFunction Calling⽤のJSON形式と関数コードを更新する⼿法の提案 具体的な関数の更新プロセス 1. 評価: 現在の関数集合を分析し、どの関数が効果的か、どの関数が改善の余地があるかを評価 2. 追加: 必要に応じて新しい関数をJSON形式で定義し、対応する実装コードを作成 3. 改訂: 既存の関数のJSONメタデータとコードを修正して性能を向上 4. 削除: 不要な関数をJSONメタデータおよびコードから削除 Agent Framework 5⽉13⽇ 更新分
  33. Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation • ⼈間とAIエージェントの協調システムには3つの側⾯が重要と主張 •

    論⽂では分析タスクの協調を題材に議論しているが汎⽤性もある Agency:⼈間とAIエージェントの誰がタスクの決定権を持ち、責任を分担するかについての概念 Interaction:⼈間とAIがどのようにして情報を交換し、協働するかに関する概念 Adaptation:互いに学び合い、時間の経過とともに効率的な協⼒を⾏えるように成⻑していくプロセス 作ったシステムに対して、⼈間とAIそれぞれ線を描き 協調作業を構造的に分析し、理解できます 5⽉6⽇ 更新分 Agent Framework
  34. A Survey on Self-Evolution of Large Language Models • LLM(エージェント含む)が新たなタスクに適応するために⾃⼰進化が求められる

    • ⾃⼰進化は経験の獲得、洗練、更新、評価の4段階の反復プロセスで構成される 経験の獲得 • 新たなタスクや未知の環境で初期の経験を蓄積する • 経験はタスクと試⾏とフィードバックで構成される 経験の洗練 • 獲得した経験を評価し、更新⽅法に合わせてデータを整形する • 経験はFilterlingか、Correcting か、Positiveデータのみか、Negativeと併⽤するか 更新 • 経験をもとに、モデルマージ、ツール作成、モデルパラメータかプロンプトかメモリを更新する 評価 • 更新されたモデルの性能を評価し、その効果を検証する 5⽉6⽇ 更新分 Agent Framework
  35. The Ethics of Advanced AI Assistants • Google DeepMindからAIアシスタントの倫理的・社会的問題を体系的に扱う200ページ越えの論⽂ •

    アシスタントを4種類定義 発⾒と理解のための思考アシスタント • リサーチやデータ分析など、ユーザーが新しいアイデアや概念を理解し、学習するのを⽀援する アイデアやコンテンツ⽣成のためのクリエイティブアシスタント • ⽂章やデザイン、⾳楽など、様々な形式のコンテンツ作成など、ユーザーの創造的な作業を⽀援する 計画と⾏動のためのパーソナルアシスタント • スケジュール管理やリマインダー設定、重要な情報の整理など、ユーザーの⽇々の⽣活を⽀援する ⼈⽣の⽬標を推進するためのパーソナルAI • キャリアの進展、健康管理、個⼈的な成⻑など、ユーザーの⻑期的な⽬標や野⼼を⽀援する 以下の話題についても議論されていますが、⻑いので興味あるところだけ読めば良さそう • Value Alignment(価値のアライメント)、Well-being(ウェルビーイング)、Safety(安全性)、Malicious Uses(悪⽤) • Influence(影響⼒)、Anthropomorphism(擬⼈化)、 Appropriate Relationships(適切な関係)、 Trust(信頼)、 Privacy(プラ イバシー) 5⽉6⽇ 更新分 Agent Framework
  36. The Ethics of Advanced AI Assistants 価値アライメント、安全性、誤⽤ • AIアシスタントは、ユーザーに⾃⾝の興味や⽬標を追求する⼒を与える •

    AIアシスタントは、ユーザーのウェルビーングを向上させる • AIアシスタントは、ユーザーの創造性を⾼める • AIアシスタントは、ユーザーの時間の有効活⽤を⽀援する • AIアシスタントは、価値アライメントによりユーザーのニーズが満たす ⼈間とアシスタントの相互作⽤ • AIアシスタントは、パーソナライズされたコーチングを通じて、ユーザーの成⻑と発達を促進するのに役⽴つ • AIアシスタントは、個⼈の嗜好を学び、意思決定を⽀援する情報を提供することで、ユーザーの⾃律性を促進する • AIアシスタントは、擬⼈化により⼼理的なサポートを提供し、ユーザーの⽬標達成を⽀援する • AIアシスタントは、適切な保証とプライバシー対策からユーザーに⼼理的な安⼼感を与え、デリケートな質問も助けられる • AIアシスタントは、より広範な⼈的交流や⼈間関係のネットワークをサポートする AIアシスタント社会 • AIアシスタントが、科学的発⾒を加速する • AIアシスタントは、⼈間同⼠の協⼒を強化する • AIアシスタントが、⼈間の対⼈コミュニケーションを強化する • AIアシスタントは、質の⾼い専⾨知識やアドバイスへのアクセスを⺠主化する • AIアシスタントは、誤った情報に関連する害を軽減する • AIアシスタントは、障害者にとってより公平な結果を達成するのに役⽴つ • AIアシスタントは、⽣産性と仕事の質を向上させる • AIアシスタントは、気候変動がもたらす課題に対処するのに役⽴つ 5⽉6⽇ 更新分 Agent Framework
  37. Eliciting Problem Specifications via Large Language Models • コンサルタントやSierなど問題をシステムが利⽤できる仕様に翻訳することが⼤事だが、これには経験値が必要 •

    LLMを活⽤して⾃然⾔語で記述された問題を半形式的な仕様に変換する⼿法を提案 • CTAエージェントは、問題と問題解決の特徴を定義し、問題空間を形成し、解法の質を評価するなど、⼀連のタス クを実⾏する。各タスクは、LLMの質問応答により実⾏される。 • 問題空間の⾃動⽣成 • 問題空間は、問題空間の要素(状態記述、演算⼦、パス制約)を含む 「問題」を解決する「システム」に落とし込む間を埋める役割でエージェントを使う Agentic AI Systems 5⽉27⽇ 更新分
  38. Assessing and Verifying Task Utility in LLM-Powered Applications • LLM駆動アプリケーションがUXとタスク実⾏率をどの程度向上させるかを評価するAgentEvalを提案

    • AgentEval は3つのエージェント(CriticAgent、QuantifierAgent、VerifierAgent)を通じておこなう CriticAgent:タスクの記述や成功・失敗した例に基づいて、タスクの有⽤性を評価するための基準を提案 QuantifierAgent:提案された基準に基づいて、アプリケーションのタスク有⽤性を定量化 VerifierAgent:最終的にCriticAgentが提案した基準が問題ないか検証 Agentic AI Systems 5⽉13⽇ 更新分
  39. A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing

    • LLMが産業の複雑なニーズに対応するためには、専⾨的なドメイン知識が必要 • 産業固有のデータを活⽤し、スマートマニュファクチャリングのためのデータ中⼼の産業⼤知識モデル (ILKM)フレームワークを提案 タスク(ツール) ナレッジ Agentic AI Systems 5⽉13⽇ 更新分
  40. SWE-AGENT • SWE-agentのために設計されたAgent-Computer Interface (ACI)を開発 検索/ナビゲーションコマンド • find file: リポジトリ内のファイル名を検索

    • search file: ファイル内の⽂字列を検索 • search dir: ディレクトリ内のファイルで⽂字列を検索 ファイルビューアコマンド • open: ファイルのパスを指定して開く • scroll down: ファイル内を下にスクロール • scroll up: ファイル内を上にスクロール • goto: 特定の⾏にジャンプ • バグ修正:search fileでバグがある関数を特定し、editで修正、pythonで修正が正しいか確認し、最終的に submitで修正をリポジトリに適⽤ • 新機能の追加:find fileで関連するファイルを特定し、openで内容を確認、editで新しいコードを追加し、 pythonでテスト実⾏、submitで適⽤ ファイルエディタコマンド: • edit: 開いているファイルの特定の⾏を編集 • linting: コードのエラーチェック コンテキスト管理: • submit: 最終的なパッチファイルを提出 • python: Pythonスクリプトの実⾏ Agentic AI Systems 5⽉13⽇ 更新分
  41. Autonomous LLM-driven research from data to human-verifiable research papers •

    データから⼈間が検証可能な研究論⽂を⾃動⽣成するプラットフォームdata-to-paperの提案 • データから仮説を⽴て、研究計画を設計し、コードを作成して解析を実⾏し、結果を⽣成・解釈し、最終的に 完全な研究論⽂を作成する • ⾃律的に新しい定量的洞察を⽣成し、既存の出版物と同様の論⽂を約80-90%の正確さで⽣成できた エージェントの作業プロセス Agentic AI Systems 5⽉13⽇ 更新分
  42. • 翻訳出版プロセスを模倣し、⽂学作品の翻訳向けマルチエージェントフレームワークを提案 • 2 つの評価戦略を提案 • MHP:ターゲット⾔語のモノリンガル読者からの視点で翻訳を評価 • BLP:⾼度なLLMを使⽤して翻訳を原⽂と直接⽐較 •

    従来の機械翻訳システムや⼈間が書いた参照翻訳よりも、⼈間の評価者とLLMの両⽅から好まれ、特にドメイ ン固有の知識を必要とするジャンルにおいて顕著な結果を⽰した Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts 翻訳段階 翻訳者(Action Agent)が翻訳を⾏い、ジュニアエディター (Critique Agent)がレビューし、シニアエディター(Judgment Agent)が最終的な評価を⾏います。 ⽂化的適応と校正 ローカライゼーションスペシャリスト(Action Agent)が⽂化的適応 を⾏い、ジュニアエディター(Critique Agent)がレビューし、シ ニアエディター(Judgment Agent)が最終評価を⾏います。 Multi Agent Systems 5⽉27⽇ 更新分
  43. MapCoder: Multi-Agent Code Generation for Competitive Problem Solving • 競技プログラミングレベルの問題解決のための新しいコード⽣成⼿法MapCoderを提案

    • MapCoderは、関連する例を思い出す、計画する、コードを⽣成する、デバッグするという4つのLLMエー ジェント(プロンプト)で構成される • 8つの競技プログラミングとプログラム合成のベンチマークで実験を⾏い、特にHumanEval, MBPP, APPS, CodeContests, xCodeEvalなどで最新の最⾼成績を更新 Multi Agent Systems 5⽉27⽇ 更新分
  44. AgentClinic: a multimodal agent benchmark to evaluate AI in simulated

    clinical environments • 静的な医療QAベンチマークに過度に依存しており、実際の医療業務に必要なインタラクティブな意思決定を⼗ 分に評価できていない • AgentClinicのシミュレーションでは患者、医師、測定、モデレーターのエージェントから医療現場を模倣する • 患者と医師のエージェントに認知的および暗黙のバイアスを組み込み、現実的なインタラクションを再現 • バイアスを導⼊すると、診断精度の⼤幅な低下、患者の遵守率の低下、フォローアップ相談の意欲の低下 • 対話回数が限られたり多すぎる場合に診断精度が低下 • 患者エージェントに使⽤されるLLMが診断結果に影響を与える Multi Agent Systems 5⽉20⽇ 更新分
  45. Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents

    • LLMエージェントを⽤いた病院シミュレーションAgent Hospitalを提案 • 患者、看護師、医師が⾃律的なエージェントとして機能し、病気の発症から治療、回復までの全プロセスをシ ミュレートする • 医師エージェントがシミュレーション内での患者とのインタラクションを通じて経験を蓄積し、診断精度を向 上させる • 医師エージェントが10,000⼈の患者を治療した後、MedQAデータセットの主要な呼吸器疾患サブセットで 93.06%の精度を達成 MedAgent-Zero戦略 診断や治療の 失敗と成功の経験 患者の診察と経過の記録 Multi Agent Systems 5⽉13⽇ 更新分
  46. MARE: Multi-Agents Collaboration Framework for Requirements Engineering • 要求⼯学のためのマルチエージェント フレームワークMAREの提案

    • MAREは、要求の引き出し、モデリン グ、検証、仕様化の4つのタスクに分割 される • MAREはより正確な要求モデルを⽣成 し、最新のアプローチを15.4%上回る性 能を⽰す Multi Agent Systems 5⽉13⽇ 更新分
  47. Latent State Estimation Helps UI Agents to Reason • RQ:LLMがZSLで潜在状態を推定し、それを推論に活⽤する能⼒があるかどうか(ベイズ的アイデア)

    • LLMを⽤いてUIエージェントの潜在状態を推定することで、エージェントの性能向上に寄与した • 推定する潜在状態:過去の⾏動、画⾯の要約、進⾏状況、過去のミス、タスクの完了 • UIの⾃動ナビゲーションでは、観測情報だけだとタスクに不必要な情報量が多い 潜在状態を利⽤する(+)を⾒ると軒並み精度が上がっている 観測にノイズが多い Computer Controlled Agents 5⽉27⽇ 更新分
  48. Unveiling Disparities in Web Task Handling Between Human and Web

    Agent • ⼈間を理解し、エージェントを作る。⼈間のウェブタスク遂⾏における認知⾏動や操作を明らかにし、エー ジェント設計の新たな⽅向性を⽰した • ⼈間はタスク遂⾏中に新たな情報を発⾒し、それに基づいて計画を修正する傾向がある • ⼈間は失敗の理由を深く検討し、新しい情報を探求する⾏動パターンがある • エージェントにも知識更新が必要 • 知識更新モジュール:情報収集、情報⽐較、知識統合、計画更新、⾏動適応 ⼈間の認知⾏動の調査結果 ⼈間のWeb操作の調査結果 Computer Controlled Agents 5⽉13⽇ 更新分