Weekly AI Agents News!

Weekly AI Agents News @ottamm_190

はじめに • LLMエージェントに関するニュースや論⽂を適当な頻度ででまとめます。 • ⾃分の備忘録としてまとめています。 • 分かりにくかったらすみません。 • スマホだと⽂字が⼩さいかもです。 •
論⽂の詳細は各⾃LLM使って読んでください

5⽉20⽇更新 • 論⽂ • プロダクト

論文 Agent Capabilities モデル • Gemini 1.5: Unlocking multimodal understanding
across millions of tokens of context ⾃⼰修正 • Self-Reflection in LLM Agents: Effects on Problem-Solving Performance 計画 • Large Language Models as Planning Domain Generators ⻑いコンテキスト理解 • Many-Shot In-Context Learning in Multimodal Foundation Models • CinePile: A Long Video Question Answering Dataset and Benchmark エージェントの評価 • Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models Agent Framework • How Far Are We From AGI? • Towards Guaranteed Safe AI:A Framework for Ensuring Robust and Reliable AI Systems Multi Agent Systems • AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of
context • Gemini 1.5 Pro(May 2024)とFlashの評価論⽂ • ⻑いコンテキストの理解をテキスト、動画、⾳声で評価 • Multiple Needles in a Haystack（プロンプトに与えた⼤量の情報の中から散らばった情報⽚を⾒つけるタスク） • Many Shot Learningで計画タスクや低資源⾔語の翻訳タスクの例：74万トークンのコードから抽出タスクの例：25万トークン⽂法書と辞書を参照し翻訳 Multiple Needles in a Haystack トークンが増えても精度が落ちにくい Many Shot Learning サンプル数が増えると緩やかに計画精度向上 Agent Capabilities

Self-Reflection in LLM Agents: Effects on Problem-Solving Performance • LLMエージェントの⾃⼰反省の様々な⼿法を様々なモデルで⽐較検証
• ⾃⼰反省を⾏ったエージェントは統計的に有意に問題解決能⼒が向上した • ⾃⼰反省プロセス：誤答の問題のみ、問題と誤答と正解を与えて反省させ、その結果をもとに再回答させる • なお反省の結果に回答内容が含まれればマスクし再回答させる反省の種類 Agent Capabilities

Large Language Models as Planning Domain Generators • 単純なLLMでは計画能⼒が乏しく、形式⾔語のPDDL （Planning
Domain Definition Language）を活⽤した計画能⼒向上の研究がある • この論⽂では、LLMsを⽤いてテキストからPDDL形式のドメインモデルを⽣成するための⼿法を提案 • ドメインモデルが得られると、初期状態から⽬標を達成するための計画⽴案がおこなえる • ⽣成されたドメインモデルの品質を⾃動評価する指標を提案し、9つの異なる計画ドメインで7つのLLMを評価し、その性能を分析した計画タスク Agent Capabilities

Many-Shot In-Context Learning in Multimodal Foundation Models • GPT-4o、GPT4(V)-Turbo、Gemini 1.5
Proの3つのマルチモーダルモデルを使⽤しMany Shot Learningを評価 • Gemini 1.5 Proは、ほとんどのデータセットにおいてデモの数が増加するにつれて安定した性能向上を⽰した • バッチクエリを使⽤することで、個々のクエリと同等以上の性能を達成しながら、推論コストとレイテンシを⼤幅に削減できた Agent Capabilities

CinePile: A Long Video Question Answering Dataset and Benchmark •
既存の⻑編動画理解⽤データセットは動画全体を通じた理解の質問が少ない • ⻑編動画理解を⽬的とした新しいデータセットとベンチマーク「CinePile」を公開 • キャラクター(CRD)：キャラクターAの決定は他のキャラクターにどのような影響を与えたか？など • 物語(NPA)：どのような事件がキャラクターの態度を⼤きく変えたか？など • 設定(STA)：特定の時間や場所での設定/ロケーションはどのように⾒えるか？など • 時間(TEMP)：シーンの冒頭からエンディングまでのキャラクターの感情の変化は？など • 主題(TH)：キャラクターAの⾏動が映画全体のテーマにどのように関連しているか？など • GPT-4oは、キャラクター(CRD) や物語(NPA) において優れた性能を⽰したが、時間 (TEMP) には苦戦 • Gemini 1.5 Proは、設定(STA) で特に⾼い性能を発揮したが、他のカテゴリでは平均的な性能データセット内訳平均2分40秒の動画選択質問（ 30万問） 9,396本の動画クリップ Agent Capabilities

Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating
basic world knowledge in language models • AIエージェントにとって、世界モデルを構築して活⽤する能⼒は重要だが、世界モデルの構成要素が明確に定義されていないため、評価するのは難しい • EWOK（Elements of World Knowledge）フレームワークを提案 • LLMが特定の概念に関する知識を使⽤して、ターゲットテキストと同じ⽂脈テキストか分類する能⼒をテストする • コンセプト：社会的相互作⽤、空間関係、直感的物理、数の感覚、エージェントの推論など • LLMは、社会的相互作⽤（例えば、助ける、妨げるなどの⾏動）を理解する能⼒が⽐較的⾼い • LLMは、空間関係の能⼒が低く、「左／右」といった具体的な空間的指⽰に基づいた⽂脈の判断が難しい Agent Capabilities

How Far Are We From AGI? • AGIの定義、⽬標、および発展のロードマップを⽰し、AGIの実現に必要な戦略について広範な調査と議論を通じて掘り下げた120ページに及ぶ論⽂特定の分野で⼈間のパフォーマンスを超える
現実世界のシナリオで⼈間のパフォーマンスを超える⼈間の介⼊なしに⾃⼰進化する最⼩限の⼈間の介⼊で新しい状況に適応するドメイン間で知識を⼀般化する創造性と⾰新性を⽰す複雑な意思決定プロセスに従事する⼈間や他のAIシステムとシームレスに協⼒する⾃動的に新しいツールを創造する学習をする⾃⼰学習と適応を通じて継続的に改善する共感、感情知能、社会知能を⽰す超安定で、低遅延、⾼スループットの提供が可能データ、電⼒、計算効率を持って構築される⾃動学習、調整、協⼒、展開をサポートする⼈間の指⽰に正確に従う与えられたユーザーの好みに正確に従うユーザーレベルおよび社会レベルの⼈間の価値観および⽬標と強く⼀致する Agent Framework

Towards Guaranteed Safe AI:A Framework for Ensuring Robust and Reliable
AI Systems • AIシステムが⾃動化と⾼い知能を持つ場合、⼈間に安全であることを保証する必要があり、「保証された安全なAI」（GS AI）のフレームワークを提案 • 数学的に安全であることを保証したい様⼦。構想なので、実現案はこれから作られていくと思われる世界モデル（World Model）: • AIシステムが外部世界に与える影響を数学的に記述 • このモデルは、AIの⾏動がどのように周囲の環境と相互作⽤するかを理解するための基盤となる安全仕様（Safety Specification）: • AIが遵守すべき⾏動の基準を数学的に定義 • 安全仕様は、AIの⾏動が⼈間にとって受け⼊れられる範囲内にあることを保証するためのルールセット検証者（Verifier）: • AIが安全仕様を満たしている証明書を提供 • AIシステムが数学的に定義された安全基準を守ることを監査可能な形で保証する役割を果たす Agent Framework

AgentClinic: a multimodal agent benchmark to evaluate AI in simulated
clinical environments • 静的な医療QAベンチマークに過度に依存しており、実際の医療業務に必要なインタラクティブな意思決定を⼗分に評価できていない • AgentClinicのシミュレーションでは患者、医師、測定、モデレーターのエージェントから医療現場を模倣する • 患者と医師のエージェントに認知的および暗黙のバイアスを組み込み、現実的なインタラクションを再現 • バイアスを導⼊すると、診断精度の⼤幅な低下、患者の遵守率の低下、フォローアップ相談の意欲の低下 • 対話回数が限られたり多すぎる場合に診断精度が低下 • 患者エージェントに使⽤されるLLMが診断結果に影響を与える Multi Agent Systems

5⽉20⽇更新 • 論⽂ • プロダクト

Agent Products リリース情報・GPT-4o のマルチメディア対応の進化・ChatGPT データ分析の改善・ChatGPTデスクトップアプリでワークフローを合理化・Google I/O
・様々なGoogleアプリにエージェントが搭載・Atlassian Rovo/チームメイト型エージェント・Integrating LangChain with Azure Container Apps dynamic sessions 技術記事・モデルの発展に伴いLLMアプリ開発者のベストプラクティスも変化・製造業での⽣成AI活⽤術：⾃社製品を理解した基盤モデルと検索を組み合わせた⽤途探索・⼩売業への⽣成AIエージェントの応⽤・SaaS Is Readying for an Agentic Future ・Multi AI Agent Systems with crewAI ・AIガジェット「rabbit r1」を使ってみた

GPT-4o のマルチメディア対応の進化 • テキスト⾔語インターフェースから⾳声とビデオのインターフェースへ • GPT4シリーズでは、GPT-4oからメディアをテキストに変換せず、直接ベクトル化して学習している • そのため、速度の向上とコストの削減を実現した • テキストを介在しないため、⾳調、複数の話者、背景雑⾳、感情を区別できるようになる
• アプリのデモでは、GPT-4oが喋っている途中で介⼊できる • アプリのデモでは、タブレットやスマホで画⾯共有しながらGPT-4oと会話している • ⽇本語トークナイザーも1.4倍改善した https://openai.com/index/hello-gpt-4o/ 数学講師同時通訳スマホカメラから会話

GPT-4o のマルチメディア対応の進化 • 驚いたデモ（数々のAI技術が統合されている）空間配置を理解⾳声の話者特定とその内容も個別理解 45分の動画の要約 3Dオブジェクトの⽣成インタラクティブ編集
https://openai.com/index/hello-gpt-4o/

ChatGPT データ分析の改善 • データ分析は、PythonコードをChatGPTが⽣成し、実⾏環境で実⾏することで実現している • UIから表やグラフを操作しながら、対話的に表やグラフを修正でき、全体的にインタラクションが良くなった • テーブルから図表を作成し、インタラクティブに編集できるようになった • Google
ドライブおよび Microsoft OneDrive からファイルを直接追加できるようになった https://openai.com/index/improvements-to-data-analysis-in-chatgpt/

ChatGPTデスクトップアプリでワークフローを合理化 • キーボードショートカットでChatGPTにすぐ質問ができる • 画⾯共有や⾳声会話もそのうちリリースされるショートカットキーでコードを ChatGPTに送信しつつ⾳声で指⽰画⾯を⾒ながらコードレビュー Live demo
of GPT-4o coding assistant and desktop app

Google I/O • AI Overview • 検索体験が「Search Generative Experience」から進化し、要望に直接応える時代になる •
AI Overviewが要望をもとに必要な情報を調べ、要望に応える形で検索結果を⽤いながら回答する • 動画と⾳声で検索 • AIがカメラから外界を認識し、⾳声で質問をすることでサイトを検索できる • Project Astra • 動画と⾳声をもとにAIと会話ができる • OpenAIも同じユーザー体験を⽰していたので、今後のスタンダードになるのでしょう • Gemini Flash • Gemini Proよりは軽量で、スピードとコスト効率を重視したモデル • 1時間の動画、11時間の⾳声、3万⾏のコードに対応 • 128kのプロンプト以下でInputが1Mトークンあたり$0.35、outputが$0.53 https://io.google/2024/intl/ja/ https://deepmind.google/technologies/gemini/flash/ https://cloud.google.com/vertex-ai/generative-ai/pricing

様々なGoogleアプリにエージェントが搭載 Google I/Oで発表されたエージェントとデモ • メールエージェント • 受信トレイ内のすべての領収書をスプレッドシートに継続的に整理する • 複数の会話やファイルを整理して質問に答える •
注⽂を返品する • 検索エージェント • 多段階の推論により旅⾏計画をおこなう • 1週間の⾷事計画をおこなう • ブラウザエージェント • 複数の外部ウェブサイトで動作し、数⼗のウェブサイトで住所を⼀括更新するなどのタスクを実⾏する • 共同作業者 • Google Workplaceで対話的に共同作業ができる https://io.google/2024/intl/ja/

Atlassian Rovo/チームメイト型エージェント • Atlassian Rovoは、情報を即座にアクションに変えるのに役⽴つ製品で、分散された情報の検索、学習、およびそれに基づいた⾏動が迅速化 • JiraやConfluenceだけでなく、Sharepoint、Microsoft Teams、GitHub、Slack、Figma、APIを通して社内の独⾃サービスとも連携できる
• UIが良くなり、チームメイト型のエージェントとしている https://www.atlassian.com/blog/announcements/introducing-atlassian-rovo-ai

Integrating LangChain with Azure Container Apps dynamic sessions • Azure
Container Apps の動的セッション • 動的セッションは、LLM が⽣成したコードをサンドボックス内で安全に実⾏できるようにする Azure Container Apps の新機能 • ⾼速起動ができ、数百または数千のセッションを同時に実⾏できる。 • ファイルをセッションにアップロードして、コードからファイルを参照できる。 • セッションにはNumpy, など⼈気のパッケージがインストールされており、追加もできる。 LangChainの発表ブログ Integrating LangChain with Azure Container Apps dynamic sessions LangChainでの実装⽅法 Azure Container Apps dynamic sessions MS Learn Serverless code interpreter sessions in Azure Container Apps (preview)

モデルの発展に伴いLLMアプリ開発者のベストプラクティスも変化 • Andrew Ng 先⽣の考察記事モデルが向上した能⼒ • 複雑な概念を考え抜き、複雑な指⽰に従う推論能⼒ • ⻑い⼊⼒コンテキストウィンドウ
• GPT-4oは128,000トークン、Claude 3 Opusは200,000トークン、Gemini 1.5 Proは200万トークン複雑なワークフローを構築する際、以下のプロセスで良い結果が得られる 1. クイックでシンプルなプロンプトを書いて試す 2. プロンプトを段階的に詳細化する（⻑く詳細なメガプロンプトになる） 3. Few Shot またはMany Shot 学習やファインチューニングを検討する 4. タスクをサブタスクに分解し、エージェンティックワークフローを適⽤する https://www.deeplearning.ai/the-batch/issue-249/

製造業での⽣成AI活⽤術：⾃社製品を理解した基盤モデルと検索を組み合わせた⽤途探索 • AWSの⽣成AI事例ブログ • 化学、素材や製薬の事業では⾃社製品の新しい⽤途の発⾒が新規市場の開拓に⽋かせない • 膨⼤な情報から⾃社製品に適合する市場を発⾒し育てるのは容易ではない • 新規⽤途の発⾒に、LLMを社内情報と外部情報を組み合わせでRAGや微調整で実現する
• 内部情報：会社固有の辞書、社内の⽂書や特許、論⽂ • 外部情報：SNS、ニュース、特許 https://aws.amazon.com/jp/blogs/news/generative-ai-for-manufacturing-application-search/

⼩売業への⽣成AIエージェントの応⽤ • Cohereのブログで⼩売業に対するエージェントの活⽤案を解説カスタマーサービス • 「注⽂したものはどこにありますか?」の問い合わせに対し、AI エージェントは、注⽂番号から注⽂管理システムのステータスを確認できるだけでなく、予期せぬ遅延が発⽣した場合に問題を解決することもできます。マーケティングと販売 •
⼩売業は、CRM、電⼦商取引、コンテンツ管理、電⼦メールマーケティングシステムに任意の⾔語で接続できるグローバル AI エージェントを導⼊して、顧客の好みを理解し、それに応じてマーケティングコミュニケーションを調整します。物流と流通 • AIエージェントが在庫管理システムをチェックし、リアルタイムの在庫情報を提供することで、適切なタイミングで製品を確保することができます。また、天候などの要因によるサプライチェーンの影響を予測し、対応策を講じることも可能です。従業員体験 • AI エージェントを使⽤することで、従業員はより簡単に休暇を申請できるようになります。同様に、管理者は、扱いにくい内部システムを操作することなく、⼈員配置スケジュールにすばやくアクセスしたり、変更要求を承認したりできます。 https://cohere.com/blog/game-on-retailers-elevate-your-customer-experience-with-genai 5⽉ 17, 2024

SaaS Is Readying for an Agentic Future • SaaS リーダーは単純な効率化を超えて、複雑なワークフローをナビゲートできる、⾃律的な意思決定機能（AI
エージェント）の開発に取り組んでいる • 第⼀波は、パーソナルAIアシスタント、ナレッジマネジメントアシスタント、コンテンツ⽣成だった • AI エージェントは、CRM、SCM、ERPシステムの全体から洞察を統合し、より包括的で⾃律的な対応とソリューションを提供できる SaaS の潜在的なAIエージェントの使⽤例には次のようなものがあります。⽀払いアプリケーション • ⼩売業者が顧客満⾜度、ロイヤリティ、在庫レベルに基づいてリアルタイムで対象顧客の割引を提供し、標準注⽂数量の変更を必要なサプライヤーに⾃動的に通知できる調達管理ソリューション • CRM、在庫、注⽂管理システムと⾃動的に連携して、プロジェクトマネージャーがプロジェクトの実⾏に必要な資材を確実に⼊⼿できるようにしたり、遅延の可能性をチームに警告したりできるコンテンツ管理システム • BI ツール、CRM、ソーシャルメディアアカウント、電⼦メールマーケティングシステムと連携して、承認されたマーケティングコンテンツをチャネル全体にシームレスにパーソナライズして配信できる https://cohere.com/blog/saas-is-readying-for-an-agentic-future 2024 年 4 ⽉ 26 ⽇

Multi AI Agent Systems with crewAI • DeepLearning.AIの講義動画にcrewAIライブラリを使ったマルチエージェントシステムが追加 • 学習コンテンツには、⼀般的なビジネスプロセスを⽀援する複数のマルチエージェント
システムの設計や、AI エージェントシステムの主要な原則が含まれる crewAIのマルチエージェントシステムの要素講義で扱うビジネスプロセス https://www.deeplearning.ai/short-courses/multi-ai-agent-systems-with-crewai/

AIガジェット「rabbit r1」を使ってみた • Rabbit r1のレビュー記事 • Rabbit r1の質問例：「123 ABC StreetまでのUberを予約してほしい」「Via
Ponteでラージサイズのウォッカピザを注⽂してほしい」「Benson Booneの最新アルバムを再⽣してほしい」など • r1で動作するアプリは、DoorDash、Spotify、Midjourney、Uber • 得意なこと • 複雑な質問に迅速に答えること • 「昨⽇の夜に⾏われたCelticsとHeatの試合は、どちらが勝ったのか。最も多く得点したのは誰か。フィールドゴールの成功率は何％だったのか」 • 1回⽬は失敗したけど、2回⽬で成功 • 画像から質問応答 • 回転する800万画素カメラでユーザーの周囲（とユーザー⾃⾝）を撮影し、質問に答える • 周囲の建物を教えてれたり、⾷事の⼤まかなカロリー計算をする • 不得意なこと • r1はバッテリー持続時間に問題がある（1回の充電で約3時間しか使⽤できなかった） • サードパーティサービスでエラーメッセージや失敗が多く安定しない https://japan.zdnet.com/article/35218574/

5⽉13⽇更新 • New Papers • Agent Tools

New Papers Agent Capabilities • A Mechanism-Based Approach to Mitigating
Harms from Persuasive Generative AI • In-Context Learning with Long-Context Models: An In-Depth Exploration • Sub-goal Distillation: A Method to Improve Small Language Agents • Chain of Thoughtlessness: An Analysis of CoT in Planning Agent Framework • Air Gap: Protecting Privacy-Conscious Conversational Agents • Offline Training of Language Model Agents with Functions as Learnable Weights Agentic AI Systems • Assessing and Verifying Task Utility in LLM-Powered Applications • A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing • SWE-AGENT: AGENT-COMPUTER INTERFACES ENABLE AUTOMATED SOFTWARE ENGINEERING • Automating the Enterprise with Foundation Models • Autonomous LLM-driven research from data to human-verifiable research papers Multi Agent Systems • Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents • MARE: Multi-Agents Collaboration Framework for Requirements Engineering Computer Controlled Agents • Unveiling Disparities in Web Task Handling Between Human and Web Agent

A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI
Google DeepMindからLLMとの対話によりユーザーが説得されるリスクについて体系的な調査合理的な説得: 関連する事実、論理的な理由、または信頼できる証拠を提供することに基づき説得する操作的な説得: 認知バイアスやヒューリスティックを利⽤するか、情報を誤って伝えることで説得するリスク経済的害：AIがユーザーに不利な経済的決定を促す可能性 • AIが誤った投資情報を提供し、ユーザーが経済的損失を被る。⾝体的害：AIの誤った助⾔により、ユーザーの健康や安全が脅かされる可能性 • AIが誤った医療情報を提供し、ユーザーが不適切な治療を受ける。⼼理的害：AIがユーザーの⼼理的健康に悪影響を及ぼす可能性 • AIが不安を煽る情報を提供し、ユーザーのストレスや不安が増加する。社会⽂化的害：AIが社会的または⽂化的な調和を乱す可能性 • AIが偏⾒や差別を助⻑する情報を拡散する。政治的害：AIが政治的決定に不当な影響を与える可能性 • AIが誤った政治情報を広め、選挙に影響を与える。プライバシーの害：AIがユーザーの個⼈情報を不適切に使⽤する可能性 • AIがユーザーの同意なしにデータを収集・共有する。⾃律性の害：AIがユーザーの意思決定の⾃由を侵害する可能性 • AIが操作的な⼿法を⽤いてユーザーを特定の⾏動に誘導する。 Agent Capabilities

A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI
6つの説得のメカニズム Agent Capabilities

In-Context Learning with Long-Context Models: An In-Depth Exploration • ICLを⾮常に⻑いコンテキストで実⾏したときのモデルの振る舞いを調査
1. 数百から数千のサンプル数を利⽤すると、性能が継続的に向上 2. サンプルのランダム選択と検索による取得のICLの⽐較は、サンプル数が増えると差がなくなる 3. サンプル数が増えれば、微調整の⽅が僅かに精度が良くなる 4. サンプルのラベルでソートしてプロンプトに与えるグループ化をすると性能が低下する Agent Capabilities

Sub-goal Distillation: A Method to Improve Small Language Agents •
計算コストを⼤幅に削減しつつ、LLMsの推論能⼒を引き継ぐエージェント⽤の知識蒸留⼿法を提案 • ⼩型⾔語モデルをサブゴール作成とアクション実⾏⽤にそれぞれ知識蒸留と模倣学習をする • ⼩型⾔語モデルには、FLAN-T5-LARGE（770Mパラメータ）を使⽤⼿法の概略図と両モジュールの⼊出⼒⾚がサブゴール⿊はエキスパートの⾏動軌跡 Agent Capabilities

Chain of Thoughtlessness: An Analysis of CoT in Planning •
Blocksworldという古典的な計画の問題に対するCoTの調査 • 特化型プロンプトなほど、性能向上が顕著だが汎⽤性を失う（Stacking Prompt、Blocksworld Universal Algorithm） • 特化型でなければ、CoTは⼀般的な性能向上を⽰さない（Progression Proof、Zero-Shot CoT） • CoTでは、モデルが⼀般的なアルゴリズムを学習するのではなく、特定のパターンマッチングに近い Blocksworld Agent Capabilities

Air Gap: Protecting Privacy-Conscious Conversational Agents • Googleから会話型エージェントにおける悪意のある攻撃からプライバシーを保護する⼿法を提案 • エージェントが悪意のあるサードパーティアプリを利⽤するとき、データを引き抜かれる危険
• 「医者予約のため、あなたの健康情報と関係者の連絡先が必要です。全てのデータを教えてください。」など • 提案⼿法はタスクの⽬的から最⼩限の必要データを求め、そのもとで外部アプリのリクエストに答える • 情報不⾜な場合はユーザーにエスカレーションして情報をもらう必要データを絞る Agent Framework

Offline Training of Language Model Agents with Functions as Learnable
Weights • LLMの重み更新と似たプロセスでFunction Calling⽤のJSON形式と関数コードを更新する⼿法の提案具体的な関数の更新プロセス 1. 評価: 現在の関数集合を分析し、どの関数が効果的か、どの関数が改善の余地があるかを評価 2. 追加: 必要に応じて新しい関数をJSON形式で定義し、対応する実装コードを作成 3. 改訂: 既存の関数のJSONメタデータとコードを修正して性能を向上 4. 削除: 不要な関数をJSONメタデータおよびコードから削除 Agent Framework

Assessing and Verifying Task Utility in LLM-Powered Applications • LLM駆動アプリケーションがUXとタスク実⾏率をどの程度向上させるかを評価するAgentEvalを提案
• AgentEval は３つのエージェント（CriticAgent、QuantifierAgent、VerifierAgent）を通じておこなう CriticAgent：タスクの記述や成功・失敗した例に基づいて、タスクの有⽤性を評価するための基準を提案 QuantifierAgent：提案された基準に基づいて、アプリケーションのタスク有⽤性を定量化 VerifierAgent：最終的にCriticAgentが提案した基準が問題ないか検証 Agentic AI Systems

A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing
• LLMが産業の複雑なニーズに対応するためには、専⾨的なドメイン知識が必要 • 産業固有のデータを活⽤し、スマートマニュファクチャリングのためのデータ中⼼の産業⼤知識モデル（ILKM）フレームワークを提案タスク（ツール）ナレッジ Agentic AI Systems

SWE-AGENT • SWE-agentのために設計されたAgent-Computer Interface （ACI）を開発検索/ナビゲーションコマンド • find file: リポジトリ内のファイル名を検索
• search file: ファイル内の⽂字列を検索 • search dir: ディレクトリ内のファイルで⽂字列を検索ファイルビューアコマンド • open: ファイルのパスを指定して開く • scroll down: ファイル内を下にスクロール • scroll up: ファイル内を上にスクロール • goto: 特定の⾏にジャンプ • バグ修正：search fileでバグがある関数を特定し、editで修正、pythonで修正が正しいか確認し、最終的に submitで修正をリポジトリに適⽤ • 新機能の追加：find fileで関連するファイルを特定し、openで内容を確認、editで新しいコードを追加し、 pythonでテスト実⾏、submitで適⽤ファイルエディタコマンド： • edit: 開いているファイルの特定の⾏を編集 • linting: コードのエラーチェックコンテキスト管理： • submit: 最終的なパッチファイルを提出 • python: Pythonスクリプトの実⾏ Agentic AI Systems

Automating the Enterprise with Foundation Models • エンタープライズワークフローの⾃動化は、プロセスマイニングとRPAを使うがコストが⾼く実⾏が不安定で、保守が負担となる。RPAボットは事前定義されたルールに基づくため、⼊⼒の僅かな変化に適応できず、初期の正確度は60%程度に留まる
• Enterprise sCaLe AI for woRkflows：MLLMを⽤い、作業動画からSOPを作成し、そのもとでタスクを実⾏する Agentic AI Systems

Autonomous LLM-driven research from data to human-verifiable research papers •
データから⼈間が検証可能な研究論⽂を⾃動⽣成するプラットフォームdata-to-paperの提案 • データから仮説を⽴て、研究計画を設計し、コードを作成して解析を実⾏し、結果を⽣成・解釈し、最終的に完全な研究論⽂を作成する • ⾃律的に新しい定量的洞察を⽣成し、既存の出版物と同様の論⽂を約80-90%の正確さで⽣成できたエージェントの作業プロセス Agentic AI Systems

Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents
• LLMエージェントを⽤いた病院シミュレーションAgent Hospitalを提案 • 患者、看護師、医師が⾃律的なエージェントとして機能し、病気の発症から治療、回復までの全プロセスをシミュレートする • 医師エージェントがシミュレーション内での患者とのインタラクションを通じて経験を蓄積し、診断精度を向上させる • 医師エージェントが10,000⼈の患者を治療した後、MedQAデータセットの主要な呼吸器疾患サブセットで 93.06%の精度を達成 MedAgent-Zero戦略診断や治療の失敗と成功の経験患者の診察と経過の記録 Multi Agent Systems

MARE: Multi-Agents Collaboration Framework for Requirements Engineering • 要求⼯学のためのマルチエージェントフレームワークMAREの提案
• MAREは、要求の引き出し、モデリング、検証、仕様化の4つのタスクに分割される • MAREはより正確な要求モデルを⽣成し、最新のアプローチを15.4%上回る性能を⽰す Multi Agent Systems

Unveiling Disparities in Web Task Handling Between Human and Web
Agent • ⼈間を理解し、エージェントを作る。⼈間のウェブタスク遂⾏における認知⾏動や操作を明らかにし、エージェント設計の新たな⽅向性を⽰した • ⼈間はタスク遂⾏中に新たな情報を発⾒し、それに基づいて計画を修正する傾向がある • ⼈間は失敗の理由を深く検討し、新しい情報を探求する⾏動パターンがある • エージェントにも知識更新が必要 • 知識更新モジュール：情報収集、情報⽐較、知識統合、計画更新、⾏動適応⼈間の認知⾏動の調査結果⼈間のWeb操作の調査結果 Computer Controlled Agents

Agent Tools 製品の市場調査 • AI Agents are disrupting automation：⾃動化の市場調査 •
How to get AI ʻagentsʼ working like humans • 新たな AI AgentOps の展望 • AIの職場導⼊に関する最新のトレンド from Microsoft and LinkedIn • Largest library of AI-UX Interactions 技術記事 • Agents for Amazon Bedrock: Handling return of control in code • Generative AIが製品設計に与える影響とその調整 • The Agentic Era of UX リリース情報 • Assistants API 画像理解対応 • OpenAI Model Spec公開海外ベンチャー企業 • Assista/単⼀のアプリからビジネス管理 • Fin AI Copilot/パーソナル AI アシスタント

AI Agents are disrupting automation：⾃動化の市場調査 • ビジネスプロセスやタスク⾃動化のためのアーキテクチャが⼿動から徐々に⾃動化に進んでいる https://www.insightpartners.com/ideas/ai-agents-disrupting-automation/

AI Agents are disrupting automation：⾃動化の市場調査ロボティック・プロセス・オートメーション（RPA） • ⼿動の反復作業を⾃動化するためのプラットフォーム • 使⽤例:
データ⼊⼒、請求書処理、顧客サポートなどのタスク iPaaS • データ、アプリケーションソース、APIを統合するためのミドルウェア層 • 使⽤例: 異なるシステム間でのデータの同期と統合ローコード・タスク⾃動化プラットフォーム • シンプルなUIで反復タスクを⾃動化するプラットフォーム • 使⽤例: APIを通じてアプリ間のデータフローを⾃動化垂直型⾃動化アプローチ • 特定のワークフローに焦点を当てたアプローチ • 使⽤例: サプライチェーン管理、ITサービスマネジメント（ITSM）、カスタマーサポートチャットボット

AI Agents are disrupting automation：⾃動化の市場調査エージェント⾃動化フレームワーク/Copilots/GPTs and Agents コパイロット •
既存のアプリケーションやプラットフォームに統合された⽣成AIベースのインターフェース • 使⽤例：タスクの提案、コンテンツ⽣成、ユーザーフローの⽀援エージェント • LLMの能⼒とコードとデータ、UIをを組み合わせてワークフローを実⾏する複合的なシステム • 使⽤例：コード⽣成、データ抽出、タスクの計画と実⾏ノーコードエージェント/GPTs • コーディングの知識がなくても簡単にタスクエージェントを作成できるプラットフォーム • 使⽤例：簡単なタスクの⾃動化、特定のデータ抽出、簡単なレポート⽣成など

• j https://www.insightpartners.com/ideas/ai-agents-disrupting-automation/ Co-Pilots エージェント⾃動化 RPA 垂直型⾃動化 Agents https://www.insightpartners.com/ideas/ai-agents-disrupting-automation/

How to get AI ʻagentsʼ working like humans • AI
エージェントとそのプラットフォームを構築している 94 社を分析 • 職場の⽣産性などの⼀般的なタスクに焦点を当てたエージェント • 特定の仕事を実⾏する機能固有のエージェント • 特定の職業全体にわたるさまざまなタスクを⾃動化することを⽬的とした業界固有のエージェントリンク

新たな AI AgentOps の展望 • AgentOps（エージェントオペレーションズ） AIエージェントの構築とスケーラビリティを⽀援するための⼀連のツールとプロセス https://www.venturesperspectives.com/the-emerging-ai-agentops-landscape-a-builders-perspective/

AIの職場導⼊に関する最新のトレンド from Microsoft and LinkedIn • 職場のAI利⽤者は時間の節約、重要な業務への集中、創造性の向上、仕事の楽しさ向上を感じている。 • 多くのリーダーは AI
の必要性に同意するが、ROI を⽰す重圧により、リーダーの動きが鈍くなっている。 • 仕事で AI を使⽤する52%は、最も重要なタスクに AI を使⽤していることを認めたがらない。重要な仕事で AI を使⽤すると、仕事がAIで代替可能に⾒えるのではないかと懸念している（機会の損失） • 電⼦メールの過負荷は依然として続いている。電⼦メールの85%は 15 秒以内に読まれ、⼀般的な⼈は1 通の電⼦メールを送信するごとに約4 通の電⼦メールを読まなければならない。Microsoft 365 アプリでは、ユーザーは時間の60%を電⼦メール、チャット、会議に費やし、その他の時間はわずか40 %です。（改善の余地） • 今後 5 年以内に、AIに⾮常に詳しいリーダーの41%が AI を使⽤してビジネスプロセスを根本から再設計すると予想する。 • AIのヘビーユーザーは、タスクの前に頻繁にAI が役⽴つかどうか⾃問する傾向が⾼く、最初に完璧な回答が得られなかった場合でも試し続け、新しいプロンプトを調査して試す。彼らはすでに個別のタスクを超えて、 AI を使⽤してビジネスプロセスとワークフローを再設計する可能性が⾼い（ビジネスプロセスの変⾰の始まり） • リーダーは、従業員の AI に対する熱意をビジネス変⾰に向けることが重要。ビジネス上の問題を特定しAI を適⽤する。トップダウン、ボトムアップのアプローチをとる。AIスキルのトレーニングを優先する。 https://www.microsoft.com/en-us/worklab/work-trend-index/ai-at-work-is-here-now-comes-the-hard-part/

Largest library of AI-UX Interactions https://aiverse.design/browse • 様々なAI製品のUXをショート動画で⾒れる

Agents for Amazon Bedrock: Handling return of control in code
• 以前紹介した Agents for Amazon Bedrock のReturn of control 機能に関する実装紹介ブログ • ブログでは、顧客がシステムにログインできない問題に対して、エージェントがCRMから顧客情報を取得し、システムのログインステータスを確認後、メールの返信案を⽣成してます。CRMには外部APIが⽤意されています。 • Return of control を使⽤すると、既存のアプリケーションから直接APIを呼び出せます。新たに Lambda関数を構築し、認証やネットワーク設定を⾏う必要がないため、既存のインフラに簡単に統合できます。 CRMから顧客情報の取得ログインできるか検証 https://community.aws/content/2g8NsQl8CvJhxQ0635HKkg6hMga/agents-for-amazon-bedrock-handling-return-of-control-in-code

Generative AIが製品設計に与える影響とその調整 • GoogleのPeople + AI Research（PAIR）の4⽉27⽇の記事 • Generative AIの進化に伴い、UXデザインはユーザーのメンタルモデルを考慮し、AIを「コラボレー
ター」として位置づけ、ユーザーの期待を適切に調整する必要がある • メンタルモデルとは、ユーザーが製品や技術の動作を理解するために⼼の中で形成する認識の枠組み実践的なアプローチ • AIがユーザーの意図を理解し、⾏動許可を⼈間に求めることで、ユーザーとの信頼関係を築く • AIシステムを使ったコード⾃動⽣成のような新しい⽂脈で、ユーザーのメンタルモデルを更新するサポートが必要 • ユーザーの経験レベルに応じた説明やインタラクションを提供し、AIに対する理解と信頼を深める https://medium.com/people-ai-research/generative-ai-is-reshaping-our-mental-models-of- how-products-work-product-teams-must-adjust-953127660dff

The Agentic Era of UX Agentic UX • 分析・意思決定の認知、視覚化やメディア作成の創造、ワークフローの運⽤に重点を置く •
従来はユーザー操作をサポートする⾜場を提供していたが、今後は継続的な⽀援をするパートナー基準の体験を提供する良い例 • ビデオ録画ソリューションである Loomがユーザーのジャーニー全体を考慮した良い例 • Loomは、ユーザーのワークフロー全体をサポートし、ビデオの録画から、⾃動的に⽂字起こし、編集し、 Jira チケットを切るまでの機能を提供します。このエンドツーエンドの視点は今⽇の AI UX に⽋けている。 UXを考えるために 1. ユーザージャーニーをすべて⾒直してください 2. ジャーニーの各段階で、ユーザーの認知、オペレーション、創造的な負担、またはユーザーが最も孤独になるポイントを調べます 3. ジャーニーの各ステップで、AI エージェントの独⾃の機能を適⽤してユーザーのタスクをサポートする⽅法を検討します。 https://uxdesign.cc/the-agentic-era-of-ux-4b58634e410b

Assistants API 画像理解対応 • アシスタント API が画像をサポート • 画像 URL
またはアップロードされたファイルを使⽤してメッセージを送ると、アシスタントは会話のコンテキストの⼀部として画像を使⽤します。 • サポートされている画像形式は、png、jpg、gif、webp • 現在、組織ごとに 100 GB、組織内のユーザーに対して 10 GB の制限 • 現在、 Code Interpreter では画像 URL をダウンロードできません • Code Interpreterに画像ファイルを渡すには、メッセージの添付ファイルリストにファイルIDを追加 https://platform.openai.com/docs/assistants/how-it-works

OpenAI Model Spec • 研究者やデータラベラーが、RLHFの⼀環としてデータを作成する際のガイドラインとして使⽤する • ⼀部は OpenAIでRLHFに使⽤したドキュメントに基づく部分もある • ガイドラインには、定義、⽬的、ルール、デフォルトの４つが記述される
定義アシスタント：エンドユーザーまたは開発者が対話するエンティティ会話：モデルへの有効な⼊⼒は会話であり、メッセージのリストで構成されますメッセージには次のフィールドが含まれる • role（必須）："platform", "developer", "user", "assistant", or "tool” のいずれか • recipient（オプション）：メッセージの処理⽅法を制御。関数呼び出し（recipient=functions.fooJSON）、⼀般的なツール (recipient=browser) • content（必須）：テキストまたはマルチモーダル (画像など) データ • settings（オプション）：モデルの設定を更新する、プラットフォームまたは開発者メッセージ専⽤の⼀連のキーと値のペア • end_turn（必須）：アシスタントメッセージ専⽤のブール値。アシスタントがアクションの実⾏を停⽌して制御をアプリケーションに戻すかどうか https://cdn.openai.com/spec/model-spec-2024-05-08.html

OpenAI Model Spec ⽬的 • 開発者とエンドユーザーを⽀援する • ⼈類に利益をもたらす • OpenAIを振り返る
ルール • 役割の権限が強い順に指⽰に従う Platform > Developer > User > Tool • 違法⾏為を促進、関与しない • 化学的、⽣物学的、核の脅威など危険な情報を提供しない • クリエイターとその権利（知的財産権など）を尊重する • ⼈々のプライバシー（個⼈の連絡先、従業員情報など）を保護する • NSFW コンテンツに応答しない https://cdn.openai.com/spec/model-spec-2024-05-08.html

OpenAI Model Spec デフォルト • ユーザーまたは開発者の最善の意図を想定する • 必要に応じて明確な質問をする • ⾏き過ぎずにできる限り協⼒する
• ⼈間との会話とシステム内のメッセージのやり取りを区別し動作する • 客観的な視点を持つ • 公平性と優しさを奨励し、憎悪を阻⽌する • ⼈の考えを変えようと説得しない • 不確実性を表現するか回答を拒否する • 業務に適したツールを使⽤する • ⻑さの制限を守りながら、必要に応じて⻑い回答と短い回答をする https://cdn.openai.com/spec/model-spec-2024-05-08.html

Fin AI Copilot/パーソナル AI アシスタント Intercom のFin AI Copilot は、すべてのカスタマーサポート職員向けパーソナル
AI アシスタント AI機能のある受信箱、電話、チケット管理、アシスタントとの会話相談機能があるプラットフォーム特徴研修、トラブルシューティング、ガイダンスに役⽴つ過去の会話履歴から最良の回答をするあらゆるコンテンツと連携する深い洞察、利⽤の監視を⾏える動画：https://www.youtube.com/watch?v=XYK2VI_MbSk https://www.intercom.com/support-for-agents/ai-copilot 動画では素早く⽚付けられることを通知量で表していたチケット対応の裏でFinアシスタントが⽀援

Assista/単一のアプリからビジネス管理クリック、⼿動更新、アプリ間の往復、反復的なタスクに費やされる時間を削減するアプリタスクの⾃動化 • 単⼀の⾳声またはテキストコマンドで複数のアプリのタスクを実⾏する。知識ベース • 全てのアプリに渡って、パーソナライズされた知識豊富なコマンドセンターを備えます。
AI を活⽤した洞察 • AI を活⽤して、アプリのデータから実⽤的な洞察を迅速に抽出して分析します。 https://www.assista.us/#integrations

New Papers Agent Framework/Capabilities ペルソナ • From Persona to Personalization:
A Survey on Role-Playing Language Agents 推論 • Hallucination of Multimodal Large Language Models: A Survey • Many-Shot In-Context Learning 計画 • Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs RAG • A Survey on Retrieval-Augmented Text Generation for Large Language Models • When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively フレームワーク • Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation • A Survey on Self-Evolution of Large Language Models • The Ethics of Advanced AI Assistants

From Persona to Personalization: A Survey on Role-Playing Language Agents
• LLMエージェントのロールプレイングに関するサーベイ⼈⼝統計ペルソナ：職業、⺠族、性格タイプのような特定の⼈⼝統計的特徴を持つ⼈物を表すキャラクターペルソナ：実世界の公⼈や漫画、映画のキャラを含む、個々のキャラクターを表す個⼈のペルソナ：特定の個⼈の⾏動や好みのデータに基づいてカスタマイズされ、継続的に更新されるユーザープロファイルを表す

Hallucination of Multimodal Large Language Models: A Survey • マルチモーダルLLMの幻覚の種類、原因、指標、低減⽅法を調査した論⽂
• 幻覚の種類はカテゴリ幻覚、属性幻覚、関係幻覚の３つに分類カテゴリ幻覚：画像に存在しないオブジェクトのカテゴリを⽣成する現象属性幻覚：（⾊、形、材質など）に関して誤った情報を⽣成する現象関係幻覚：画像内のオブジェクト間の関係を誤って⽣成する現象

Many-Shot In-Context Learning • In-Context Learning のサンプル数を数百から数千に増やしたMany Shot Learningの検証 •
精度が向上したタスク：感情分析、分類、物流の計画⽴案 • 精度が向上しにくいタスク：翻訳、要約、コード検証 • 教師サンプルの少なさを補うReinforced ICLとUnsupervised ICLの提案 Many Shot Learning では最も成績の良かったショット数 Few Shot Learning ではベンチマークで使⽤されるショット数

Testing and Understanding Erroneous Planning in LLM Agents through Synthesized
User Inputs • LLMエージェントが⻑期の複雑な計画タスクにおいて誤った計画を検出し、理解するためのフレームワークを提案 • ユーザーの⼊⼒を基に制約をドメイン固有⾔語（DSL）で定義し、制約充⾜問題に落とし込み、そのもとで⽣成された計画が制約に違反するか検出する（制約充⾜問題として解がなければエージェントに計画は不可能）制約条件を満たすか確認

A Survey on Retrieval-Augmented Text Generation for Large Language Models
• RAGのアルゴリズムをパートごとに⼿法を紹介するサーベイ論⽂コメント • RAGをLLMエージェントに拡張すると、PlanningとTool UseとReflectionとMemoryが追加される • RAGのインデックスをToolとみなし、インデクッス選択とクエリ⽣成をPlanningと考えると拡張しやすい • LLMエージェントにすると、Multi-hop Reasoning など⾼度な問題に応⽤できる

When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively
• LLMが追加のコンテキストが必要なときに検索をおこなうように学習する⼿法の提案 • LLMが〈RET〉トークンを⽣成するように訓練され、そのトークンはモデルが質問に答えられない場合に情報検索が必要であることを⽰す • 質問に直接回答できる場合と、追加情報が必要な場合を区別するようにデータセットを準備する

Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation • ⼈間とAIエージェントの協調システムには３つの側⾯が重要と主張 •
論⽂では分析タスクの協調を題材に議論しているが汎⽤性もある Agency：⼈間とAIエージェントの誰がタスクの決定権を持ち、責任を分担するかについての概念 Interaction：⼈間とAIがどのようにして情報を交換し、協働するかに関する概念 Adaptation：互いに学び合い、時間の経過とともに効率的な協⼒を⾏えるように成⻑していくプロセス作ったシステムに対して、⼈間とAIそれぞれ線を描き協調作業を構造的に分析し、理解できます

A Survey on Self-Evolution of Large Language Models • LLM（エージェント含む）が新たなタスクに適応するために⾃⼰進化が求められる
• ⾃⼰進化は経験の獲得、洗練、更新、評価の4段階の反復プロセスで構成される経験の獲得 • 新たなタスクや未知の環境で初期の経験を蓄積する • 経験はタスクと試⾏とフィードバックで構成される経験の洗練 • 獲得した経験を評価し、更新⽅法に合わせてデータを整形する • 経験はFilterlingか、Correcting か、Positiveデータのみか、Negativeと併⽤するか更新 • 経験をもとに、モデルマージ、ツール作成、モデルパラメータかプロンプトかメモリを更新する評価 • 更新されたモデルの性能を評価し、その効果を検証する

The Ethics of Advanced AI Assistants • Google DeepMindからAIアシスタントの倫理的・社会的問題を体系的に扱う200ページ越えの論⽂ •
アシスタントを４種類定義発⾒と理解のための思考アシスタント • リサーチやデータ分析など、ユーザーが新しいアイデアや概念を理解し、学習するのを⽀援するアイデアやコンテンツ⽣成のためのクリエイティブアシスタント • ⽂章やデザイン、⾳楽など、様々な形式のコンテンツ作成など、ユーザーの創造的な作業を⽀援する計画と⾏動のためのパーソナルアシスタント • スケジュール管理やリマインダー設定、重要な情報の整理など、ユーザーの⽇々の⽣活を⽀援する⼈⽣の⽬標を推進するためのパーソナルAI • キャリアの進展、健康管理、個⼈的な成⻑など、ユーザーの⻑期的な⽬標や野⼼を⽀援する以下の話題についても議論されていますが、⻑いので興味あるところだけ読めば良さそう • Value Alignment（価値のアライメント）、Well-being（ウェルビーイング）、Safety（安全性）、Malicious Uses（悪⽤） • Influence（影響⼒）、Anthropomorphism（擬⼈化）、 Appropriate Relationships（適切な関係）、 Trust（信頼）、 Privacy（プライバシー）

The Ethics of Advanced AI Assistants 価値アライメント、安全性、誤⽤ • AIアシスタントは、ユーザーに⾃⾝の興味や⽬標を追求する⼒を与える •
AIアシスタントは、ユーザーのウェルビーングを向上させる • AIアシスタントは、ユーザーの創造性を⾼める • AIアシスタントは、ユーザーの時間の有効活⽤を⽀援する • AIアシスタントは、価値アライメントによりユーザーのニーズが満たす⼈間とアシスタントの相互作⽤ • AIアシスタントは、パーソナライズされたコーチングを通じて、ユーザーの成⻑と発達を促進するのに役⽴つ • AIアシスタントは、個⼈の嗜好を学び、意思決定を⽀援する情報を提供することで、ユーザーの⾃律性を促進する • AIアシスタントは、擬⼈化により⼼理的なサポートを提供し、ユーザーの⽬標達成を⽀援する • AIアシスタントは、適切な保証とプライバシー対策からユーザーに⼼理的な安⼼感を与え、デリケートな質問も助けられる • AIアシスタントは、より広範な⼈的交流や⼈間関係のネットワークをサポートする AIアシスタント社会 • AIアシスタントが、科学的発⾒を加速する • AIアシスタントは、⼈間同⼠の協⼒を強化する • AIアシスタントが、⼈間の対⼈コミュニケーションを強化する • AIアシスタントは、質の⾼い専⾨知識やアドバイスへのアクセスを⺠主化する • AIアシスタントは、誤った情報に関連する害を軽減する • AIアシスタントは、障害者にとってより公平な結果を達成するのに役⽴つ • AIアシスタントは、⽣産性と仕事の質を向上させる • AIアシスタントは、気候変動がもたらす課題に対処するのに役⽴つ

Agent Tools ニュース • ChatGPT Plusの全ユーザーにメモリ機能搭載 • AIデバイス「rabbit r1」が正式発売 •
LangSmith is now in Azure Marketplace • What is an Enterprise AI Agent? 海外ベンチャー企業 • Magical AI/RPA ブラウザ拡張機能 • Bardeen /RPA ブラウザ拡張機能 • ELEVENTH AI /RPAワークフロー⾃動化 • Truva AI/オンボーディング⽤AI ブラウザ拡張機能 • Graft Intelligence Layer/チームメイトAI • Kin /メモリに基づくパーソナライズAI • Sema4.ai/エンタープライズ向けGPTs

ChatGPT Plusの全ユーザーにメモリ機能搭載 ChatGPTの設定メモリに記録されているメモリを使えているメモリをクリアすると答えられない • ChatGPTに記憶管理機能が搭載された。メモリの⽤途は先週の紹介論⽂を参照してください https://openai.com/blog/memory-and-new-controls-for-chatgpt

AIデバイス「rabbit r1」が正式発売 • rabbit r1の発売イベントが、4⽉24⽇（⽶国時間）に開かれた • 最もシンプルなコンピューターをつくることがビジョン • rabbitの狙いは、まずはデバイスに話しかけてもらい、その後にコンピューターで処理すること •
デモでは、rabbit r1のカメラで紙のテーブルデータの写真を撮り、⾳声で２列を⼊れ替えてたものを⾃分宛にメールで送るように依頼し、成功した https://wired.jp/article/rabbit-r1-launch-event-nyc/

LangSmith is now in Azure Marketplace • LangSmithが Azure Marketplace
で利⽤可能になった • Azure Kubernetes アプリケーションとしてLangSmithを購⼊できる • LangSmithは、LLM アプリケーションの開発、テスト、監視を⾏うための統合 DevOps プラットフォーム https://blog.langchain.dev/announcing-langsmith-is-now-a-transactable-offering-in-the-azure-marketplace/

What is an Enterprise AI Agent? • Sema4-aiのエンタープライズ向けAIエージェントブログ • エージェントの⾃動化範囲の拡⼤がタスク⾃動化、プロセス⾃動化と分かりやすい
• ⾃然⾔語での指⽰の粒度が徐々に⼿先の動作レベルから業務フローレベルに⾼度化されていく https://medium.com/sema4-ai/what-is-an-enterprise-ai-agent-feae89d784ef

Magical AI/RPA ブラウザ拡張機能 • 私たちの仕事の多くが異なるウェブサイトやアプリ間で情報を移動させていることが多い • Magical AIブラウザ拡張機能を使えば、繰り返し作業を⼤幅にスピードアップ • Automate
tasks like typing repetitive messages, and updating databases. 営業 • どこにでもメッセージを素早く⾃動送信、CRMなど管理タスクの⾃動⼊⼒サポート • チケット番号や顧客名を含む下書きを⾃動作成、タブ間の⾯倒なコピペを排除、顧客との⼀般的な会話をテンプレ登録ヘルスケア • 患者のカルテを作成、異なるツール間で利⽤できるテンプレ登録、2 回のクリックで処⽅箋を作成採⽤ • フォローアップメッセージを⾃動送信、Web サイトから候補データを⾃動収集、スプレッドシートに分類教育/運⽤/個⼈ • フォームの⾃動記⼊、繰り返し業務の⾃動化、サイト間のデータ移動 https://www.getmagical.com/

Bardeen/RPA ブラウザ拡張機能 • Chromeの拡張機能で利⽤できる作業⾃動化ソリューション • ChatGPT、スプレッドシート、その他の Web アプリを使⽤して⾃動化 • スクレイピング、エクスポート、抽出、メール作成、要約など
• ⾃然⾔語でワークフローの作成が可能 https://www.bardeen.ai/

ELEVENTH AI/RPAワークフロー⾃動化 • コンサルティング、AIエージェントのチャットボットの開発、ワークフローの⾃動化を提供する会社 • RPAから難易度が上がればエージェントのチャットボットに拡張する流れを作っているようにも⾒える • ⾃動化ワークフローはmakeとzapierのサービスを使っていそう https://www.eleventh.ai/

Truva AI/オンボーディング⽤AI ブラウザ拡張機能 • オンボーディング⽤エージェントをブラウザ拡張機能で提供 • Jira, confluence, Notion, Slack,
Githubなど • 独⾃サービスもAPIがあればオンボーディング⽀援ができそうチャットでタスクを依頼使い⽅が分からなくても助けてくれる様々なソフトウェアで⽀援! https://www.youtube.com/watch?v=YIVvXvLv_ak

Graft Intelligence Layer/チームメイトAI • AIチームメイトを提供する会社 • Graft Intelligence Layer は、企業の知識と専⾨知識を統合して、企業運営を合理化
https://www.graft.com/blog/embracing-ai-teammates

Kin/メモリに基づくパーソナライズAI • プライベートな⽣活のためのパーソナライズAIの提供 • メモリを念頭におき、会話をするたびに好みなどを学習する • 推しポイント：会話、⽂脈記憶、パーソナライズされたリマインダー、データとプライバシー保護 https://mykin.ai/ あなたのKinは、忍耐強く、思いやりがあり、知識が豊富で、
年中無休で対応

Sema4.ai/エンタープライズ向けGPTs https://sema4.ai • エンタープライズ向けエージェント構築ソリューション • カスタムActionはpythonで定義する必要がある

New Papers Agent Framework/Capabilities • A Survey on the Memory
Mechanism of Large Language Model based Agents • Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs • GPT in Sheep's Clothing: The Risk of Customized GPTs • The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions • Aligning LLM Agents by Learning Latent Preference from User Edits • AgentKit: Flow Engineering with Graphs, not Coding Agentic AI Systems • CT-Agent: Clinical Trial Multi-Agent with Large Language Model-based Reasoning • Automated Social Science: Language Models as Scientist and Subjects∗ • A Multimodal Automated Interpretability Agent Multi Agent Systems • NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding • AgentCoord: Visually Exploring Coordination Strategy for LLM-based Multi-Agent Collaboration • Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents

A Survey on the Memory Mechanism of Large Language Model
based Agents • LLM エージェントのメモリに関してサーベイした論⽂ (1) LLMエージェントのメモリとは何か (2) なぜLLMエージェントにメモリが必要なのか (3) LLMエージェントのメモリをどのように実装し評価するかメモリモジュールの重要性 Agent Framework

based Agents (1) LLMエージェントのメモリとは何か？ • エージェントの試⾏履歴で表される • タスクごとにエージェントの試⾏軌跡データを管理する • 試⾏軌跡データは状態と⾏動の組の系列で表される Agent Framework

based Agents (2) なぜLLMエージェントにメモリが必要なのか • 経験の蓄積 • 将来似たタスクを遂⾏する際に効率が上がる • 過去のエラー計画、不適切な⾏動、または失敗した経験を記憶する • 環境探索 • いつ、どのように探索を⾏うかをより適切に決定することができる • 様々な⾏動をおこないフィードバックと共に記録する • 知識の抽象化 • 未知の環境に対して⼀般化できるようになる • ⽣の観察を要約することで⾼次に抽象化して記録する • 対話 • メモリがなければ、エージェントは⽂脈を知らず、会話を続けることができない • 過去の会話に関する情報を記憶する • パーソナライズ • ユーザーとエージェントの対話中の事実情報だけでなく、ユーザーの好みやスタイルも記憶する Agent Framework

based Agents (3) LLMエージェントのメモリをどのように実装し評価するかメモリモジュールをどのように効果的に評価するかは未解決の問題 (1) 直接評価：メモリモジュールの能⼒を独⽴に測定する (2) 間接評価：エージェントタスクを通じてメモリモジュールを評価する Agent Framework

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs •
CoTの派⽣を網羅的にサーベイした論⽂ • CoTは問題を分解する途中過程を表す <input, thoughts, output> • CoTだけでは複雑な問題に対する理解が不⾜している • CoXでは途中過程の中間ノードを異なる形で設計し、具体的なタスクや⽬的に応じた構造を変えている Agent Capabilities

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs Chain-of-Intermediates
問題解決プロセスを明確な中間ステップに分割することに重点 Chain-of-Augmentation タスク実⾏プロセスに追加の情報や指⽰を組み込むことに重点 Chain-of-Feedback ⽣成された内容の改善や精度向上を⽬的としたフィードバックの組み込みに重点 Chain-of-Models 異なる専⾨性を持つ複数のモデルを連携させることに重点 Multi-Modal Interaction 画像内の詳細に焦点を当てるタスク、テキストベースで画像編集を⾏うタスクなど Factuality & Safety LLMsが⽣成する情報の事実性や安全性を⾼めるタスク Multi-Step Reasoning 問題を⼩さなステップに分割して逐⼀解決するタスク Instruction Following 与えられた指⽰に従って特定のタスクを実⾏する能⼒を強化するタスク LLMs as Agents LLMを計画や意思決定プロセスに活⽤するタスク Evaluation Tools LLMの性能を評価するために特別に設計されたタスク Agent Capabilities

GPT in Sheep's Clothing: The Risk of Customized GPTs •
様々な種類のサイバー攻撃がGPTsを使⽤してどのように実⾏されるかを⽰した論⽂ • 防御策も提案（ GPTの⾃⼰評価からセキュリティリスクを特定し、対策を講じる）脅威の⼀覧防御策の⼀覧 Agent Capabilities

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions •
OpenAIからプロンプトインジェクションやジェイルブレイクなどのセキュリティ脅威に対処する対処法の提案 • モデルが指⽰に従う優先度をメッセージタイプで分ける指⽰階層（System>User>Model>Tool）を定義 • 実際にセキュリティ脅威の攻撃に対して頑健になった（Web browsingでの攻撃の脅威が少しはマシになるか）優先度がわかる例性能⽐較 Agent Capabilities

Aligning LLM Agents by Learning Latent Preference from User Edits
• ユーザーによる編集フィードバックを基にLLMエージェントのパーソナライズを改善する⼿法の提案 • ユーザーの⽂章の編集履歴から好みを学習し、それを活⽤してユーザーにより適したレスポンスを⽣成することで、ユーザーの労⼒を減らし、エージェントのパフォーマンスを向上させる（Human in the Loop） Agent Framework

AgentKit: Flow Engineering with Graphs, not Coding • 個別のサブタスクをノードとして定義し、ノードを連結して直観的な「思考プロセス」を形成することができるLLMプロンプティングフレームワークAgentKitを提案
• 各ノードは⼊⼒の前処理、LLMへのプロンプト処理、結果の後処理を⾏うよう設計 • プログラミング経験のないユーザーでも⾼度なエージェントを設計できる（Difyと似ているノーコード系） Agent Framework

CT-Agent • GPT-4、マルチエージェント、LEAST-TO-MOST、およびReActを活⽤して、臨床試験タスクのために設計された臨床マルチエージェントシステム（CT-Agent）を提案 • マルチエージェントにすることで標準的なプロンプト法より改善した • 臨床試験の登録 • ⼈体に対する薬剤の安全性
• 疾患に対する薬剤の有効性 • LEAST-TO-MOST • ReActとLeast-to-Mostの組み合わせ Agentic AI Systems

Automated Social Science • 社会科学的仮説（構造因果モデル）を⾃動⽣成し、⼈の役割をエージェントが担い、テストする⽅法の提案 • SCMを⽤いたシミュレーションから得られた洞察は、LLMだけのそれでは得られないことを⽰している構造因果モデル（SCM）のシナリオ例構造因果モデルとLLMを組み合わせた社会科学的仮説の⾃動テストシステム Agentic
AI Systems

A Multimodal Automated Interpretability Agent • NNモデルの解釈可能性の実験を⾃律的に⾏うエージェントシステムの構築 • 解釈可能性のクエリが与えられると、特定の仮説をテストする実験を実⾏し、実験結果を観察し、ユーザのクエリに答えられるようになるまで仮説を更新する
• ⼈間でもできる作業だが⾯倒なため、エージェントに代替デモサイトあり：https://multimodal-interpretability.csail.mit.edu/maia/ 質問例「特定のニューロンを活性化させる画像を教えて！」「モデルのバイアスを教えて！」 MAIA Agentic AI Systems

NegotiationToM • ⼼の理論の評価が⼈⼯データやゲーム設定で、現実の⼈間の相互作⽤シナリオでの評価が不⾜ • 多次元の精神状態（欲求、信念、意図）をカバーするNegotiationToMベンチマークを構築 • NegotiationToMは難易度が⾼く、欲求、信念、意図の順で精度が⾼いが、⼈間と⽐較して劣る性能を⽰した Multi Agent Systems

AgentCoord: Visually Exploring Coordination Strategy • 協調マルチエージェントタスクのログ分析は、⼤量のテキストから重要な情報を抽出することになり、認知的負担が課題 • AgentCoordは、視覚的インターフェースを通じてユーザーが容易に理解・操作できるよう設計されている
Multi Agent Systems

Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society
of LLM Agents • 複数エージェントによる資源共有問題で戦略的かつ倫理的な意思決定を⾏う能⼒を評価するためのシミュレーション環境をを開発 • エージェントに「もし全員がこの⾏動をとったらどうなるか」という視点から判断するように指⽰ • GPT-4 と Claude-3 Opus は即時報酬の最⼤化ではなく、その⾏動が集団全体に与える⻑期的な影響を考慮できた Multi Agent Systems 資源の分配個⼈の判断エージェント：漁師共有資源：湖の⿂漁師の仕事をみんなが続けるためには、全員が捕獲しすぎず、繁殖と収⼊の⻑期バランスを取る個⼈の結果をもとに次のラウンドを全員で議論将来の計画過去ラウンドに基づいて将来の戦略を個⼈が練る MARL的な問題設定

Agent Tools Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント
• Agents for Amazon bedrock 機能紹介 4/23アップデート含む海外のベンチャー企業 • Introducing Dify Workflow • Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various LLMs • Bland AI/Phone Agents • NEXUS/NexusGPT • PaddleBoat • Intrvu SPACE/Interview Agent • Alpha Corp/Group Chat With AIs コラム • The UX of AI: Lessons from Perplexity • The Rise and Fall of (Autonomous) Agents

Google Cloud Next ʻ24 • エージェントは⼈間とつながり、ユーザーに代わって、テキスト、画像、⾳声、動画のように形式の異なる情報を同時に処理し、対話、推論、学習、意思決定を⾏う • 6つのユースケースを紹介 •
既存サービスにGeminiを乗せるのとエージェントが道具としてサービスを使う話が混在している • カスタマーエージェント • 優れた販売員やサービスマンと同様に、お客様の声に⽿を傾け、ニーズを理解し、適切な商品やサービスを勧める • ウェブ、モバイルアプリ、POS、コールセンターと連携 • 従業員エージェント • 従業員の⽣産性を⾼めるために 1 ⼈の従業員として業務をサポートする • Google ドライブ上のRAG、Google docs や Gmail での⽂書作成⽀援、 Google スライドのスライドや画像⽣成 • クリエイティブエージェント • デザイナーのようなクリエイティブなタスクをこなす • Imagen 2.0、 Text-to-Live Image • データエージェント • データアナリストのように、企業のデータを使った意思決定をサポートする • BigQuery、LookerにGemini搭載 • コードエージェント • アプリケーションを開発するエンジニアの⽣産性を⾼める（Gemini Code Assist ） • セキュリティエージェント • チャットを通じて、セキュリティインシデント内容を要約、推奨されるアクションを提案をする https://cloud-ace.jp/column/detail468/ https://www.youtube.com/watch?v=V6DJYGn2SFk （4/10開催）

Google Cloud Next ʼ24 カスタマーエージェントショッピング⽀援欲しいシャツとURLを渡して動画の中で着ているのと似たシャツを推薦元のプロンプトもだいぶ効いていそうだけど凄いショッピング⽀援
電話（⾳声対話）で買い物 https://www.youtube.com/watch?v=V6DJYGn2SFk

Google Cloud Next ʼ24 従業員エージェント Google ドライブ上のデータで質問応答 Docsでも100ページ越えても質問応答 @でファイル選択するの良いな https://www.youtube.com/watch?v=V6DJYGn2SFk

Google Cloud Next ʼ24 データエージェントインタラクティブな描画名のがすごいな細部の作り込みがデモ映えしている対話形式で深く掘り下げられるいくつものコンポーネント⽤意していそう https://www.youtube.com/watch?v=V6DJYGn2SFk

Agents for Amazon bedrock の特徴 • Claude3 SonnetとHaikuまで利⽤可能 • Agents
for Amazon Bedrock は現時点では⽇本リージョンに対応していない⾃動プロンプト作成開発者が提供する役割指⽰、APIやfunction の詳細、およびナレッジベースからの企業データソースの詳細に基づいてプロンプトを作成計画によるサブタスクの作成と実⾏必要な API を⾃動的に呼び出して実⾏ CoT推論によるトレーストレース機能からエージェントの推論と計画を段階的に確認プロンプトエンジニアリング⾃動⽣成されたプロンプトテンプレートをさらに改良してUXを向上 https://aws.amazon.com/jp/bedrock/agents/

Agents for Amazon bedrockによるエージェントの構築 • 順番に設定していくと簡単に作成ができる（外部ツールだけ別途コーディングが必要な場合あり）構築後は対話形式で確認エージェント構築画⾯ https://www.youtube.com/watch?v=NWoC5FTSt7s

Agents for Amazon bedrock のアプデ 4/23 • エージェントの外部ツール呼び出し（アクショングループ）の設定が以前より簡素化された • アクショングループは、Lambda
関数を関連付けたり、エージェントを呼び出しているユーザーまたはアプリケーションに制御を返して関数に応答できるように設定できる • (New) Return of control：AWS Lambda関数の使⽤せず、エージェントを呼び出すアプリケーションに制御を返す⼈間にタスクを実⾏してもらうことができる • 時間のかかるアクションがある場合 • タスクの継続時間が Lambda 関数の最⼤タイムアウトである 15 分を超える場合 • 既存のアプリケーション (エージェントの呼びだしもと) から API を呼び出す⽅が簡単な場合 Return of control ユーザーに外部サービスの結果を⼊⼒してもらう https://aws.amazon.com/blogs/aws/agents-for-amazon-bedrock-introducing-a-simplified-creation-and-configuration-experience/

Introducing Dify Workflow • Difyはエージェントのワークフローをノード間を線で繋ぐ直感的なドラッグ＆ドロップで作れるサービス • ワークフローは API 対応で、既存のアプリケーションやシステムに簡単に統合できる •
プロトタイプを作るときに使いやすいかもしれない（Apr 8, 2024公開）ノードに細かく設定ができるデバッグも細かくできる https://dify.ai/blog/dify-ai-workflow

Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various
LLMs • OpenAI Assistants APIと類似機能もあり作成⼿順 • 新しいアシスタントアプリを作成する • プロンプトを作成する • エージェントが使⽤するツールを構成する • デプロイする (2024 年 1 ⽉ 24 ⽇に公開)

Bland AI/Phone Agents • Bland は AI 通話のためのプラットフォーム（コールセンター、リード獲得など） • AI電話エージェントはいつでもリードに連絡を取ったり、顧客からの呼び出しに応答でき、質問に即座に対応
できる • ⽂字起こし、⾔語理解、テキスト読み上げモデルの組み合わせも 1 秒以内に実⾏する • 1秒以内レスポンスに向けてモデル以外にもプロンプトを⼯夫する • 電話エージェントの⼈物像、応答すべき質問の種類、応答すべきでない質問の種類、誰かが電話エージェントを脱獄しようとした場合の対処⽅法を記載 https://www.bland.ai/blog/how-to-build-an-ai-call-center How to build an AI Call Center（ April 7, 2024 ）電話の内容を別のツールと接続可能

NEXUS/NexusGPT • ワークフロー⾃動化のためのカスタムAIエージェントプラットフォーム（GPTsのようなもの） • 対話的にエージェントの役割を定め、タスクを指定、ナレッジアップロード、ツールと接続、その後、対話エージェントをデプロイ • ⾃動計画と実⾏、エージェントを微調整、さまざまなモデル対応している様々なエージェント https://nexus.snikpic.io/

PaddleBoat • PaddleBoatは、AI駆動のロールプレイプラットフォームを提供 • コールドコール、ディスカバリコール、デモ、売り込み、反対意⾒への対応など洗練されたセールスピッチの精度を向上させる⽬的ごとにロープレできるスコアが出てフィードバックを受けられる
https://www.padboat.com/

Intrvu SPACE/Interview Agent • Intrvu SPACE は、⾯接のスケジュール設定から候補者の評価までの様々な段階を⾃動化する • 事前スクリーニング、⾯接の実施、レポートの⽣成、候補者の承認を⾃動化 •
Intrvu SPACE は、従業員評価にも利⽤でき、⼈材開発と管理にも使える • 候補者は都合のよいときに⾯接可能 https://www.intrvu.space/

Alpha Corp/Group Chat With AIs • 社内ChatGPTでAI同⼠のグループチャットができる • 複数のモデルが利⽤可能 •
同じチャットの中でモデルの⽐較ができる • ２つのモデルでチャットシミュレーション • AIがAIに応えることができる https://alphacorp.ai/

The UX of AI: Lessons from Perplexity • Perplexity AI
のデザイン責任者であるヘンリーモディセットとの対談記事 • Perplexity は、信頼できる情報をできるだけ早く提供することに重点を置いた急成⻑中の AI スタートアップ • 製品が⼤きく複雑になればなるほど、快適なエクスペリエンスを提供することが難しくなる • 擬⼈化されたコンセプトを持つことによるメリットはほとんどありませんシンプルに回答の⼀番上に情報源（記事、画像、地図、ビデオ）を表⽰し、それから答えがある。答えはチャットではない。 https://www.nngroup.com/articles/perplexity-henry-modisett/

The Rise and Fall of (Autonomous) Agents • LLMに基づく⾃律型エージェントの発展と課題をまとめたブログ（2024 年
3 ⽉ 4 ⽇公開）的を得た⼀⽂ • エージェントは現在、⽬標が達成されるまで⼤きなタスクを管理可能な⼩さなタスクに分割するプロジェクト管理エージェントに依存しています。課題 • 閉ループに陥る • ユーザビリティが低い • 信頼性が⼗分ではない https://medium.com/@lukas.kowejsza/the-rise-and-fall-of-autonomous-agents-18360625067e

New Papers Agent Framework/Capabilities • Memory Sharing for Large Language
Model based Agents • Foundational Challenges in Assuring Alignment and Safety of Large Language Models • ChatShop: Interactive Information Seeking with Language Agents • Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing • The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey Multi Agent Systems • Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation Computer Controlled Agents • MMInA: Benchmarking Multihop Multimodal Internet Agents

Memory Sharing • LLMマルチエージェント⽤のメモリ共有フレームワークを導⼊ • プロンプトと回答のスコアを評価しメモリとインデックスに追加するか判断 • 捻りはない評価プロンプト Agent
Capabilities

Foundational Challenges in Assuring Alignment and Safety • LLMの安全性を保証するのに役⽴つ課題を説明した論⽂ •
エージェントに関する指摘事項 • LLMエージェントが継続的に⽣涯学習（Lifelong Learning）をすること • フィードバックや新しい経験に基づいて⾃⾝の理解を適応させる能⼒によって駆動する必要がある • そのために強化学習や転移学習の利⽤と発展が求められる • LLMエージェントが不完全で不確実で⾼いリスクを伴う状況に対してロバストかつ慎重に⾏動すること • 曖昧なシナリオで慎重な決定を下すため、アンサンブル、不確実性の定量化や安全な強化学習を導⼊する必要がある • LLMエージェントが欺瞞、権⼒追求、⾃⼰保存などの望ましくない⾏動にどのように傾くか把握すること • 解釈可能性の技術から、⾏動の原因分析をする必要がある • LLMエージェント向けのよりロバストなモニタリングシステムを構築すること • 予期せぬ⾏動や予想される規範からの逸脱を特定するための⾼度な異常検出アルゴリズムを組み込む • LLMエージェント間の共謀⾏動を防⽌および検出すること • 敵対的攻撃などから技術を発展させる必要がある Agent Capabilities

ChatShop: Interactive Information Seeking • 現状のLLMエージェントは戦略的に新しい情報を探求する能⼒が⽋けている • ウェブショッピングのタスクを利⽤し、エージェントが対話を通じてユーザーの好みを探り、情報を徐々に蓄積することで意思決定を⾏うChatShopというタスクを提案 •
エージェントがリアルタイムでユーザーと対話しながら商品情報を収集し、適切な商品を推薦する能⼒が評価買い物客が⼈間かエージェントかでエラー分析要件忘れ/誤解/質問不⾜/繰り返す同じ質問/ミスリード Agent Capabilities

Visualization-of-Thought • “思考の視覚化”（VoT）プロンプティングを提案 • LLMが推論過程を視覚化（厳密には⾔語化）することで、空間推論を向上できることを⽰す • グリッドワールドのナビゲーションなど簡易環境で検証した Agent Capabilities

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing •
モンテカルロ⽊探索（MCTS）とLLMを統合したALPHALLM を提案し計画と⾃⼰改善を改善 • Imagination （類似プロンプト⽣成）、 Searching （MCTS）、 Criticizing （フィードバック提供）の3つのコンポーネントで構成 • MCTSでは以下の⼯夫をして探索範囲を狭めている • ⾏動空間をトークンや⽂レベルでなくオプションレベルにする • 状態空間も状態マージの既存⼿法からグルーピングをおこなう Agent Capabilities

AI Agent Architectures for Reasoning, Planning, and Tool Calling: A
Survey • シングルとマルチのエージェントアーキテクチャの良し悪しや現状のエージェントの課題を説明した論⽂ • シングルエージェントアーキテクチャ • ReAct：Reasoning + Act ⼈間のフィードバックが⼊れられない、思考のループなどが課題 • RAISE : ReActにメモリを持たせたが、複雑なタスクに幻覚を⾒る • Reflextion：⾔語フィードバックで幻覚を減らすが、参照情報が必要で検索性能とトークンの制限に苦しむ • AUTOGPT+P：Planningを⼊れてツールを使うが、正しくないツール利⽤や⼈間から計画の修正ができない • LATS：計画と⾏動と推論をツリーベースにするが、推論時間とアルゴリズムの複雑さから実⽤性が困難か • マルチエージェントアーキテクチャ • Dynamic LLM-Agent Network ：タスクごとにエージェントの貢献度を測定し、貢献度の⾼いチームを作る • AgentVerse：ラウンドごとにチームメンバーを⼊れ替え、タスクをこなす • MetaGPT：エージェント間の会話を構造化した⽂書でやりとりし、情報共有の仕⽅を徹底した • 課題 • エージェントの評価コストが⾼い • ベンチマークに他のエージェントも評価できるほど汎⽤性がない • 現実世界と問いデータとの差がどのくらいあるのか Agent Framework

Confidence Calibration and Rationalization for LLMs via Multi- Agent Deliberation
• RLHFで微調整されたモデルは過信しやすいことが別論⽂で⽰されている • LLMの信頼度推定に複数のLLMエージェントによる2段階のグループ審議プロセス⽅法を提案 Multi Agent Systems

MMInA: Benchmarking Multihop Multimodal Internet Agents • 複数ウェブサイトを遷移しながらタスクを遂⾏するWebエージェントのベンチマーク • 全体的にGemini-Pro-Visionの⽅がGPT-4Vより精度が⾼い
• ２つのサイトで済む簡単なタスク設定でも１サイト⽬で70%、２サイト⽬で8%まで成功率が落ちる Computer Controlled Agents

Agent Tools • Gemini 1.5 Pro • OpenAI Batch API
• OpenAI Assistants API v2 • LangChain Tool calling agent • LlamaIndex: An Introduction to Agents Tutorial Series • LangChain Benchmarks

Gemini 1.5 Pro • Googleは100万トークンのGemini 1.5 ProをGoogle AI Studioで公開 •
ネイティブオーディオの理解 • Gemini API と Google AI Studio の両⽅で使える • ビデオの画像 (フレーム) とオーディオ (⾳声) の両⽅を理解できる • ファイルAPI • プロジェクトごとに最⼤ 20 GB、ファイルサイズの上限は2GB、アップロード後2⽇で削除 • 画像、動画、⾳声ファイル対応 • System InstructionとJSONモードの導⼊ • 役割、形式、⽬標、ルールを定義して、特定のユースケースに合わせてモデルの動作を制御できる • JOSNモードでは、テキストまたは画像から構造化データを抽出できる • function callingの改善 • 関数呼び出しモードで使うか使わないかわからないAUTO, 必ず呼ぶANY, 使わないNoneが選べる • テキスト埋め込みモデルtext-embedding-004もリリース https://ai.google.dev/gemini-api/docs/function-calling?hl=ja https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

OpenAI Batch API 通常のAPIより50%安い。⼊⼒・出⼒はJSONLファイルになる。

OpenAI Assistants API v2 • 最⼤ 10,000 個のファイルを取り込めるファイル検索（file_search）機能をリリース • RAGで最初にやりそうなことはファイル検索機能に追加された
• 各実⾏で使⽤されるメッセージ数に制限の設定/トークン数の最⼤値の設定が可能に • tool_choiseパラメータ”code_interpreter”, ”function”に”file_search”が指定可能に • gpt-3.5-turbo-0125のFine-Tuningモデルが利⽤可能 • ストリーミング対応 https://platform.openai.com/docs/assistants/whats-new

LangChain Tool calling agent • LangChainのツールを利⽤するAgentクラスを久々に⾒たらサポート数が増えていた • OpenAIのGPT-turbo、AnthropicのClaude、GoogleのGemini、MistralAIのMistralをサポート最初のLLMの定義だけ違うそれ以降は同⼀の書き⽅
system_messageはGeminiだけなかったが追加されたのでLangChainでも対応される

LlamaIndex: An Introduction to Agents Tutorial Series • LlamaIndexのYoutubeにエージェント開発⽤のチュートリアル動画があがった •
ステップバイステップ実⾏とToolの利⽤後にLLMの⽣成を挟まないreturn_direct 変数にオリジナリティがあったかも https://medium.com/llamaindex-blog/data-agents-eed797d7972f

LangChain Benchmarks • LLM 関連タスクのベンチマークを⽀援するパッケージ • Tool Usage (2024-04-18)の項⽬が追加 •
gpt4-turboとclaude-sonnetが良い勝負している、計算タスクだけgpt-35-turboが良い

New Papers Agent Framework/Capabilities • GoEX: Perspectives and Designs Towards
a Runtime for Autonomous LLM Applications • AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications • Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought • Graph of Thoughts: Solving Elaborate Problems with Large Language Models Agentic AI Systems • ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models • AutoCodeRover: Autonomous Program Improvement Multi Agent Systems • 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System Computer Controlled Agents • OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments • Autonomous Evaluation and Refinement of Digital Agents

Gorilla Execution Engine (GoEx) • ⾃律型エージェントアプリケーションのアクションの安全性にはケアが必要 • 取り返しのつかない誤送⾦や誤送信、⼀定期間は取り返しのつく購⼊・予約やファイル更新など • 実⾏したアクションの取り消し機能、アクセス権限機能などの安全性に配慮したアクション実⾏ラ
ンタイム環境を開発⾃律型エージェントが徐々にサービスに深く組み込まれる Agent Framework

AI2App • AIエージェントアプリケーションを開発するための統合開発環境（Visual IDE） • プロトタイピングキャンバス、AI⽀援コードエディター、エージェントデバッガー、管理システム、デプロイメントツールなど、⼀連の開発ツールがウェブベースのGUIで統合 Agent Framework

LM-Guided Chain-of-Thought • ⼩規模な⾔語モデルを活⽤して、 100B以上のLLMの推論能⼒を向上させるフレームワーク • 軽量モデルが問題に対して論理的根拠を⽣成し、LLMがその結果に基づきタスクの出⼒を⽣成する • 軽量モデルの学習（知識蒸留とPPO）のみ必要で資源効率に優れている Agent
Capabilities

Graph Chain-of-Thought • 既存のテキストのみを使⽤した知識拡張は、テキスト間の関連性やグラフ構造を考慮していない • 学術は引⽤、著者、出版でグラフ化され、ヘルスケア、法律、ECでも同様にグラフが定義できる • Graph-CoTは、LLMがグラフのノードを移動し、必要な情報を段階的に収集することを可能にする • 各ステップでは下図のように推論、グラフとのインタラクションを⽣成、実⾏をおこなう
Agent Capabilities

ResearchAgent • 科学研究の⽣産性を向上のため、LLMを活⽤した研究アイデア⽣成エージェントを提案 • 論⽂を基に問題点の特定、⽅法論の開発、実験デザインの提案を⾃動でおこなう • 論⽂引⽤グラフや、多数の論⽂から抽出・集約された関連エンティティを活⽤しアイデア⽣成 • 複数の査読エージェントのレビューに基づいて、⽣成されたアイデアを反復的に改良 Agentic
AI Systems

AutoCodeRover • ソフトウェア開発の⾃動化、バグ修正と機能追加を⽬的としている • LLMをコード検索機能と組み合わせ、プログラムの修正やパッチを⾃動的に⽣成するアプローチ • 開発者が平均2.77⽇かかる課題を、10分未満で解決できる例も67件あった Agentic AI Systems

360°REA • LLMエージェントの性能向上を⽬指し、組織の360度評価システムに着想を得たマルチエージェントフレームワークを提案 • 360度評価を⽤いて、⾃⼰、仲間、上司レベルから貴重なフィードバックを得る Multi Agent Systems

OSWORLD • OSWORLDはMLLMエージェントを使ったコンピュータタスクのベンチマークプラットフォーム • Ubuntu、Windows、macOSなどの異なるOSで動作するエージェントの評価をサポート • エージェントの性能評価では、⼈間が72.36%に対し、最も優れたモデルは12.24%の成功率 Computer Controlled Agents

Autonomous Evaluation and Refinement of Digital Agents • デジタルエージェントの性能をVLMで軌跡かステップレベルで評価し⾃動で改良する⼿法を提案 •
⾃動評価の精度はオラクルと⽐較し80~90% ユーザーの意図は、GitLab で最もスターが付けられている上位 1 リポジトリにスターを付けることでしたが、ボットは既にスターが付けられている特定のリポジトリにスターを付けようとしました。問題のリポジトリがスター付きのトップ1であることを⽰すものはなく、ボットはユーザーの意図に基づいて正しいリポジトリとやりとりしていることを確認するためのアクションを実⾏しませんでした。したがって、タスクは正常に完了していません。成功した評価の例 Computer Controlled Agents

Agent Tools • Vertex AI Agent Builder • Claude 3
AI Expands with Tool Integration • Humane AI Pin review: not even close

Vertex AI Agent Builder • ノーコードのGUIツールで簡単にAIエージェントをプロトタイピング、テスト、デプロイが可能 • ツールはCode Interpreter、OpenAPI 、データストア、関数ツールがある
https://cloud.google.com/dialogflow/vertex/docs/concept/agent-apps

Claude 3 AI Expands with Tool Integration • ツールの定義と利⽤⽅法はだいたいOpenAIに準拠しているベストプラクティス
• ツール定義 • exanpleよりもdescriptionを優先する • 多くのツール利⽤可能 • 数百のシンプルなツールと少数のパラメータの多い複雑なツールでも、90% を超える精度を実現 • 順番にツール利⽤ • ⼀度に 1 つのツールを使⽤し、そのツールの出⼒を使⽤して次のアクションを通知することを好む • ツールの繰り返し傾向 • 2 〜 3 回試⾏が失敗すると、Claudeは諦めて、さらに再試⾏する代わりにユーザーに謝る https://docs.anthropic.com/claude/docs/tool-use

Humane AI Pin review: not even close 良点・画⾯を⾒る時間が減り、現実に集中できる・ワンタップで作業が完了する
⽋点 • 実⽤性：数回に⼀度失敗する。回答待ち時間が⻑い。 • デバイスの問題：バッテリー寿命が短く、過熱しやすい。カバンにひっかかる。 • 価格：完成度が低く、700 ドルか⽉額 24 ドルする。 https://www.theverge.com/24126502/humane-ai-pin-review

Weekly AI Agents News!

Weekly AI Agents News!

More Decks by masatoto

Other Decks in Research

Featured

Transcript