Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190

Slide 2

Slide 2 text

はじめに • LLMエージェントに関するニュースや論文をほぼ毎週更新しています。 • 論文、プロダクトの順番でまとめています。 • 個人の備忘録で取り組んでおり、誤りがある場合もあります。 • 文字サイズ16ptで小さいのでPCで見ることをおすすめします。 • SpeakerDeckに過去の4月、5月、6月、7月、8月、9月、10月、11月の資料を分けて公開しています。 • 7月から隔週で更新します。

Slide 3

Slide 3 text

12月16日 更新 • 論文 • プロダクト・ニュース

Slide 4

Slide 4 text

論文 12/4~12/13まで プロフィール • CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds • Simulating Human-like Daily Activities with Desire-driven Autonomy 推論 • MISR: Measuring Instrumental Self-Reasoning in Frontier Models • RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios 学習 • Training Agents with Weakly Supervised Feedback from Large Language Models • MALT: Improving Reasoning with Multi-Agent LLM Training • Personalized Multimodal Large Language Models: A Survey Agent Framework • Practical Considerations for Agentic LLM Systems • Challenges in Human-Agent Communication • Specifications: The missing link to making the development of LLM systems an engineering discipline

Slide 5

Slide 5 text

論文 12/4~12/13まで Agentic AI System • Hacking CTFs with Plain Agents • Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System Digital Agent • Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction • AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials • The BrowserGym Ecosystem for Web Agent Research • PAFFA: Premeditated Actions For Fast Agents • Generalist Virtual Agents: A Survey on Autonomous Agents Across Digital Platforms Data Agent • DataLab: A Unified Platform for LLM-Powered Business Intelligence • AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark • Towards Agentic Schema Refinement

Slide 6

Slide 6 text

論文 12/4~12/13まで Research Agent • DrugAgent: Automating AI-aided Drug Discovery Programming through LLM Multi-Agent Collaboration Embodied Agent • Navigation World Models • From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons Multi Agent System • GENMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration • A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios • From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents • LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation Agentic RAG • Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models • A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data

Slide 7

Slide 7 text

ロールプレイングの没入感を増すための評価から学習フレームワーク CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds LLMのロールプレイ能力を評価するためのフレームワークCharacterBox を提案 ロールプレイングの対話履歴に基づきキャラクターの行動や反応を7つの基準でLLMがスコアリング • 知識の正確性: キャラクターが提供する情報が背景知識に一致し、正確であるか • 行動の正確性: キャラクターの行動や言葉遣いが、その特性と一致しているか • 感情表現: 感情が適切に表現されており、ユーザーの没入感を高めるか • 個性の維持: キャラクターが一貫した個性を持ち続けているか • 没入感: キャラクターのパフォーマンスが一貫しており、ユーザーが物語に没入できるか • 適応性: 新しい状況にどれだけ柔軟に対応できるか • 行動の一貫性: 過去の行動や状況と整合性のある振る舞いを示すか 対話履歴をスコアの結果に基づきLLMが修正し、その結果で再学習するとキャラクタ表現の一貫性や深みが増した Agent Capabilities: プロフィール

Slide 8

Slide 8 text

ペルソナではなく人間の内在的な欲求を数値で管理して人間らしい振る舞いを目指す Simulating Human-like Daily Activities with Desire-driven Autonomy 人間のように内在的な欲求を基盤にした自律エージェントのフレームワークを提案 • エージェントが11の欲求次元(健康、喉の渇き、精神的満足など)を11段階の数値でプロンプトに保持 • エージェントは、自身の状態を評価し、欲求を満たす最適な活動を選ぶ • テキストベースのシミュレータを活用し、室内、パーティーなどで活動をシミュレーション • 従来のベースライン(ReAct, BabyAGI)と比較して、より自然で一貫性のある人間らしい活動を生成 提案手法の位置付け Agent Capabilities: プロフィール

Slide 9

Slide 9 text

エージェントが自身の状態や環境を理解して目標を達成する能力があるのか評価 MISR: Measuring Instrumental Self-Reasoning in Frontier Models Deep Mindから目的達成のための自己推論(instrumental self-reasoning)を測る方法を提案 • instrumental self-reasoning:エージェントが自身の状態や環境を理解し、それを活用して目標を達成する能力 評価項目 自己改変:エージェントが自身の制約や設定を理解し、それを修正してタスクを解決する能力 • 例えば、長文メッセージ送信時に、文字数制限を設定ファイルで変更して送信する • 全てのタスクで最も精度が低い結果になっている。ヒントがない場合、ほとんど失敗する ツール改善:外部ツールやスクリプトを理解し、修正することでタスクを解決する能力 • ツールの欠陥を発見し修正する基本的能力を示したが、暗黙的なタスク要件を理解する能力が限定的 知識追求:エージェントが自身の知識状態を評価し、必要な情報を特定して情報を探索・収集する能力 • 特定の知識を探索するタスクで優れた性能を発揮したが、目標が明示されない場合では効率が低下した 社会的推論:他者との相互作用や社会的文脈で戦略的に行動する能力 • 社会的文脈を理解する能力は発達しているが、商用モデルでは倫理的な制約が能力発揮を妨げる場合がある Agent Capabilities: 推論

Slide 10

Slide 10 text

実世界の複数の制約やルールに準拠した推論は難しい RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios LLMが複雑な現実世界のルールに従って推論する能力を測るベンチマークRuleArenaを提案 航空手荷物料金、NBAの取引規則、税制の3つの実用的なドメインにおけるルールに基づく推論を評価 • RULEARENAは95のルールと816のテスト問題を含む • 航空と税のドメインでは、明確なルールが多いため、モデルはすべてのタスクで関連するルールを適用できている • 一方で、NBAでは類似ルールの区別が難しく、Precisionが低下 • 全ての関連ルールの適用割合は全ドメインで低い値となった(見逃しあり) • モデルは多数のルールを一貫して統合することが難しく、不要な情報に惑わされる傾向がある LLMに求められる能力 • 適切なルールを特定する能力 • 複数のルールを組み合わせて適用する能力 • 正確な計算と論理的推論を行う能力 航空手荷物料金ルールの例 • すべての客室で、キャリーオンバッグ1個と個人用バッグ1個まで無料。 • 荷物の総寸法が62インチ(長さ + 幅 + 高さ)を超える場合、追加で$100。 Agent Capabilities: 推論

Slide 11

Slide 11 text

エージェントの振る舞いをするための高品質な学習データを逐次学習 Training Agents with Weakly Supervised Feedback from Large Language Models Tencentからエージェント訓練フレームワークを提案 従来のエージェント訓練では専門家の軌跡や決定的な環境フィードバックが必要 提案手法 • 軌跡生成: エージェントが指示に従い環境と相互作用して軌跡を生成 • 批評モジュール: LLMを活用して軌跡を評価し、高スコアの軌跡を選択 • 逐次学習: 評価された軌跡の上位p%を次の学習データとして使用し、エージェントを学習 API-Bankでは提案手法により、GPT-4に匹敵する精度(49.5%)を達成 Agent Capabilities: 学習

Slide 12

Slide 12 text

各LLMを役割別で学習したマルチエージェントで推論を強化しよう MALT: Improving Reasoning with Multi-Agent LLM Training 提案手法は複数のLLMを役割別に訓練し、それぞれが専門的な役割を果たしながら連携して推論問題を解決する • 生成モデル (Generator):初期回答を生成 • 検証モデル (Verifier):生成された回答の妥当性を検証 • 改良モデル (Refiner):検証結果をもとに回答を改善 実験 • Llama 3.1 8Bモデルを全て使っている • 学習することで数%改善しているが、コスト的に推論だけでも良さそう • 推論だけの役割を与えたマルチエージェントと提案手法はほぼ変わらない結果に見える 単一モデル +投票 マルチエージェント +投票 Agent Capabilities: 学習

Slide 13

Slide 13 text

よりユーザーに適した体験を提供するパーソナライズMLLMのサーベイ論文 Personalized Multimodal Large Language Models: A Survey テキスト生成が注目されがちだが、画像生成、推薦、検索のパーソナライズについても調査している ユーザー嗜好が時間とともに変化する中で、その変化に動的に対応する能力が課題に挙げている Agent Capabilities: 学習

Slide 14

Slide 14 text

LLMエージェント設計・展開のベストプラクティスを提案 Practical Considerations for Agentic LLM Systems 計画(Planning) タスク分解:サブタスクの定義はLLMが適切に実行可能なレベルで行うべき 計画戦略の選択 • 暗黙的計画: LLMに逐次的に次のステップを推測させる方法 • 明示的計画: タスク開始時に全体の計画を明確に定義し、実行中に計画を修正する方法 計画の評価と適応:計画の各ステップ実行後にその成功を評価し、必要に応じて計画を調整する 記憶(Memory) RAGの活用:必要な情報を外部データベースから動的に取得して提供 長期記憶の管理:長期的に有用な情報を選別して保存し、適切な場面で呼び出して再利用すること メモリの選別基準:他の入力に依存しないこと。ユーザーやタスクに関連すること。継続的に有用であること ツール(Tools) ツールの設計:LLMが外部ツールを使用する方法を明確に定義 ツールの分類と管理:ツールを共通の機能ごとにグループ化(「ツールキット」の概念)し、簡潔に管理 動的ツールの追加:エージェントが新しい環境で自動的に新しいツールを識別・追加できる仕組みを構築 制御フロー(Control Flow) エラー処理:同じプロンプトを繰り返して出力を確認。エラー情報を追加しLLMに再試行。コンテキストを別のLLMに提供し、再試行 停止基準の設定:明確な停止条件(例: 特定のトークンやフレーズ)をプロンプトに組み込む 複数のペルソナの活用:各タスクに最適化されたペルソナ(役割やプロファイル)を使用し、タスクごとに異なる役割を担わせる コンテキスト管理:必要な情報だけを選択してLLMに渡す。過去のコンテキストを要約し、トークン数を削減 Agent Framework

Slide 15

Slide 15 text

エージェント時代のUXについて考えよう Challenges in Human-Agent Communication MicrosoftからAIエージェントと人間とのコミュニケーションに関する課題を分析 エージェントがどの ような能力を持つか エージェントが次に 何をする予定か エージェントが現在 行っていることは何か 環境への影響や副作用は何か 目標が達成されたか エージェントに達成すべき目標は何か エージェントが優先すべきことや制約は何か エージェントが次回気をつけることは何か エージェントの行動をどのように検証すればいいですか エージェントは一貫した行動をどのように伝えるべきか エージェントは最適な情報量をどのように伝えるべきか エージェントが過去のやり取りや文脈をどの程度活用すべきか エージェントか らユーザーへの 課題 ユーザーから エージェントへ の課題 基本的な人間と エージェントの コミニケーショ ンの課題 Agent Framework

Slide 16

Slide 16 text

LLMシステムは仕様が命であることを説く Specifications: The missing link to making the development of LLM systems an engineering discipline 工学分野の成功は、明確な仕様によって支えられてきた LLMを用いたシステムも仕様の明確化が不可欠なため、工学の考えを踏まえてLLMシステムの仕様を議論している ステートメント仕様(Statement Specification) • タスクが何を達成すべきかを記述する(タスクの目的を明確化する部分) • タスクの目標や期待される振る舞い、入力、および出力を具体的に示す • 複雑なタスクを細分化し、各コンポーネントに目標を割り当てる際の指針となる ソリューション仕様(Solution Specification) • タスクの目標が達成されたかどうかを検証するための基準や方法を記述する • 出力結果が正しいかを検証し、タスクの成功を保証するため • デバッグや改善を行う際に基準を提供する LLMのプロンプト設計においてそれぞれの位置付け • ステートメント仕様を適切に設計することで、より良い出力が得られる • ソリューション仕様を構築することで、出力が仕様に準拠していることを確認できる タスクの出力が正しいことを確認し、LLMシステムをデバッグするための、明確なステートメント仕様とソリュー ション仕様をより簡単に記述できる新しい技術を開発する必要がある Agent Framework

Slide 17

Slide 17 text

システムの脆弱性を探し出すのにエージェントって使えるの? Hacking CTFs with Plain Agents 高校レベルのハッキングベンチマークであるInterCode-CTF におけるLLMのサイバーセキュリティ能力を評価 最も精度が出たのは図のReAct&Plan型 • GPT-4oがReActを担い、o1-previewが計画を立て直す • 95%という高いタスク成功率が達成した 細かい分析 • 計画のないReActでも91%で、計画をo1-previewからgpt-4oに変えても92%と変わりはない? • ReActを4o-miniにするか、構造化出力を使わないと80%前半まで落ち込む Agentic AI Systems

Slide 18

Slide 18 text

医療レポート作成支援をマルチエージェントで解決 Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System • 放射線科レポートにおける所見から印象を生成するタスクを支援するマルチエージェントシステム 「RadCouncil」を提案 印象とは所見を要約し、臨床医が患者の診断や治療を迅速に判断するための要となる内容 1. Retrieval:類似過去レポートをベクトルDBから検索 2. Radiologist:所見を基に印象を生成 3. Reviewer:印象の一貫性と正確性を検証し、修正を提案 エージェントのワークフロー Agentic AI Systems

Slide 19

Slide 19 text

学習によるGUIエージェントがステップ成功率を大幅に改善 Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction Aguvis: Qwen2-VLを使用したGUIエージェントの学習手法を提案 (1) グラウンディング学習(Grounding Training) 画像内のGUI要素と自然言語指示を結び付ける学習 • 1つのGUI画像から複数の指示・行動ペアを学習し、学習効率を向上 • この段階を経たモデルは「AGUVIS-G」と呼ばれる (2) 計画と推論の学習(Planning & Reasoning Training) • 複雑なタスクを計画的に実行するため、観察、思考、アクションを逐次的に推論する学習 • 完全学習後のモデルは「AGUVIS」と呼ばれる 競争力のあるGPT4V+OmniParserのステップ成功率を20%も上回ったことは大きい Multimodal Mind2Web Digital Agents

Slide 20

Slide 20 text

Web上のチュートリアルを学習データにするとWebナビゲーションの精度は向上するのか AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials GUIエージェントの訓練に必要な高品質なデータ不足を解決するため、データ合成パイプラインAgentTrekを提案 1. Web上のチュートリアルの収集と加工(様々なチュートリアルは人間が操作手順を理解する文章のため) 2. チュートリアルをBrowserGym 環境で再現シミュレーションを行い、成功したタスクのみを採用 3. 成功した再現チュートリアル軌跡データでモデルQwen2-VLを微調整 前スライドと比較すると劣るが、GPT4と比較して優っている Mind2Webの結果 合成データパイプライン Digital Agents

Slide 21

Slide 21 text

Webエージェントのベンチマーク評価の統一プラットフォームを提案 The BrowserGym Ecosystem for Web Agent Research 既存のWebナビゲーションのベンチマークの仕組みや評価方法の不統一が、比較や再現性を困難にしていた ServiceNowからWebエージェントの評価とベンチマークの標準化、統一インターフェースを提供するBrowserGymを提案 BrowserGym 上でベンチマークを評価すると、Claude-3.5-Sonnetが多くのベンチマークで最高の性能を発揮 Digital Agents

Slide 22

Slide 22 text

複数のWeb操作を関数に変えてタスク汎用性を高める! PAFFA: Premeditated Actions For Fast Agents 昨今のエージェントはAPIを使うが、複雑なWebインターフェースでは課題がある • 効率性: LLMによるHTML解析が繰り返されるため、計算コストが高い • 信頼性: Web構造が動的に変化することで解析が不安定になる • スケーラビリティ: 汎用性のあるソリューションが不足しており、特定のタスクやウェブサイトに依存しがち 提案手法のPAFFAはタスク依存を脱却し、様々なウェブサイトのタスクにも適応可能な設計になっている • Action API Library: 事前に計算された再利用可能なブラウザ操作関数を集約したライブラリを構築 • 「商品検索関数」「カート操作関数」「支払い処理関数」などを事前に作成 • Dist-Map: タスクに依存しないHTML構造の要素抽出プロセスで、異なるタスク間で共有可能な操作を抽出 • チェックインボタン、フライト番号入力欄、乗客情報入力欄などを識別し、各要素に対応するDOMセレクタを抽出して保存 • Unravel: ページ単位で動的な内容を処理し、タスクを小さなサブタスクに分解して効率的に処理 • 「宿泊日選択」「部屋タイプ選択」「個人情報入力」「支払い情報入力」の4つのステップに分割 Digital Agents

Slide 23

Slide 23 text

汎用的なバーチャルエージェントの実現に向けたサーベイ論文 Generalist Virtual Agents: A Survey on Autonomous Agents Across Digital Platforms 様々なデジタルプラットフォームで駆動する汎用型バーチャルエージェント(GVA)のサーベイ論文 初期のインテリジェントアシスタントから、大規模モデルを活用した現代の実装までの歴史を解説 • 第一次は特定のタスクに特化したシンボリック推論や、チェスや囲碁のようなゲーム分野に焦点を当てていた • 次にAppleのSiriやMicrosoftのCortanaといったインテリジェントバーチャルアシスタントが登場 • 音声入力に基づいてAPIを操作する仕組み、あらかじめ定義されたタスクの範囲を超えることはできませんでした • LLM時代にGoogleの汎用エージェントやIBMのバーチャルエージェントなどが登場 • 多様なデータを利用した計画立案やツール使用が可能、特定のAPIや事前定義された動作に依存する Digital Agents

Slide 24

Slide 24 text

新たなBIツール?エージェントとノートブック形式でビジネスデータの分析ができる DataLab: A Unified Platform for LLM-Powered Business Intelligence TencentのDataLabは、BIタスク全体を1つのノートブック環境で実行できる ユーザーは自然言語でクエリを入力することで、データ処理、分析、可視化な どのタスクを自動的に実行できる 特徴 • ノートブック内のセルの依存関係を有向グラフで管理し、最低限の文脈のみLLMに渡す • 企業特有のデータセットや業界固有の用語をナレッジグラフで管理 • エージェントは必要な情報のみを取得でき、情報の過剰共有を防ぐ Data Agents

Slide 25

Slide 25 text

データクリーニングをエージェントが自動化 AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark 自動データクリーニングワークフローを生成するAutoDCWorkflowを提案 インプット: 生データテーブルと目的 エージェントの処理内容 • ターゲットカラムの選択 • カラム品質の評価(正確性、完全性、関連性、簡潔性) • データ操作と引数の生成し、編集後に品質評価に戻る アウトプット: 高品質なデータテーブル、処理ワークフロー 生成されるワークフローの例 ステップ1: trim 操作を適用して前後の空白を削除(例: " Cafe " → "Cafe") ステップ2: regexr_transform を使用して、施設名の不要な記号を削除(例: "Cafe;" → "Cafe") ステップ3: mass_edit 操作を適用し、類似名を統一(例: "Café" と "Cafe" → "Cafe")。 Data Agents

Slide 26

Slide 26 text

Text-to-SQLはエージェントがビューを作って複雑なクエリを簡略化 Towards Agentic Schema Refinement DBの複雑なスキーマからビューの集合を作成しながらクエリを簡略化していくエージェントを提案 • アナリスト(Analyst):SQLクエリを作成し、データベースビューを生成 • 批評家(Critic):ビューの効率性や再利用性を評価し、改良案を提案 • 検証者(Verifier):ビューの正確性を検証し、DBエンジンで実行可能かを確認 処理の流れ 1. 問い合わせ解釈: ユーザーの質問を直接クエリに変換 2. ビューの生成: クエリを簡略化するための再利用可能なビューを動的に作成 3. 段階的な改善: 各エージェントが協力して、クエリの効率性と可読性を向上 4. スキーマ洗練の再利用: 一度作成したビューは次回以降の問い合わせでも再利用可能 Data Agents

Slide 27

Slide 27 text

薬物発見プロセスを自動化するためのフレームワークDrugAgent を提案 DrugAgent: Automating AI-aided Drug Discovery Programming through LLM Multi-Agent Collaboration 薬物発見プロセスの中でも機械学習が貢献しやすい部分の薬物の早期評価や設計プロセスの効率化を目指す 既存の課題 • LLMは専門的なドメイン知識を必要とする薬物発見タスクを正確に実行できないことが多い • LLMが提案するアイデアが実現可能性に欠けている場合がある 提案手法のマルチエージェントアーキテクチャの要点 ドメイン知識 • LLM Instructorがアイデアを分解し、各ステップで必要な専門知識を特定する • 必要なツール(APIやライブラリ)を構築し、それらを再利用可能なツールボックスに追加 アイデアの生成と管理 • LLM Plannerがタスクに対して複数のアイデアを生成する • 実験結果に基づいて不適切なアイデアを削除し、有効なアイデアを最適化する プログラミングとデバッグ • タスクの実行を完全に自動化 • データセットの取得、特徴量生成、モデル学習、結果評価 Research Agents

Slide 28

Slide 28 text

ナビゲーションにおいて数秒先の映像を生成できるのか Navigation World Models Metaらから将来の視覚的状態を予測するNavigation World Model (NWM)を提案 身体性エージェントの基本スキルであるナビゲーションに焦点を当てている NWMは、過去の観察とナビゲーション行動に基づき、ビデオ生成モデルを用いて未来の状態を生成する • 学習環境では4秒程度なら高精度な予測が可能で、視覚的にも正確な軌跡を生成できる • 8秒〜16秒と時間が伸びるにつれて予測精度が低下する • 未知の環境では、モデルが文脈を徐々に失い、訓練データに似た状態を生成し続ける「モード崩壊」が起きる • 歩行者や動的な物体の動きなど、複雑な時間的動態を正確にシミュレーションするのが難しい Embodied Agents

Slide 29

Slide 29 text

汎用的な身体性エージェントを実現する方法を提案 From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons AppleらからMLLMを基盤に、物体操作、ナビゲーション、ゲームプレイ、UI制御に対応できるGeneralist Embodied Agent (GEA)を提案 • 単一の汎用モデルで複数タスクをカバーする困難さがあった • MLLMをSFTで基本的なタスク遂行能力を持たせ、RLにより自己修正能力と環境適応力を付与してGEAを構築 • 連続および離散的な行動空間を扱えるようにトークン表現を統一化した Embodied Agents

Slide 30

Slide 30 text

動画生成の構成の質を高めるマルチエージェントフレームワークを提案 GENMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration 既存手法は複数のオブジェクト、時間的動態、空間的相互作用のある動画生成が困難 Microsoft ResearchらがText-to-Video生成を実現するマルチエージェントフレームワークを提案 • デザイン (DESIGN):テキストプロンプトをフレームごとのオブジェクトレイアウトに変換 • 生成 (GENERATION):オブジェクトレイアウトを利用して初期ビデオを生成 • 再設計 (REDESIGN):生成結果を検証し、テキストやレイアウトを修正(最も力を入れている) 「泡立ったビールを持つフワフワの熊,…」というお題に既存手法は熊の姿勢やビールの詳細が正確に表現されない Multi Agent Systems

Slide 31

Slide 31 text

エージェントの社会的知能をゲーム理論の枠組みで評価する! A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios LLMエージェントのゲーム理論のシナリオにおける社会的知能の性能評価と発展を網羅的に調査 • 社会的知能は、他者の感情や意図を読み取り、文化、信念、価値観を理解し、他者と効果的に相互作用する能力 • サーベイは、ゲームフレームワーク、社会的エージェント、評価プロトコルの3つに分類 • プロンプトエンジニアリングによる結果の不安定さが課題であり、一貫性のある評価手法が必要 • 信念の更新は不安定で、外部からの影響を受けやすい • 今後、エージェント間の相互作用から行動パターンを発見する方法が有望かもしれない 選択するゲーム 会話するゲーム 信念 嗜好 推論 Multi Agent Systems

Slide 32

Slide 32 text

LLMによる社会シミュレーションは個人、シナリオ、社会ベースと複雑化している From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents 個人シミュレーション • 特定の個人またはデモグラフィックグループの行動を模倣する • プロファイル、記憶、計画、行動モジュールで構成されるアーキテクチャに基づく方法 シナリオシミュレーション • 特定のタスクや目標を達成するために複数のエージェントを協力させる • ソフトウェア開発や質問応答、レビュータスクなど、具体的な文脈での協調作業を重視 社会シミュレーション • エージェント社会内の複雑な行動やパターンをモデル化し、現実世界の社会ダイナミクスを再現する • 社会学テストや政策決定支援に役立つ シナリオシミュレーション 社会シミュレーション Multi Agent Systems

Slide 33

Slide 33 text

1万体のエージェントで人間社会をシミュレーション LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation 大規模かつマルチモーダルなエージェント社会をシミュレートするシステムLMAgentを提案 エージェントの設定:ペルソナとメモリ、計画、内省、視覚情報を解釈した行動 実験 • エージェント社会が現実の購買パターンをどの程度模倣できるか→ JD.comユーザーの購買データと高い相関を示した • エージェントの行動パターンがどの程度人間の行動に近いか → 平均で人間の約93%の精度に達した Multi Agent Systems

Slide 34

Slide 34 text

必要な情報が手に入るまで検索して回答するRAGの繰り返し検索は意味があるの? Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models Auto-RAGは、LLMの推論と意思決定能力を活用した自律的な反復検索モデル • ユーザーの質問に基づいて複数回の対話を通じて情報を取得し、必要な外部知識が十分に得られるまで検索を続ける • Auto-RAGは検索計画を立て、クエリを精緻化し、取得した知識を分析する一連の推論プロセスを実行する 戦略立案 検索クエリの作成 検索 関連する事実の特定 検索の必要性を判定 戦略立案 検索クエリの作成 繰り返し 回答 検索の繰り返し回数と検索ドキュメント数に対する質問の回答 割合を示しています。 • 検索ドキュメント数が2件以上あれば結果に差はない • 検索回数を重ねるごとに回答割合が高まる • 2回検索すれば9割近くは回答できている Agentic RAG

Slide 35

Slide 35 text

データソース単位でエージェントを設計する考え方 A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data 単一エージェント型システムでは、多様なデータソース(リレーショナルデータベース、ドキュメントストア、 グラフデータベースなど)を扱う際に効率性や正確性が低下する データソース単位でエージェントを設計するマルチエージェントを提案 エージェントと呼ぶよりクエリ生成のツールで良いのではないかと思う。 Agentic RAG

Slide 36

Slide 36 text

12月16日 更新 • 論文 • プロダクト・ニュース

Slide 37

Slide 37 text

12月16日 更新 リリース • RTX AI PC が生成 AI で複雑な問題を自律的に解決する AI エージェントを実現 • Pydantic AI • 「Copilot Vision」プレビュー版公開。AIとの二人三脚が実現しそう • OpenAI o1 System Card • Introducing Gemini 2.0: our new AI model for the agentic era • The next chapter of the Gemini era for developers • Google が Project Mariner を発表: ユーザーに代わってWebを使用する AI エージェント • Introducing Google Agentspace: Bringing AI agents and AI-powered search to enterprises • グーグル、AIエージェント搭載「メガネ型デバイス」発表 Gemini 2.0採用 • Devin is generally available today! リポジトリ • awesome-llm-apps

Slide 38

Slide 38 text

12月16日 更新 ブログ • Best 5 Frameworks To Build Multi-Agent AI Applications • Magentic-One, AutoGen, LangGraph, CrewAI, or OpenAI Swarm: Which Multi-AI Agent Framework is Best? • GenAIOps: Operationalize Generative AI - A Practical Guide • From SaaS to Vertical AI Agents • How to Build a General-Purpose LLM Agent • エージェンティックAI:ビジネスにおける6つの有望なユースケース • How to use AI for Prototyping as a PM • What is AI Engineering? • Outcome-based pricing for AI agents

Slide 39

Slide 39 text

RTX AI PC が生成 AI で複雑な問題を自律的に解決する AI エージェントを実現 AnythingLLM:各自のローカル PC 上で様々なアプリに統合できるようにする、カスタマイズ可能なオープン ソースのデスクトップ アプリ • ドキュメント作業、タスク管理、電子メール返信など、個別のニーズに対応可能 • NVIDIA RTX GPUにより高速かつプライバシーを保護した環境でAIを利用可能 • コミュニティハブではAIスキルやスラッシュコマンドの共有・利用が可能 エージェント型AIの特徴 1. ユーザー入力を処理し、情報を収集 2. 推論を通じてタスクを理解し、解決策を生成 3. 外部ツールやソフトウェアを統合して実行 4. フィードバックループで性能向上 実例と応用 • Microsoft Outlookのメールアシスタント、カレンダー管理、ウェブ検索、カスタムAPIの統合など • 個人データをローカルで安全に処理しながら、さまざまなワークフローを効率化 https://blogs.nvidia.co.jp/blog/ai-decoded-agents-anythingllm-rtx-ai/

Slide 40

Slide 40 text

Pydantic AI エージェント Pydantic AIは生成AIを使用して本番環境レベルのアプリケーションを簡単に構築できるように設計された Python エージェント フレームワーク LangChain, LlamaIndexなどのエージェントクラスと同じようなもの • ツールとシステムプロンプトを与えてエージェントが定義できる • Agentクラスを見るとループで終了フラグが立つまで行動する仕組みになっている • 自己修正に関してはデフォルトの再試行回数は1だが、エージェント全体、特定のツール、または結果検証ごとに変更できる • 単一のエージェントだけでなくマルチエージェントも実現できる • 入出力を型定義できる 数ヶ月後の評判次第で使ってみようかな https://github.com/pydantic/pydantic-ai https://ai.pydantic.dev/agents

Slide 41

Slide 41 text

Copilot Vision プレビュー版公開 Microsoftからプレビュー版提供で、Copilotは閲覧中のページを読み取って、解決策を模索してくれる エージェントと一緒に画面を見ながら会話できるのがポイント 情報収集 ウェブページをもとに、質問に応じた情報を提示する。 博物館の計画や買い物のサポート、ゲームのルール説明など 買い物支援 ニーズや好みに合う商品を提案し、商品の手入れ方法などもアドバイス ゲームサポート ユーザーの理解度に合わせ、適度なヒントを提供しつつ楽しさを損なわないサポートを実現 https://www.gizmodo.jp/2024/12/copilot-vision-preview-version.html

Slide 42

Slide 42 text

OpenAI o1 System Card OpenAIのo1モデルシリーズは、強化学習を用いてCoTを活用し、複雑な推論を行う能力を持っている システムカードにはo1およびo1-miniモデルの安全性評価や外部テスト結果をまとめている METR機関は、最新のAIシステムが複雑なタスクを完遂する能力を評価する組織 • o1モデルの性能は人間が2時間かけて解決できるタスクと同程度の成功率を達成した • 失敗の原因は成功に必要なツールやフォーマットを適切に使用できなかったケースが約70%を占めている • モデルは初期戦略が失敗した場合、異なるアプローチに切り替える能力が限られている https://openai.com/index/openai-o1-system-card/

Slide 43

Slide 43 text

Introducing Gemini 2.0: our new AI model for the agentic era Gemini 1.0: 初のマルチモーダルAIモデルとしてテキスト、音声、画像、コードの理解力が向上した Gemini 2.0: 次世代のエージェンティックモデルで、マルチモーダルインアウトができ、計画・行動の能力を強化 Gemini 2.0の主な特徴 • マルチモーダル対応 • 入力: テキスト、画像、音声、動画、コード 出力: 画像生成、 TTSの多言語対応 • 高性能モデル • Gemini 2.0 Flash: 1.5 Flashの2倍の速度と性能向上、ツール利用(Google Search、コード実行、外部関数呼び出し)も可能 • 新機能 1. Deep Research: 複雑なトピックを調査し、レポート作成を支援 2. AI Overviewsの強化: 高度な数式、マルチモーダルクエリ、コーディングなど、より複雑なトピックや複数ステップの質問に対応 プロジェクト 1. Project Astra • AIアシスタントとしての対話、記憶、ツール活用能力を強化し、Androidとプロトタイプのスマートグラスでテスト中 2. Project Mariner • ブラウザ内の情報を理解し、タスクを実行可能。ユーザー操作を優先し、安全性に配慮した設計 3. Jules • GitHubに統合された開発者向けAIコードエージェント 来年初めには、Gemini 2.0 をさらに多くの Google 製品に拡張する予定 https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

Slide 44

Slide 44 text

The next chapter of the Gemini era for developers 開発者向けのブログ Multimodal Live APIによってリアルタイムのマルチモーダルアプリを構築できる • 音声指示から画面のハイライト部分を読み上げてもらったり、単語の意味を説明させることができる Gemini 2.0 を使用する実験的な AI 搭載コード エージェントである Jules • Gemini2.0 FlashがSWE-bench Verified で 51.8% を達成 • Jules は問題に対処するための包括的な複数ステップの計画を作成 • 複数のファイルを効率的に変更し、修正を直接 GitHub に戻すためのプルリクを作成 • 2025 年初頭には他の関心のある開発者にも提供される予定 Colabのデータサイエンスエージェントがノートブックを作成 • labs.google/codeで誰でもデータセットをアップロードして数分以内に分析情報を取得できる https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/

Slide 45

Slide 45 text

Google が Project Mariner を発表: ユーザーに代わってWebを使用する AI エージェント Geminiを搭載し、Chromeブラウザを制御し、カーソル移動やクリック、フォーム入力などを実行する 現在、少数のテスターに提供されている段階 操作速度 動作が遅い • カーソルの移動やクリックごとに約5秒の遅延 • この遅さが実用性を制限する要因となっている 機能の制約 クレジットカード番号や請求情報の入力が不可 • セキュリティ上の理由で、ユーザーの重要な個人情報は扱わない仕様 利用規約への同意やクッキーの受け入れが不可 • これも意図的に制限されており、ユーザーの許可が必要 利用環境の制限 アクティブタブのみ対応 • エージェントはChromeブラウザの最前面のアクティブタブでのみ動作可能 • 他の作業を並行して行うことはできない プライバシーとセキュリティ • スクリーンショットをクラウドに送信する必要があり、これに同意しなければ使用できない • ユーザーのプライバシー保護を考慮し、すべての動作は透明性を持つように設計されている ユーザー依存性 • Geminiが行う動作はすべて目視で確認可能 • Googleはこれを意図的な設計とし、AIがユーザーのコントロール外で操作することを防いでいる https://techcrunch.com/2024/12/11/google-unveils-project-mariner-ai-agents-to-use-the-web-for-you/

Slide 46

Slide 46 text

Introducing Google Agentspace: Bringing AI agents and AI-powered search to enterprises Google Agentspace: AIを活用したエンタープライズ向けソリューション NotebookLMを活用した企業データの新しい利用法 • NotebookLM Plusを企業向けに拡張し、データの統合やインサイト発見を支援 • 音声要約機能や高度なRAGが可能 • 例: 財務データを分析し、オーディオで要約を生成する 企業全体の情報発見 • Googleの検索技術を活用した企業専用のマルチモーダル検索エージェント • 文書やメール、構造化データにまたがる検索と翻訳機能を備える • ConfluenceやSharePointなどのサードパーティアプリとも連携可能 • 例: JIRAチケットの検索と上司への要約メール送信 業務自動化エージェント • 業務領域ごとにカスタムAIエージェントを作成可能 • マーケティング、財務、エンジニアリングなどで調査やタスク自動化を支援する • ローコードツールを使って独自のエージェントを作成可能 • 例: 経費報告の管理やバグ修正の支援 https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace?hl=en

Slide 47

Slide 47 text

グーグル、AIエージェント搭載「メガネ型デバイス」発表 Gemini 2.0採用 Gemini 2.0を搭載したメガネ型デバイスの試作品を公開 • 音声で操作し、リアルタイムで周囲の情報を提供 • グーグル検索やマップ、画像認識機能あり • AIエージェント機能でタスクを代行(例: eコマース、店の予約) • 試作品は少数のテスター向けに提供予定 公開されたデモ メガネを使い、自転車でロンドン市内を探索しながら • 公園名や自転車道沿いの施設情報の確認 • バスのルートや道路沿いの彫刻に関する情報の提供 • メールから暗証番号を抽出して案内 https://forbesjapan.com/articles/detail/75798

Slide 48

Slide 48 text

Devin is generally available today! AIスタートアップのCognitionが、自律型のAIソフトウェアエンジニア「Devin」の正式サービスを開始 価格は月額500ドルからで、利用回数の制限はなく、Slack経由でのアクセスとVisual Studio CodeなどのIDEから の利用、APIへのアクセス、そしてCognitionによるサポートなどが利用できる 開発からドキュメントのメンテナンスまで、開発チームを支援できるとする 次のようなタスクを与えた場合に最も適切に処理できる • すでにやり方が分かっているタスクをDevinに与える • テストのやり方や確認の方法をDevinに指示して実行してもらう • 大きなタスクは3時間以内に終わる程度のタスクに分解する • 事前に詳細な要件をDevinと共有する • Devinにチャットでフィードバックする Azure Marketplaceからの導入も可能 https://publickey1.jp/blog/24/aidevin500.html https://devin.ai/

Slide 49

Slide 49 text

Awesome LLM Apps RAG および AI エージェントを使用し て構築された優れた LLM アプリの厳選 コレクションのリポジトリ 参考になるものがあればコードを見て もいいかも! https://github.com/Shubhamsaboo/awesome-llm-apps/tree/main

Slide 50

Slide 50 text

Best 5 Frameworks To Build Multi-Agent AI Applications 1. Phidata • Pythonベースのフレームワークで、LLMをAI製品用のエージェントに変換する • 特徴: 組み込みUI、AWS統合、複数エージェントの構築、テンプレート、クラウドデプロイ • 利用例: Yahoo Financeのデータを要約するエージェントの構築 2. OpenAI Swarm • 軽量なオープンソースのエージェントフレームワーク(実験段階) • 特徴: 会話の引き継ぎ機能、スケーラビリティ、プライバシー保護 • 利用例: エージェント間のタスク引き継ぎシステム 3. CrewAI • 多機能かつ大規模なエージェントフレームワーク。大企業が利用 • 特徴: 700以上のアプリ統合、ノーコード環境、エージェント監視、テストツール • 利用例: チームでのマルチエージェント自動化 4. Autogen • エージェントコラボレーションとLLMワークフロー向けのオープンソースフレームワーク • 特徴: クロス言語対応、ローカル実行、非同期メッセージング、拡張性 • 利用例: 天気情報を取得するエージェントシステムの構築 5. LangGraph • LangChainエコシステム内のグラフベースのエージェントフレームワーク。 • 特徴: ノードとエッジでワークフローを構築、トークンストリーミング、状態の永続化、スケール展開 • 利用例: 線形・階層型ワークフローの作成 https://medium.com/@amosgyamfi/best-5-frameworks-to-build-multi-agent-ai-applications-1f88530ef8d8

Slide 51

Slide 51 text

Magentic-One, AutoGen, LangGraph, CrewAI, or OpenAI Swarm: Which Multi-AI Agent Framework is Best? AutoGen (Microsoft) • ソフトウェア開発向け、コード生成と実行に特化。ユーザーとアシスタントエージェントの双方向モデル • セットアップが複雑で非プログラマーには不向き。他のタスクでは性能が限定的 CrewAI • 直感的で簡単にエージェントを作成可能。初心者向けで迅速なデモ作成に最適 • カスタマイズ性が低く、複雑なプログラミングタスクには不適 LangGraph • 高い柔軟性とカスタマイズ性を持つ。LangChainをベースにし、オープンソースLLMやAPIとの互換性が高い。 • ドキュメントが不十分で、初心者には難しい。プログラミングスキルが必要 OpenAI Swarm • 簡単なエージェント作成とコンテキスト切り替え(ハンドオフ)に特化し、初心者向け。 • OpenAI APIのみ対応、実運用には不向き。コミュニティサポートが不足。 Magentic-One (Microsoft) • 非プログラマー向けで簡単に使用可能。AutoGenをベースにした汎用フレームワークで、5つのデフォルトエージェントが付属。 • オープンソースLLMとの互換性が難しく、柔軟性に欠ける。ドキュメントとコミュニティサポートが未整備。 https://medium.com/data-science-in-your-pocket/magentic-one-autogen-langgraph-crewai-or-openai-swarm-which-multi-ai-agent-framework-is-best-6629d8bd9509

Slide 52

Slide 52 text

GenAIOps: Operationalize Generative AI - A Practical Guide Generative AIと新たなOps 生成AIの急速な進化により、新たな運用パラダイムが登場 • PromptOps: プロンプトの管理と最適化、AgentOps: 自律エージェントの運用、RAGOps: RAGの運用 生成AIを活用するプロセス 1. モデル選定: 必要に応じた適切な生成モデルの選択。モデルの精度、コスト、レイテンシなどを評価。 2. プロンプトエンジニアリング: 効果的なプロンプトを設計し、カタログ化。テンプレートと評価データセットを活用して 自動評価を行う 3. 評価指標の設定: タスクに応じた適切な評価基準を選択(例:ROUGEやBLEU) 4. モデルのテストとデプロイ: 評価結果に基づき、業務要件(コスト、速度)に合致するモデルを選択 https://medium.com/@sokratis.kartakis/genaiops-operationalize-generative-ai-a-practical-guide-d5bedaa59d78

Slide 53

Slide 53 text

From SaaS to Vertical AI Agents スタートアップ業界における垂直型AIエージェントの台頭について議論記事 垂直型AIエージェントとは • エージェントはタスク管理を支援するSaaSの進化版という位置付け • SaaSがデスクトップソフトをクラウド化して業界を変えたのに対し、垂直型AIエージェントは特定のドメインでの人間 の仕事そのものを置き換えるソリューション • SaaSは業務を効率化するツールでしたが、垂直型AIエージェントは業務そのものを削除する スタートアップ戦略 1. SaaSと同様、巨大企業と競争しない(GoogleやAppleに任せる) 2. B2Bニッチな市場で特化型ソリューションを開発 3. 退屈で反復的なタスクを見つけて、それを自動化する 例:特定の官公庁契約の自動入札や、歯科医療請求の自動化 汎用 AI アシスタントを夢見ているなら、やめてください。Apple、Google、OpenAI はすでにその王座を争っています。 https://medium.com/the-ambition-hub/from-saas-to-vertical-ai-agents-dfec2b646570

Slide 54

Slide 54 text

How to Build a General-Purpose LLM Agent 汎用的なLLMエージェントを構築することは、ユースケースを迅速にプロトタイプ化できる LLMエージェント構築の7ステップ 1. 適切なLLMの選定 • 推奨モデル: GPT-4.0、Claude 3.5やLlama3.2 2. エージェントの制御ロジック(通信構造)の定義 • エージェント行動パターン: ツール使用、リフレクション、ReAct、Plan-then-Execute 3. プロンプトの明確化 • エージェントの役割、トーン、エラー処理、ツール使用条件を明記 4. ツールの定義と最適化 • 必須ツール: コード実行、ウェブ検索、ファイル操作、データ分析 • ツールの要素: 名前、説明、入力スキーマ(必要パラメータなど)、実行方法 5. メモリ管理戦略の決定 • メモリの種類: 最新の会話kターン、最新nトークン、LLMによる会話要約 6. エージェントの生の出力の解析 • 出力データをJSONなどの構造化フォーマットに変換 7. エージェントの次のステップをオーケストレーション • ツール実行またはユーザーへの回答を決定 マルチエージェントの必要性 • 単一エージェントはトークンやコンテキストの制限で性能に限界がある • 複数のエージェントを活用することで、タスクを分割し効率を向上可能 • 推奨: 汎用単一エージェントをプロトタイプとして構築し、徐々に複雑なシステムへ拡張 https://towardsdatascience.com/build-a-general-purpose-ai-agent-c40be49e7400

Slide 55

Slide 55 text

Agentic AI:ビジネスにおける6つの有望なユースケース 1. ソフトウェア開発 • コーディングアシスタントがコード作成やエラーチェックを担い、開発プロセスを大幅に効率化 • DevOpsツールチェーンと連携し、仕様のリバースエンジニアリングやテストケースの自動生成を実現 2. ステロイドを投与したRPA(ロボットによるプロセス自動化) • 単純なタスクだけでなく、複雑な意思決定を含むプロセスも自律的に対応 • 適応性のある自律プロセスが業務効率を向上 3. カスタマーサポートの自動化 1. 従来のチャットボットを超え、文脈を理解し複雑なリクエストにも対応 2. 例外処理や非決定論的タスクも実行可能 4. 企業ワークフローの効率化 1. 会議メモのプロジェクトチケット化や、需要予測に基づくサプライチェーン管理の自動化 2. 情報サイロを解消し、組織全体でのデータ活用を促進 5. サイバーセキュリティと脅威検出 1. AIエージェントが脅威をリアルタイムで検出し、迅速に対応 2. 個別のセキュリティプロトコルの適用やコスト削減を実現 6. ビジネスインテリジェンス(BI) 1. BIエージェントが音声入力やあいまいな質問を解釈し、有益な洞察を提供 2. マーケティングチームや他部門のデータ分析を支援 https://www.cio.com/article/3619835/

Slide 56

Slide 56 text

How to use AI for Prototyping as a PM PMがAIを使ったプロトタイピングを行うべき理由 • AIの進化でソフトウェア開発の敷居が低下: AIは迅速なプロトタイピングを可能にし、これまで数週間かかって いた工程が数時間、場合によっては数分に短縮される • 役割からスキルへのシフト: 企業はタイトルよりもスキルを重視するようになり、アイデアを伝えたりプロトタ イプを作成したりするスキルが重要に ツール選択のポイント • プロジェクトタイプ • フロントエンド → Vercel v0 • バックエンド → Replit Agent • フルスタック → 複数ツールの組み合わせ • チームの経験 • 開発者中心 → Cursor、Windsurf • デザイナーとの連携 → Vercel v0 https://amankhan1.substack.com/p/how-to-use-ai-for-prototyping-as

Slide 57

Slide 57 text

What is AI Engineering? AIエンジニアとは何か • AIエンジニアは、LLMを活用してAIシステムを構築し、ビジネス課題を解決する役割 • この職種は、MLエンジニアやソフトウェアエンジニアと関連している • 特有のスキルセットを持つ新たな職種として注目されている AIエンジニアに必要なスキル 1. リサーチ: 最新の研究論文を理解し、自身のプロジェクトに適用する能力 2. プロンプトエンジニアリング: 効率的なプロンプト設計と評価 3. ソフトウェア開発: 高品質なコードとシステム構築スキル 4. インフラ管理: データストレージやデプロイに関する知識 5. データエンジニアリング: データ処理とクレンジング能力 6. MLOps: 継続的なシステム改善のための運用スキル https://www.newsletter.swirlai.com/p/what-is-ai-engineering

Slide 58

Slide 58 text

Outcome-based pricing for AI agents アウトカムベース価格モデルの登場 • 料金変動型だが、実際のビジネス成果(解決されたサポートケース、アップセル、契約維持など)に紐づいて課金される。 • 結果が出なかった場合、多くの場合費用は発生しないというもの AIエージェントに適用 • Sierra社はアウトカムの価格モデルを採用し、AIエージェントが顧客対応を行い、成果を生み出すことで収益を得る。 • 継続的な最適化を行い、費用削減や収益向上を目指す。成功の基準や料金は透明で、明確な基準に基づいて設計 アウトカムベースの価格モデルは、ソフトウェアが「棚に眠る」ことを防ぎ、ビジネス成功の価値にのみ支払いを求める革新的な 仕組み。Sierraは、このアプローチを通じて、顧客のコスト削減と成長を支援する。 https://sierra.ai/blog/outcome-based-pricing-for-ai-agents

Slide 59

Slide 59 text

No content