Weekly AI Agents News! - Speaker Deck

Weekly AI Agents News!

by masatoto

Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190

Slide 2

Slide 2 text

はじめに • LLMエージェントに関するニュースや論⽂をほぼ毎週更新しています。 • 論⽂、プロダクトの順番でまとめています。 • 個⼈の備忘録で取り組んでおり、誤りがある場合もあります。 • ⽂字サイズ16ptで⼩さいのでPCで⾒ることをおすすめします。 • SpeakerDeckに過去の4⽉分、5⽉分の資料を分けて公開しています。

Slide 3

Slide 3 text

6⽉10⽇更新 • 論⽂ • プロダクト・ニュース

Slide 4

Slide 4 text

論⽂ 6/1~6/7まで Agent Capabilities 計画：Graph-enhanced Large Language Models in Asynchronous Plan Reasoning 動画理解：Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis ⻑いコンテキスト理解：Chain of Agents: Large Language Models Collaborating on Long-Context Tasks メモリ：Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models 評価：A Survey of Useful LLM Evaluation アライメント：Towards Scalable Automated Alignment of LLMs: A Survey ⾃⼰修正：When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs ⾃⼰進化：AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments Agent Framework • Open-Endedness is Essential for Artificial Superhuman Intelligence Multi Agent Systems • Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey

Slide 5

Slide 5 text

Graph-enhanced Large Language Models in Asynchronous Plan Reasoning • ⾮同期計画タスクに向けたグラフベースな推論アルゴリズムPlan Like a Graph（PLaG）の提案 • ⾮同期計画とは、順序付き⾏動および並列可能な⾏動を含む複雑な計画タスク • 時間の合計、時間の⽐較、制約付き推論を正確に⾏う必要がある • PLaGは、プロンプトにグラフを仕込むか、⽣成時にグラフを作るか（Build a Graph）の２種類ある • PLaG(BaG)形式がタスクごとに新しいグラフを明⽰的に仕込む必要がなく最も精度が良い CoTよりも精度が⾼いノードとエッジ数が増えると悪化中央：BaG形式のプロンプト右：明⽰的なグラフプロンプトお料理の⾮同期計画の例 Agent Capabilities

Slide 6

Slide 6 text

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis • マルチモーダル⾔語モデルの動画分析タスクのベンチマーク • 合計900本の動画、713の字幕、869の⾳声ファイル、6ジャンル • 動画の尺：Shortは平均80秒、 Mediumは平均520秒、Longは平均2471秒 • Gemini 1.5 proが最も精度⾼い。字幕があると更に精度向上。⾳声があると精度が下がる。 Agent Capabilities

Slide 7

Slide 7 text

Chain of Agents: Large Language Models Collaborating on Long-Context Tasks • Google Cloud AI Researchから⻑い⽂脈タスクのための新しい⼿法「Chain of Agents」の提案 • 提案⼿法は、⻑⽂をチャンクに区切り、先頭から順番に会話メモリCUに回答に必要な情報を追記していき、⾛査したあと、蓄積された会話メモリと質問から最終回答を⾏う • マルチホップな質問応答、要約、コード⽣成でRAGやFull-Contextベースラインに対してclaudeシリーズは最⼤で10%の性能向上 🟦が会話メモリで情報を付け⾜す後から過去を遡って、情報を付け⾜せない Agent Capabilities

Slide 8

Slide 8 text

Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models • Buffer of Thoughts (BoT)：過去の問題解決で得た⾼次の思考テンプレをバッファから取得し活⽤する推論⽅法 • 類似テンプレがない場合、新規タスクとしてデフォルト思考テンプレが利⽤される • 新規タスクの場合、蒸留プロンプトによりテンプレに変換され、過去のテンプレと類似してなければメタバッファに追加⾼次の思考テンプレートの例類似テンプレがなくともバッファにテンプレを追加することで精度が徐々によくなる仕組み Agent Capabilities

Slide 9

Slide 9 text

A Survey of Useful LLM Evaluation • LLMの評価ベンチマークを紹介する論⽂ • LLMの評価を2つのステージ「コア能⼒」と「エージェント」に分けている • エージェントはタスク成功率の評価が多く、ステップごとの詳細な評価が⽋けている • ベンチマークが知りたくなったらリポジトリを⾒ると良さそう Agent Capabilities

Slide 10

Slide 10 text

Towards Scalable Automated Alignment of LLMs: A Survey • LLMのスケーラブルな⾃動アライメントに関するサーベイ • アライメントの代表データ形式である指⽰-応答ペアおよび選好データの構築プロセスは、⾮常に⾼価で注意深い⼈間のアノテーションを必要とし、スケーラビリティの要求を満たせない • ⾃動アライメントの既存⼿法をアライメント信号に基づいて4つのカテゴリに分類 1. 帰納バイアス（Inductive Bias） 2. ⾏動模倣（Behavior Imitation） 3. モデルフィードバック（Model Feedback） 4. 環境フィードバック（Environment Feedback） Agent Capabilities

Slide 11

Slide 11 text

Towards Scalable Automated Alignment of LLMs: A Survey 1. 帰納バイアスを活⽤したアライメント • LLMの帰納バイアスを活⽤ • ⼤規模データで学習したTransformerには内在的な特徴がある 1. 出⼒の不確実性を定量化する能⼒ 2. ⾃⾝の出⼒を評価、批評、改善する能⼒ 3. ⽂脈内学習する能⼒ • これらを活⽤することで追加の監督信号なしにスケーラブルなアライメントが実現できる • 複数のLLMの構成や組織化から⽣じるバイアスを活⽤ 1. 複雑な問題に対処するためのタスク分解（Task Decomposition） 2. LLMが⾃分⾃⾝と対戦することで⾃⼰改善する（Self-play） • モデルが⾃⼰改善を⾏い、より⾼精度なアライメントを達成するために利⽤する • エージェントとしてのアライメントはチャットボットより難しい • ⾏動、環境のダイナミクス、⾃⼰制約を考慮するため Agent Capabilities

Slide 12

Slide 12 text

Towards Scalable Automated Alignment of LLMs: A Survey 2. ⾏動模倣を活⽤したアライメント • 既にアライメントされたモデルの⾏動を模倣することでターゲットモデルをアライメントする • 模倣先と模倣元の関係で２分類される • 強から弱への蒸留（Strong-to-Weak Distillation） • 既に⾼いアライメントが達成されている強⼒なモデルを教師モデルとして使⽤する • レスポンスガイド蒸留：ターゲットモデルが教師モデルの指⽰に対する応答を直接学習する • 選好ガイド蒸留：教師モデルが⽣成した選好データを⽤いてターゲットモデルをアライメントする • 弱から強へのアライメント（Weak-to-Strong Alignment） • AIの能⼒が⼈間を徐々に超えていく中で、強から弱が難しい場合に弱いモデルを教師モデルにする • 簡単なタスクから学んだ⾏動を基に、より難しいタスクでの性能を向上させるなど • まだ研究は理論含め初期段階 Agent Capabilities

Slide 13

Slide 13 text

Towards Scalable Automated Alignment of LLMs: A Survey 3. モデルフィードバックを活⽤したアライメント • 他のモデルからのフィードバックを利⽤してターゲットモデルのアライメントをする • フィードバックの形式は3種類 • スカラー信号 • スカラー信号は、強化学習で利⽤され、LLMの応答を⼊⼒として評価スコアを⽣成する報酬モデルから⽣成する • バイナリ信号 • バイナリ信号は、数学的推論タスクで使⽤され、結果の正誤を判定する • テキスト信号 • テキスト信号は、他のLLMによるフィードバックや⾃⼰批評に利⽤される Agent Capabilities

Slide 14

Slide 14 text

Towards Scalable Automated Alignment of LLMs: A Survey 4. 環境フィードバックを活⽤したアライメント • 既存環境から⾃動的にアライメント信号やフィードバックを取得し、ターゲットモデルのアライメントを⾏う • 社会的相互作⽤ • SNSのユーザーの反応から社会的規範、⼈間からの対話評価などの信号 • ⼈間の集団知能 • 多数決の結果、原則やガイドライン、クラウドソーシングによるタスクの正確性や有⽤性の信号 • ツールの実⾏フィードバック • 外部ツールの実⾏結果、評価、外部ツールがタスクを成功または失敗した際の信号 • 具現化された環境 • 物理的または仮想的な環境内でのエージェントの⾏動とその結果、⾏動に応じた環境の状態遷移に関するデータ Agent Capabilities

Slide 15

Slide 15 text

When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs • ⾃⼰修正（Self-correction）に関してサーベイし、LLMの⾃⼰修正が上⼿くいく条件を調査した論⽂ • 既存研究では、研究課題が明確に定義されておらず、実験デザインが不適切（正解例を使うなど）なことが多い • ⾃⼰修正が⼀般的なタスクで成功する結果はほとんどない • 信頼できる外部フィードバックを使⽤するタスクでは⾃⼰修正が効果的である • ファインチューニングは特定のタスクで⾃⼰修正を可能にする Agent Capabilities

Slide 16

Slide 16 text

AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments • 多様な環境で⾃⼰進化するLLMエージェントを構築するためのフレームワーク「AGENTGYM」を提案 • LLMを⽅策とし、事前データで模倣学習する。その後、様々な環境（マルチタスク）で⽅策に従い軌跡を集め、報酬に基づき⽅策の教師あり学習をおこなう。そしてまた環境で軌跡を集めることを繰り返し⾃⼰進化をする⾏動模倣と⾃⼰進化異なるタスク（⾊の違い）でイテレーションが増えると精度が改善している学習データを初期の軌跡から全て(実線)と直近のみ(破線)かで精度の上がり幅が違う Agent Capabilities

Slide 17

Slide 17 text

Open-Endedness is Essential for Artificial Superhuman Intelligence • ⼈⼯超⼈知能（ASI：Artificial Superhuman Intelligence）の実現にはオープンエンド性（open-endedness）が求められることを主張 • ⼈⼯超⼈知能とは、⼈間の能⼒をはるかに超える知能を持つAIシステムのこと • オープンエンド性とは、システムが観察者に対して常に新規で学習可能な成果物を継続的に⽣成する能⼒ • オープンエンド基盤モデルは、強化学習や⾃⼰改善、タスク⽣成、進化アルゴリズムが必要になるかもしれないオープンエンド性の例様々な⾶⾏機の設計書を考える。観察者によって新規性があるか学習可能かは分かれる。⼈間が新規に感じても学習可能でないと、成果物を理解できず、⼿に追えない存在になる。 Agent Framework

Slide 18

Slide 18 text

Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey • マルチモーダルおよびマルチエージェントシステムと合理性の関係を構築 • 論⽂では合理性は以下の4つの要件を満たすこと • 接地 (Grounding)：エージェントの意思決定が物理的および事実上の現実に基づいている必要がある • 選好の秩序付け (Orderability of Preferences) ：エージェントは選択肢を⽐較し、現在の状態に基づいて最も好ましい選択肢を選ぶ能⼒をもつ • 無関係な⽂脈からの独⽴性 (Independence from Irrelevant Context)：エージェントは無関係な情報を識別し、それを無視する能⼒を持つ • 不変性 (Invariance)：エージェントの選好は、決定問題の同等な表現間で⼀貫している必要がある Multi Agent Systems

Slide 19

Slide 19 text

6⽉10⽇更新 • 論⽂ • プロダクト・ニュース

Slide 20

Slide 20 text

プロダクト・ニュースニュース • AI agents are having a ʻChatGPT momentʼ as investors look for whatʼs next after chatbots • From gen AI 1.5 to 2.0: Moving from RAG to agent systems • The Rise of AI Agent Infrastructure • Betaworks bets on AI agents in latest ʻCampʼ cohort • New AI agent for venture capital: 100x cheaper, 5x faster and on-par quality with humans • Financial Services Will Embrace Generative AI Faster Than You Think • Hi, AI: Our Thesis on AI Voice Agents 開発 • LlamaIndex Agent Resources

Slide 21

Slide 21 text

AI agents are having a ʻChatGPT momentʼ as investors look for whatʼs next after chatbots • チャットボットのブームを引き起こしたChatGPTに続き、次の⼤きな波としてAIエージェントが注⽬されている • Microsoft、Google、Metaなどの⼤⼿企業もAIエージェントの開発に注⼒している。MicrosoftはCognition AI と提携し、GoogleはDeepMindと共にAIアシスタントプロジェクト「Astra」を進めている • AIエージェントは、通常のチャットボットを超えて、複数のステップを含むタスクを⾃動化できるツールとして定義されている。これにより、ユーザーがプロセスをステップバイステップで指⽰する必要がなくなる。 • AIエージェントを開発する企業の評価額は、他の⽣成AIスタートアップ企業と同様に⾼騰している。 • スタートアップ企業もAIエージェントの開発に注⼒しており、⼤規模な資⾦調達を⾏っている。例えば、Adept は10億ドル以上の評価を受け、他のスタートアップも数百万ドルのシード資⾦を集めている。 • OpenAIとGoogleの卒業⽣が率いるAdeptは、「ソフトウェアツールの複雑さをユーザーが気にしなくても済むようになる」ことを⽬指している。 https://www.cnbc.com/2024/06/07/after-chatgpt-and-the-rise-of-chatbots-investors-pour-into-ai-agents.html

Slide 22

Slide 22 text

From gen AI 1.5 to 2.0: Moving from RAG to agent systems • Gen AI 1.0: プロンプトエンジニアリング、Few Shot Learning • Gen AI 1.5: 検索拡張⽣成、埋め込みモデル、ベクトルデータベース • Gen AI 2.0: エージェントシステム • 複数の⽣成AIの機能を創造的に連携させること • Gen AI 2.0の最初のステップは⼀連のアクションを⼿動で開発すること • BrainBox.ai ARIAはビル管理AIシステムで、故障した機器の写真を理解し、ナレッジベースから関連するコンテキストを検索し、IoTデータフィードから関連情報をAPIで取得し、最終的に対処⽅法を提案する • しかし、このシステムの制限は、問題を解決するロジックを開発チームがハードコーディングするか、1-2ステップの深さにとどまる点 • Gen AI 2.0では、問題を解決するロジックを推論するエージェントシステムになる。問題をステップに分解し、ツールの集合から選択して各ステップを実⾏する。データ収集、推論、アクション実⾏の各コンポーネントを分離することで、柔軟なソリューションを実現する。 https://venturebeat.com/ai/from-gen-ai-1-5-to-2-0-moving-from-rag-to-agent-systems/ https://brainboxai.com/en/articles/introducing-aria-revolutionizing-building-management-with-ai

Slide 23

Slide 23 text

The Rise of AI Agent Infrastructure • AIエージェントは複数のタスクを計画し、優先順位を付け、⾃⼰検証する⾃律的なアクターとして、アプリ開発を加速させる • インフラサポート • エージェントを⽀えるインフラには、⾃⼰管理型のクラウドホスト、メモリと状態のデータベース、外部APIと接続するためのコネクタが含まれる。LangChainやLangsmithなどのソフトウェアフレームワークがサポートしている。 • サービスとしてのエージェント • API 経由でエージェントを提供し、アプリケーションを組み⽴てる • ブラウザインフラストラクチャ • Web を読み取り、⾏動することが重要 • Web サイトや SaaS アプリケーションはアクセス、ナビゲート、解析、スクレイピングが複雑 • 他にもメモリ、認証、ホスティングが必要になる https://www.madrona.com/the-rise-of-ai-agent-infrastructure/

Slide 24

Slide 24 text

Betaworks bets on AI agents in latest ʻCampʼ cohort Betaworksの「Camp」プログラムに参加している⽇常のタスクを⾃動化を⽬指す9つのスタートアップ 1. Twin : テキストから⾏動を⽣成するLarge Action Modelを学習させ、⼀般的なタスクを完了させる • 「今⽇受け取った履歴書をすべて Dropbox のフォルダーに⼊れて、応募者の名前に変更し、Slack で共有リンクを送ってください」といったこと 2. Skej：都合のよい会議時間を⾒つける 3. Jsonify：⾮構造化コンテキストからデータを抽出できる Web サイトスクレーパーの進化形 4. Resolved AI：IaC テンプレートを使⽤して、プロビジョニング、構成管理、展開ワークフローを⾃動化 5. Floode：メールを読み取り、重要な内容を⾒つけ、適切な応答とアクションを準備する AI 受信トレイ 6. Opponent：⼦供たちが広範囲に交流したり遊んだりすることを⽬的とした仮想キャラクター 7. High Dimensional Research：Web 対応のエージェントアプリとワークフローを構築するフレームワーク https://techcrunch.com/2024/04/16/betaworks-bets-on-ai-agents-in-latest-camp-cohort/

Slide 25

Slide 25 text

New AI agent for venture capital: 100x cheaper, 5x faster and on-par quality with humans • 世界初のAIネイティブVC企業であるVela Partnersの研究部⾨は、オックスフォード⼤学と共同で、スタートアップ投資のためのAI意思決定フレームワークを概説した研究論⽂を発表 • AI エージェントは、⼈間レベルの推論と品質を維持しながら、熟練した⼈間の VC アナリストよりも 5 倍速く、 100 倍安価にスタートアップを評価 https://www.globenewswire.com/news-release/2024/06/05/2893801/0/en/ New-AI-agent-for-venture-capital-100x-cheaper-5x-faster-and-on-par-quality-with-humans.html

Slide 26

Slide 26 text

Financial Services Will Embrace Generative AI Faster Than You Think ⽣成型AIが⾦融サービスに及ぼす影響を以下の5つの分野に分類パーソナライズされた消費者体験 • LLM は消費者の財務上の意思決定をより良く理解し、トレードオフを評価したり、より適切に導く • 「将来のある時点で⾼齢の両親を経済的に⽀援するのに⼗分な柔軟性のあるプランを作成できますか?」などコスト効率の良い運⽤ • 融資担当者が顧客名を⼊⼒するだけで、 12 種類近くのシステムからデータを取得し、融資ファイルを即座に⽣成 • カスタマーサービスエージェントが銀⾏の商品と関連するコンプライアンス要件について⼊念に学習し答えるコンプライアンスの向上 • LLMが契約書、レポート、メールを分析し、さらに調査が必要な潜在的な問題や懸念事項をフラグ付けリスク管理の改善 • ⽣成AIが信⽤リスク、市場リスク、流動性リスク、運⽤リスクに役⽴つ情報を提供する • LLMがニュース記事、市場レポート、アナリストの調査など、市場および取引相⼿のリスクをより包括的に把握より動的な予測とレポート • LLMが社内プロセスを改善し、財務チームの⽇常業務フローを簡素化するのを⽀援する • 時間のかかる記録管理とレポート作成の⾃動化 https://a16z.com/financial-services-will-embrace-generative-ai-faster-than-you-think/

Slide 27

Slide 27 text

Hi, AI: Our Thesis on AI Voice Agents • 1.0 AI ⾳声 (電話ツリー) から 2.0 AI ⾳声 (LLM ベース) の波に移⾏している • 多くの⾳声エージェント企業は、特定の業界 (例: ⾃動⾞サービス) または特定の種類のタスク (例: 予約スケジュール) に対して、垂直に特化したアプローチを採⽤ • 会話フロー (バックエンドワークフロー) はすぐに複雑/特殊になる可能性がある • 多くの場合、⾳声インターフェースはテキストに⽐べて、情報の抽出が不便で完全にマイナス • プロダクトに声がなぜ必要なのかについての強い視点が必要 https://a16z.com/ai-voice-agents/

Slide 28

Slide 28 text

LlamaIndex Agent Resources • LlamaIndexのエージェントの種類が増えている • 推論は、Sequential, DAG-based, Tree-basedに分けられる • Tree-based なLanguage Agent Tree Searchが気になる RAG in 2024: Advancing to Agents https://llamaindex.notion.site/LlamaIndex-Agent-Resources-cb8585332fdb42e98b30a091412322bb

Slide 29

Slide 29 text

No content

Slide 30

Slide 30 text

6⽉3⽇更新 • 論⽂ • プロダクトやブログ

Slide 31

Slide 31 text

論⽂ ~5/31まで Agent Capabilities 計画 • A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models • Meta-Task Planning for Language Agents ツール利⽤ • Tool Learning with Large Language Models: A Survey ⾃⼰修正 • Devilʼs Advocate: Anticipatory Reflection for LLM Agents • Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification ロングコンテキスト理解 • Are Long-LLMs A Necessity For Long-Context Tasks? 推論 • Faithful Logical Reasoning via Symbolic Chain-of-Thought • Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization • From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step 学習・RE-Adapt: Reverse Engineered Adaptation of Large Language Models

Slide 32

Slide 32 text

論⽂ ~5/31まで Agent Framework • Position: Foundation Agents as the Paradigm Shift for Decision Making • A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor • AGILE: A Novel Framework of LLM Agents • LLMs Meet Multimodal Generation and Editing: A Survey Agentic AI Systems • Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting Multi Agent Systems • LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins • LLM-Based Cooperative Agents using Information Relevance and Plan Validation Embodied Agents • A Survey on Vision-Language-Action Models for Embodied AI Computer Controlled Agents • Large Language Models Can Self-Improve At Web Agent Tasks

Slide 33

Slide 33 text

• 旅⾏計画という多段階の計画問題に焦点を当て、⼈間のような計画フレームワークを開発 • アウトライン⽣成（Outline Generation）: 初期に⼤まかな計画を⽴てることでプロセスをガイドする • 情報収集（Information Collection）: 詳細な計画を作成するために必要なデータを収集する • 計画作成（Plan Making）: 収集した情報に基づいて詳細な計画を作成する A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models いきなり詳細化せず、⼤枠から詳細化するのは良い筋かも Agent Capabilities

Slide 34

Slide 34 text

• マルチエージェントシステムのためのゼロショット計画⼿法Meta-Task Planning (MTP)を提案 • MTPは複雑なタスクを下位タスク（メタタスク）の階層に分解し、各メタタスクを実⾏可能なアクションにマッピングする • TravelPlannerで平均約40%の成功率を達成し、API-Bankでは既存の最先端⼿法を14%上回った Meta-Task Planning for Language Agents Agent Capabilities ⼤枠から実⾏可能なアクションに⼤枠の依存関係もグラフ化

Slide 35

Slide 35 text

• ツール学習のサーベイ論⽂ • ツール学習とは、LLMが外部ツールを使⽤して複雑な問題を解決する能⼒を強化する⽅法 • なぜツール学習が必要なのか • 知識獲得の向上（検索エンジン、DB） • 専⾨知識の強化（計算、プログラミング） • ⾃動化と効率化（タスク管理、プロジェクト管理） • インタラクションの向上（⾳声認識や画像認識、多⾔語翻訳） • 解釈性とユーザー信頼の向上（意思決定プロセスの透明性） • 堅牢性と適応性の向上（ユーザー⼊⼒の変動に対する安定性） • どのようにツール学習をおこなうのか • ツール学習⽅法は、主に以下の4つのステージに分けられる • タスク計画 (Task Planning) • ツール選択 (Tool Selection) • ツール呼び出し (Tool Calling) • 応答⽣成 (Response Generation) Tool Learning with Large Language Models: A Survey Agent Capabilities

Slide 36

Slide 36 text

• DeepMindから複雑なタスクを解決する際の⼀貫性と適応性を向上させる新たな内省⽅法を提案 • 複雑なタスクは実⾏途中で計画変更を強いられるが、その頻度が多いとエージェントの効率性が低下する課題 • ３つの内省メカニズムを提案し、Webタスクで試⾏回数や計画の修正回数を45%削減 • 予期的内省（Anticipatory Reflection）：エージェントの⾏動の前に失敗の可能性を予測し、代替⾏動を考える • ⾏動後の評価とバックトラッキング：⾏動後に結果を評価し、必要に応じて戻って代替⾏動を実⾏する • 計画の改訂（Plan Revision）：計画完了後に包括的なレビューを⾏い、次回の試⾏のための戦略を改善する Devilʼs Advocate: Anticipatory Reflection for LLM Agents ② 初期⾏動が失敗した場合の⾏動を事前に内省する ① 計画の初期⾏動 ③ 初期⾏動の結果を得て失敗なら戻る ④ 代替案を実⾏する Agent Capabilities

Slide 37

Slide 37 text

• Minecraftのクリエイティブなタスクには明確な成功基準がなく、⾃⼰改善のフィードバックが得られず困難 • 外観や3D構造の視覚的検証と機能要件を満たすかの実⽤性の検証から⾃⼰改善をおこなう • CADプログラムを⽣成し、3Dモデルを設計。マルチビュー画像を作成し、VLMで視覚的検証 • 3DモデルをMinecraftのブロック配置情報に変換しMinecraft内で建物を構築。プレイヤーの⾏動をシミュレートし、建物の実⽤性を検証 Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification 実⽤性の検証を除くと渡れない視覚的検証を除くとタワーにならない Agent Capabilities

Slide 38

Slide 38 text

• LC-Boost (Long-Context Bootstrapper) はコンテキスト⻑が短いLLMを使ってロングコンテキスト問題に対応するフレームワーク • ⼊⼒の⻑いコンテキストを⼀度に処理するのではなく、部分的にアクセスし、効率的にタスクを解決する • 前⽅から各チャンクに対して処理をするため、推論が⻑くなる可能性はあるが精度は通常より⾼い Are Long-LLMs A Necessity For Long-Context Tasks? LC-Boostのアルゴリズム LC-Boostのフロー図 Agent Capabilities

Slide 39

Slide 39 text

• LLMは論理的推論能⼒を得る必要があるが、現在は外部の推論システムに依存している • シンボリックCoT（SymbCoT）は、外部の推論システムに依存せず、シンボリック表現と⾃然⾔語表現を組み合わせることで、厳密な論理計算と豊かな⽂脈情報の両⽅を活⽤できる Faithful Logical Reasoning via Symbolic Chain-of-Thought Agent Capabilities

Slide 40

Slide 40 text

• Transformer モデルは、知識に基づく推論をプロンプトで指⽰せずに暗黙的に⾏う能⼒があるのか、そしてその能⼒をどのように獲得するのかを理解するための実験研究 • 実験からgrokking（過学習を超えてさらに⻑時間の訓練によって⼀般化を獲得する現象）を通じてモデルは単なる記憶から脱却し、抽象的な規則を学習し、新しいデータに対する推論能⼒を向上させる • ただし推論も種類により異なり、複数の事実を組み合わせて新しい情報を導き出す組成タスクにおいては⼀般化が難しい⼀⽅、エンティティの属性を⽐較する⽐較タスクにおいては成功する Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization Grokkingスタート OODでも急激に精度向上組成タスクではOODは精度が上がらず⼀般化しなかった Agent Capabilities

Slide 41

Slide 41 text

• CoTによって⽣成される複数ステップをモデルの内部状態に内在させる学習⽅法を提案 • 明⽰的なCoT向けモデルから始め、徐々に中間ステップを削除し、モデルを微調整させる（Stepwise Internalization） • この⼿法により推論プロセスを簡素化しつつ⾼い性能を維持できる（Speed と Accのトレードオフはある） From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step ⽣成範囲 • 掛け算の桁数を増やすと通常のCoTであれば精度は良いが遅い • 提案⼿法のICoT-SIは精度を維持しつつ、⾼速化できている徐々に推論過程をモデルに学習していき、最終的には問題から直接答えを⽣成できるようにする Agent Capabilities

Slide 42

Slide 42 text

• 指⽰チューニングされたモデルを新しいドメインに適応させると、既存の指⽰チューニング能⼒が劣化する可能性がある • 既存の指⽰チューニング能⼒を維持しながら、新しいドメインの適応⼿法を提案 • RE-Adapt (Reverse Engineered Adaptation)は事前学習済モデルと指⽰チューニング済モデルの重み差分を保持し、事前学習済モデルに別ドメインで指⽰チューニングした後、先の重み差分を付け⾜す RE-Adapt: Reverse Engineered Adaptation of Large Language Models Agent Capabilities

Slide 43

Slide 43 text

Position: Foundation Agents as the Paradigm Shift for Decision Making • 基盤エージェントの概念を提唱し、そのロードマップを⽰した論⽂基盤エージェントに期待する特徴 • 状態・⾏動空間、フィードバック信号（例：報酬や⽬標）、環境ダイナミクスを統⼀的に表現する • ロボティクスやゲームプレイから医療に⾄るまで、タスクやドメインを超えた統⼀的な⽅策の仕組みを持つ • ⻑期的な推論が必要なシナリオや部分観測可能な環境での計画能⼒を持つ実現⽅法：以下の図を段階的に達成することが求められる Agent Framework

Slide 44

Slide 44 text

A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor • LLMを活⽤したマルチエージェント製造システムを提案 • システムは製造現場のリアルタイムデータと⽣産タスク情報を受け取り、最適なスケジューリングと⽣産機の選択を出⼒する • リアルタイムに機械割り当ての交渉をおこなえるため、多品種少量⽣産の要求に対応しやすい • Thinking Agent (TA)は、現場の情報から最適な機械を選択する • Decision Agent (DA)はTAの分析結果を基に最終的な意思決定を⾏う各機械に分散させ 458stepの計画になる最も負荷が少ない機械を選択すると678stepになる Agent Framework

Slide 45

Slide 45 text

AGILE: A Novel Framework of LLM Agents • 強化学習を⽤いてエンドツーエンドで最適化するAGILEエージェントの提案 • AGILEエージェントは複雑な質問応答タスクを効果的に学習し、適応できる • 訓練データとしてセッションレベルの軌跡を⽣成し、各セッションの軌跡は、[GetUserQuestion]と [RetrieveMemory]から始まり、各QAタイプに応じた関数を続けて実⾏するメモリ、ツール結果、ユーザーの質問から LLM(⽅策) が⽣成する⾏動トークン⼀覧 Agent Framework

Slide 46

Slide 46 text

• 画像、動画、3D、⾳声を含む複数のモダリティに適⽤されたLLMsの体系的なレビュー • Tool-augmented multimodal agentsは、既存の⽣成モデルを活⽤し、⼈間とコンピュータのインタラクションを向上させるために設計されたエージェント • テキスト、画像、動画、3Dモデル、⾳声など、複数のモダリティにわたる情報を処理し、⽣成する能⼒を持つ • ⼈間の要求に基づいて適切なツールを選択し、それを使⽤して必要な⽣成タスクを実⾏する LLMs Meet Multimodal Generation and Editing: A Survey Agent Framework

Slide 47

Slide 47 text

LLMs Meet Multimodal Generation and Editing: A Survey • ここ2年で複数のモダリティの編集と⽣成機能がエージェントに統合されている • 最近は指⽰チューニングが多い • 指⽰チューニングは特定のタスクやアプリケーションに最適化されるため、より⾼い精度を達成できる Agent Framework

Slide 48

Slide 48 text

• LLMのロールプレイを活⽤して、求職者と⾯接官の間で模擬⾯接と評価までおこなうフレームワークを提案 • 従来の履歴書と求⼈情報に基づく評価に加え、模擬⾯接の対話履歴を⽤いて、より正確な⼈材と職のマッチングを⽬指す • 提案⼿法のMockLLMが最⾼のマッチング精度を達成し、⾼品質な模擬⾯接を提供した • 将来のオンライン求⼈への応⽤に期待 Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting 模擬⾯接の受け答えのクオリティが重要 Agentic AI Systems

Slide 49

Slide 49 text

LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins • デジタルツインのシミュレーションパラメータを⾃動決定するLLMマルチエージェントシステムの設計 • 観察、推論、決定エージェントは、デジタルツインからリアルタイムデータを収集し、重要な観察データを識別、データを解析し、パラメータを⽣成 • 専⾨知識が少ないユーザーでも効果的にデジタルツインシステムを操作できるようになり、システムのアクセシビリティと効率が向上 MAS経由でシミュレーションを実⾏ Multi Agent Systems

Slide 50

Slide 50 text

• 部分的に観察可能な環境で分散型マルチエージェントが協⼒して共通の⽬標を達成することを⽬指す • 以下２つのモジュールを組み込むことで精度の向上を実現 • 情報の関連性の評価：観察情報をメモリに保存するとき、何を優先してメモリに残すかを決める • 計画評価：⾃⾝の計画に他のエージェントが⼲渉したかをメモリから考える、複数の計画からベストを選ぶ LLM-Based Cooperative Agents using Information Relevance and Plan Validation 提案⼿法は少ないステップで移動距離も短く通信回数も少なく効率的 Multi Agent Systems

Slide 51

Slide 51 text

A Survey on Vision-Language-Action Models for Embodied AI • Vision-language-action models (VLAs) は、⾔語指⽰に基づいて⾏動を予測し、環境でのタスクを実⾏する能⼒を持つ。ロボティクスの分野で重要な役割を果たす • VLAモデルは、低レベルの制御ポリシーとして動作し、環境に基づいて⾏動を⽣成するか、⾼レベルのタスクプランナーとして動作し、⻑期のタスクを実⾏可能なサブタスクに分解することができる視覚と⾔語をインプットし⾏動を⽣成する機構が増えている

Slide 52

Slide 52 text

Large Language Models Can Self-Improve At Web Agent Tasks • Webエージェントのタスクで⾃⼰改善する枠組みを提案 1. ベースモデルの実⾏: ベースモデルがタスクを実⾏し、初期データを収集 2. データのフィルタリング: ⾃⼰批評や環境のエラーチェックを通じて、低品質なデータを除外 3. 新しいタスクの⽣成: IDの例をもとに、OODの新しいタスクを⽣成 4. ファインチューニング: 構築したデータセットを使⽤してモデルをファインチューニング • モデルは⾃⾝の⽣成したデータを活⽤し、逐次的に学習と改善を繰り返すことで⾃⼰改善を実現 • モデルは反復的に⾃⼰改善できるか？ノー。先⾏研究と⼀致して2度⽬は1度⽬より精度が落ちる最も良いのはBタイプの学習 Computer Controlled Agents

Slide 53

Slide 53 text

6⽉3⽇更新 • 論⽂ • プロダクト

Slide 54

Slide 54 text

プロダクトブログ • JSAI2024 AIエージェント関連の研究 • From Prompt Engineering to Agent Engineering • AI Agentic Design Patterns with AutoGen • AIエージェントが⼈間のバディーに--アクセンチュア、2024年の技術トレンドを解説 • AI Agents Are Going To Automate The Following Tasks First • Introducing Perplexity Pages • 少数ショットのツールの使⽤は実際にはまだ機能しない • Building an AI Agent With Memory Using MongoDB, Fireworks AI, and LangChain

Slide 55

Slide 55 text

JSAI2024 AIエージェント関連の研究 • エージェントとの対話やペルソナに関する分析の発表が多く⽬についた（検索結果順） • LLM マルチエージェントを⽤いたアイディエーション応⽤とアイデア評価⼿法に関する研究（株式会社博報堂テクノロジーズ、株式会社NTTデータ数理システム） • LLMエージェントの集団インタラクションを通したゲームの新しい戦略の創発（東京⼤学） • ⼤規模⾔語モデルを⽤いたレイアウト⽣成エージェント（⽇⽴製作所） • LLMに基づいたエージェントモデルのMASへの導⼊（⽴命館⼤学） • LLMエージェントによるText-to-Design⼿法の検討（早稲⽥⼤学、サイバーエージェント） • ⼤規模⾔語モデルを利⽤した動機づけ⾯接会話エージェント（成蹊⼤学） • LLMエージェントの⼈間との対話における反芻的返答の親近感向上効果（株式会社ARISE analytics） • LLMエージェント同⼠の⾃然⾔語による戦略進化（東京⼤学） • マルチエージェント雑談対話における対話破綻分析（早稲⽥⼤学、AIST、筑波⼤学、NAIST） • ⼤規模⾔語モデルに基づくマルチエージェント事実検証⼿法（京都⼤学） • 電通総研のLLMエージェントの技術開発や製造のAI活⽤事例紹介（株式会社電通総研） https://confit.atlas.jp/guide/event/jsai2024/top

Slide 56

Slide 56 text

From Prompt Engineering to Agent Engineering • エージェントエンジニアリングを紹介するコラム • 以下の機能要件を定義することから始まるエージェント機能要件 • エージェントがやるべき仕事 • 仕事を遂⾏するために取るべき⾏動 • 記事やブログ投稿の下書き • 必要な能⼒ • コンテンツトレンドの API の動的な呼び出し • ブレインストーミングと要約機能 • メモリ • 必要な能⼒の熟練度 • 関数呼び出しの信頼性は 75% • 失敗した関数呼び出しの説明可能性は 99.99% https://towardsdatascience.com/from-prompt-engineering-to-agent-engineering-f314fdf52a25

Slide 57

Slide 57 text

AI Agentic Design Patterns with AutoGen • DeepLearning.AIでAutoGenを使ったエージェント開発の新たな授業が無料公開 • AutoGen はマルチエージェントLLM アプリケーションの開発を可能にするフレームワーク動画の中で以下を学べる • Tool Use、Coding、Reflection • 会話、⼈間へのフィードバック https://www.deeplearning.ai/short-courses/ai-agentic-design-patterns-with-autogen/

Slide 58

Slide 58 text

AIエージェントが⼈間のバディーに--アクセンチュア、2024年の技術トレンドを解説 • アクセンチュアは5⽉27⽇、テクノロジートレンドの調査レポート「Technology Vision 2024」に関する記者説明会を開催 • 2つ⽬のトレンドに「⾃分専⽤エージェントとの出会い：AIのためのエコシステム」がある • AIは、さまざまなビジネスシーンで⼈間を⽀援する“アドバイザー”から、⾏動を伴い物理世界に影響を及ぼす“エージェント”に進化している • AIエージェントが私たちの同僚や代理⼈として登⽤されるにつれて、テクノロジーと⼈材の未来を再創造する必要がある • アクセンチュア⼭根⽒は、⽣成AIネイティブ世代が「BYOAI（Bring Your Own AI）世代」になるとし、AIエージェントをバディーとして共進化させ、業務だけでなく、プライベートにおいても常に⾃分のバディーとセットで⾏動するようになるという。 • AIエージェントを育て上げていくためには、⾃らもAIコーチから学ぶとともに、⾃らの考えや気付きを常にまとめてAIエージェントに問いかけるといった真に創造的なアクションが必要になる https://news.yahoo.co.jp/articles/2e21edb794054e5ca04757e8cfa127eb23b7a5c0 https://www.accenture.com/jp-ja/insights/technology/technology-trends-2024

Slide 59

Slide 59 text

AI Agents Are Going To Automate The Following Tasks First 以下ではAIエージェントは既に⼈間より性能が良いとされている • customer support and call routing（顧客サポートと通話ルーティング） • doc generation in the legal profession（法律専⾨家によるドキュメント⽣成） • data analyst / report generator（データアナリスト/レポート作成） • IT support desk and ticket triage（ IT サポートデスクとチケットトリアージ） • test script generator（テストコード⽣成） • junior financial analyst（ジュニア⾦融アナリスト） • contract creation and analysis （契約の作成と分析） https://x.com/bindureddy/status/1796013640555827680

Slide 60

Slide 60 text

Introducing Perplexity Pages • Perplexity Pages は、調査結果を記事に簡単に変換する新しいツール • 詳細な記事、レポート、情報ガイドを作成するときに使える⽂章の編集やテーブル表⽰、挿絵も⽣成記事の題⽬を書くと執筆される

Slide 61

Slide 61 text

少数ショットのツールの使⽤は実際にはまだ機能しない • Google Researchが論⽂を読者層に合わせてブログ化している • ツールを使⽤するように学習していないモデルを使う場合、Few Shot Learningによるツール利⽤は困難で未解決の問題 • Gemini、GPT-4、Claudeはツールを使うように学習済みなためスコープ外 https://research.google/blog/few-shot-tool-use-doesnt-really-work-yet/

Slide 62

Slide 62 text

Building an AI Agent With Memory Using MongoDB, Fireworks AI, and LangChain • MongoDB、Fireworks AI、LangChain などのツールを活⽤して AI リサーチアシスタントを構築する⽅法について説明する記事 • 特にMongoDBを⻑期メモリとして利⽤する⽅法をstepごとに紹介 https://www.mongodb.com/developer/products/atlas/agent-fireworksai-mongodb-langchain

Slide 63

Slide 63 text

No content

Slide 64

Slide 64 text

5⽉27⽇更新 • 論⽂ • プロダクト

Slide 65

Slide 65 text

論文 Agent Capabilities ・Large Language Models Meet NLP: A Survey 計画・Agent Planning with World Knowledge Model エージェントの評価・Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View Agent Framework ・Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents ・Human-Centered LLM-Agent User Interface: A Position Paper Agentic AI Systems ・Eliciting Problem Specifications via Large Language Models Multi Agent Systems ・Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts ・MapCoder: Multi-Agent Code Generation for Competitive Problem Solving Computer Controlled Agents ・Latent State Estimation Helps UI Agents to Reason

Slide 66

Slide 66 text

• LLMが⾃然⾔語処理タスクでどのように活⽤されるのか、その可能性について調査した論⽂ 1. LLMがNLPタスクにどのように適⽤されているのか 2. LLMは従来のNLPタスクを既に解決したのか 3. LLMのNLPにおける未来は？ Large Language Models Meet NLP: A Survey Agent Capabilities

Slide 67

Slide 67 text

Large Language Models Meet NLP: A Survey • LLMがNLPタスクにどのように適⽤されているのか？ • パラメータ固定型: ZSLやFSLなどプロンプト⼿法 • パラメータチューニング型: モデルのパラメータの更新を伴う学習⽅法 Agent Capabilities

Slide 68

Slide 68 text

• LLMは従来のNLPタスクを既に解決したのか？ • 各タスクで⾼い精度を達成する⼀⽅で、⻑いコンテキストの整合性や幻覚、⾔語⽂化の理解が課題 • LLMは汎⽤型のため、⼩型モデルの教師あり学習と⽐べてまだ性能差がある Neural Language Understanding • 感情分析：LLMはFSLなどで従来⼿法よりも⾼い精度を達成。複雑な感情やニュアンスを理解 • 情報抽出：LLMは固有表現抽出、関係抽出、イベント抽出タスクで⾼精度 • 対話理解：対話履歴を考慮した⽂脈理解や意図推定において、⼈間に近い理解を実現 • テーブル理解：LLMはテーブル質問応答で精度が⾼いが、複雑な質問やテーブル内の曖昧性の解消が課題 Neural Language Generation • 要約：抽象的な要約や特定の観点からの要約を⽣成できるのが強み • コード⽣成：⾃然⾔語で指⽰し多⾔語対応可能だが、効率性や正確性に課題 • 機械翻訳：⽂脈を考慮した翻訳において⾼品質だが、低リソース⾔語の翻訳は課題 • 数学的推論: 複雑な問題を段階的に分解して解くCoTが効果的だが、複数条件や無限など概念の理解に課題 Large Language Models Meet NLP: A Survey Agent Capabilities

Slide 69

Slide 69 text

• LLMのNLPにおける未来は？ • ６つの⽅向性を予測 Tool-Useについて適切なツールの使⽤：正しいツールを特定し、正しく使⽤すること効率的なツールの計画：複数のツールを連携して使⽤すること Large Language Models Meet NLP: A Survey Agent Capabilities

Slide 70

Slide 70 text

Agent Planning with World Knowledge Model • LLMは実環境を理解する能⼒が不⼗分であり、幻覚⾏動や⽬的のない試⾏錯誤を⾏う傾向がある • World Knowledge Modelというタスク特化の計画⽀援モデルを学習して利⽤することでエージェントの計画の質を⾼め、ステップレベルで助⾔をもらうことができる Agent Capabilities

Slide 71

Slide 71 text

Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View 群衆効果（Herd Effect） - 他の参加者が全員間違った回答を選んだ場合に、その選択に従う傾向が⾮常に⾼い権威効果（Authority Effect） - 社会的地位や権威のある⽅からの間違った情報に対して、LLMエージェントはその指⽰に従う傾向が強い噂の連鎖効果（Rumor Chain Effect） - 情報が伝達される過程で徐々に歪んでいく現象が観察され、情報の正確性が段階的に低下する確証バイアス（Confirmation Bias） - LLMエージェントは⾃⾝の既存の信念や期待を⽀持する情報を選びがちで反する情報を無視する傾向がある • LLMエージェントが不確かな条件下での意思決定においてどのような認知バイアスを⽰すかを探求する • LLMエージェントと⼈間が認知バイアスにおいて⾼い⼀貫性を⽰すことが確認された Agent Capabilities

Slide 72

Slide 72 text

Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents • LLMエージェントを設計するための16パターンを説明した論⽂ • エージェントはユーザーが提供する⾼レベルの⽬標からサブゴールを策定できるもの（⽬標追求と計画⽴案が可能なもの）とする • 16の設計パターンはユーザー、外部システム、コーディネーターエージェント、実⾏エージェントとその間のインタラクションで分けられる • それぞれのパターンでは、メリデメと関連する論⽂が紹介されている実⾏エージェントコーディネーターユーザー外部システム Agent Framework

Slide 73

Slide 73 text

Human-Centered LLM-Agent User Interface: A Position Paper • ユーザーが初めて使うシステムのオンボーディングにエージェントを活⽤する • LLM-Agent User Interface は LLMエージェントを利⽤したシステムとユーザー間のインタラクションを促進するインターフェース • LAUIは、ユーザーを学び、そのニーズを理解し、システムについての専⾨知識を活⽤してユーザーにアドバイスを提供する • LAUIの実例：⾳楽教育アプリを利⽤する⽣徒の演奏スタイルや学習進度に合わせて指導⽅法をカスタマイズ Agent Framework

Slide 74

Slide 74 text

Eliciting Problem Specifications via Large Language Models • コンサルタントやSierなど問題をシステムが利⽤できる仕様に翻訳することが⼤事だが、これには経験値が必要 • LLMを活⽤して⾃然⾔語で記述された問題を半形式的な仕様に変換する⼿法を提案 • CTAエージェントは、問題と問題解決の特徴を定義し、問題空間を形成し、解法の質を評価するなど、⼀連のタスクを実⾏する。各タスクは、LLMの質問応答により実⾏される。 • 問題空間の⾃動⽣成 • 問題空間は、問題空間の要素（状態記述、演算⼦、パス制約）を含む「問題」を解決する「システム」に落とし込む間を埋める役割でエージェントを使う Agentic AI Systems

Slide 75

Slide 75 text

• 翻訳出版プロセスを模倣し、⽂学作品の翻訳向けマルチエージェントフレームワークを提案 • 2 つの評価戦略を提案 • MHP：ターゲット⾔語のモノリンガル読者からの視点で翻訳を評価 • BLP：⾼度なLLMを使⽤して翻訳を原⽂と直接⽐較 • 従来の機械翻訳システムや⼈間が書いた参照翻訳よりも、⼈間の評価者とLLMの両⽅から好まれ、特にドメイン固有の知識を必要とするジャンルにおいて顕著な結果を⽰した Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts 翻訳段階翻訳者（Action Agent）が翻訳を⾏い、ジュニアエディター（Critique Agent）がレビューし、シニアエディター（Judgment Agent）が最終的な評価を⾏います。⽂化的適応と校正ローカライゼーションスペシャリスト（Action Agent）が⽂化的適応を⾏い、ジュニアエディター（Critique Agent）がレビューし、シニアエディター（Judgment Agent）が最終評価を⾏います。 Multi Agent Systems

Slide 76

Slide 76 text

MapCoder: Multi-Agent Code Generation for Competitive Problem Solving • 競技プログラミングレベルの問題解決のための新しいコード⽣成⼿法MapCoderを提案 • MapCoderは、関連する例を思い出す、計画する、コードを⽣成する、デバッグするという4つのLLMエージェント(プロンプト)で構成される • 8つの競技プログラミングとプログラム合成のベンチマークで実験を⾏い、特にHumanEval, MBPP, APPS, CodeContests, xCodeEvalなどで最新の最⾼成績を更新 Multi Agent Systems

Slide 77

Slide 77 text

Latent State Estimation Helps UI Agents to Reason • RQ：LLMがZSLで潜在状態を推定し、それを推論に活⽤する能⼒があるかどうか（ベイズ的アイデア） • LLMを⽤いてUIエージェントの潜在状態を推定することで、エージェントの性能向上に寄与した • 推定する潜在状態：過去の⾏動、画⾯の要約、進⾏状況、過去のミス、タスクの完了 • UIの⾃動ナビゲーションでは、観測情報だけだとタスクに不必要な情報量が多い潜在状態を利⽤する(+)を⾒ると軒並み精度が上がっている観測にノイズが多い Computer Controlled Agents

Slide 78

Slide 78 text

5⽉27⽇更新 • 論⽂ • プロダクト

Slide 79

Slide 79 text

プロダクト MS Build • Microsoft Copilot Studio: エージェント機能を備えたコパイロット • Microsoft Copilot StudioのCopilot利⽤分析機能 • Copilot Connectors：さまざまなサービスやデータソースと接続しAIが理解 • Copilot Extensions：Copilotをカスタマイズ • Microsoft Copilot StudioからCustom Copilotの作成 • Microsoft Copilot Studio：今後の機能 • Azure AI StudioからCustom Copilotsの作成 • Azure OpenAI の Assistants API v2 （プレビュー）が公開 • Power Automateのプロセス作成を⾃然⾔語、画⾯共有や⾳声指⽰で⾃動作成ブログ • The Guide to AI Agents /LLMエージェントの基本的事項がわかるコラム • Key Guidelines for Writing Instructions for Custom GPTs • AgentHub が名前を Gumloop に変更ベンチャー企業 • MILIZEが「MILIZE Financial AGENT」を発表 • Perplexity からInteractive Knowledge Cards機能がリリース • Zapier Central: AI ボットにお気に⼊りのアプリ間で動作するように教える • Octoverse：AIコンパニオン

Slide 80

Slide 80 text

Microsoft Copilot Studio: エージェント機能を備えたコパイロット • Microsoft Copilot StudioにGPTsのようなエージェント機能を搭載 • Template：Instructions, Triggers, Knowledgeが⾃動選択（おそらくActionsも） • Goal：エージェントの⽬的、Instructions：エージェントの役割 • Triggers：エージェントの起動、Knowledge：参照するソース、Actions：APIやフローの利⽤ • Topics: ローコードで作るハンドメイドワークフロー • 従業員が⼿動で⾏う⼀連のタスクを⾃動化できる • Copilot は、ユーザーと⼀緒に作業する Copilot から、ユーザーのために作業する Copilot へと進化 https://microsoftcopilotstudio.microsoft.com/en-us/blog/microsoft-copilot-studio-building-copilots-with-agent-capabilities/ Full Keynote: Satya Nadella at Microsoft Build 2024

Slide 81

Slide 81 text

Microsoft Copilot StudioのCopilot利⽤分析機能 • 履歴機能ではエージェントの実⾏したワークフローが⾒れる様⼦ • 改善案も提⽰する（左図の右端：Instructionsの提案もできる） • Copilotのマクロレベルの利⽤ダッシュボードもある https://microsoftcopilotstudio.microsoft.com/en-us/blog/microsoft-copilot-studio-building-copilots-with-agent-capabilities/ Full Keynote: Satya Nadella at Microsoft Build 2024

Slide 82

Slide 82 text

Copilot Connectors：様々なサービスやデータソースと接続しAIが理解 • ⾃社のビジネスシステムやアプリのデータに Copilot を接続できる • パブリック Web サイト、SharePoint、OneDrive、Microsoft Dataverse テーブル、Microsoft Fabric OneLake (今年中にリリース予定)、Microsoft Graph、主要なサードパーティアプリなど • （ただ、繋げられると活⽤できるは天と地の差があり、どこまでうまくできるのか） https://powerapps.microsoft.com/en-us/blog/unlock-new-levels-of-productivity-with-microsoft-dataverse-and-microsoft-copilot-studio/

Slide 83

Slide 83 text

Copilot Extensions：Copilotをカスタマイズ • Copilotの思考回路は変更できないが、Actionsから道具を持たすことはできる • （独⾃定義したActionで別エージェントを実⾏していくのか） Build Microsoft Copilot extensions with Copilot Studio | BRK148 https://learn.microsoft.com/ja-jp/microsoft-copilot-studio/copilot-plugins-overview

Slide 84

Slide 84 text

Microsoft Copilot StudioからCustom Copilotの作成 • Copilotの作成と運⽤のロードマップとサイクルがシンプルでわかりやすい Build your own copilot with Microsoft Copilot Studio

Slide 85

Slide 85 text

Microsoft Copilot Studio：今後の機能 Build your own copilot with Microsoft Copilot Studio

Slide 86

Slide 86 text

Microsoft Copilot Studio：今後の機能 Build your own copilot with Microsoft Copilot Studio

Slide 87

Slide 87 text

⾃社で作るか、Copilotを使うか What's new with Microsoft Copilot Studio

Slide 88

Slide 88 text

Azure AI StudioからCustom Copilot（Assistant）の作成 Azure AI Studio - Creating and scaling your custom copilots https://learn.microsoft.com/ja-jp/azure/ai-services/openai/how-to/assistant • Microsoft Copilot Studioで作るより開発者寄りで簡素化されている • OpenAIのAssistants APIにGUIがついたもの • ツール：Code Interpreter, File Search, Function Calling, Browse

Slide 89

Slide 89 text

Azure OpenAI の Assistants API v2 （プレビュー）が公開 Build sophisticated custom copilots with Azure OpenAI Assistants | BRK101 https://learn.microsoft.com/ja-jp/azure/ai-services/openai/whats-new • ファイル検索とストリーミング対応 • Bing Searchもtoolに追加予定、Bring your own Dataのインデックスも連携予定ツールが充実！！

Slide 90

Slide 90 text

Power Automateのプロセス作成をテキストや画面・音声指示で自動作成 • Power Automateは、異なるアプリをまたぐワークフローを⾃動化するサービス • ⼈⼿でワークフローを作成し管理していたが、ユーザー体験は“show and tell” 時代にステップアップ • 画⾯共有と⾳声指⽰（テキスト指⽰も可）でワークフローを⾃動作成 • （正常系のみ指⽰をすると異常系を⾃分でワークフローを修正するのかな） • （⾳声指⽰は聞き取り締切の無⾔の圧⼒があるから、説明失敗しそう） https://powerautomate.microsoft.com/ja-jp/blog/revolutionize-the-way-you-work-with-automation-and-ai/ メールにある請求書から情報を別の場所に転記するよう指⽰ワークフローを⾃動⽣成し⼈間が修正する

Slide 91

Slide 91 text

The Guide to AI Agents • AIエージェントは、従来のソフトウェアと異なり、タスクを⾃動的に実⾏するシステムです。 • アプリケーションは作業を⽀援しますが、エージェントは作業を完了させます。 • エージェントは、個⼈のアシスタント、企業内のタスク管理、顧客対応など、様々な⽤途で利⽤されます。 • LLM の⾃然⾔語理解、⾔語⽣成、推論により、初めて⾼度な AI エージェントの構築が可能になりました。 https://sierra.ai/news/ai-agents-guide

Slide 92

Slide 92 text

Key Guidelines for Writing Instructions for Custom GPTs • GPTsの指⽰の書き⽅と道具と⾏動の準備のガイドライン Enhancing Instructions • Simplify Complex Instructions：指⽰を分割して理解しやすく、トリガーと対応する指⽰をペアで提供 • Structure for Clarity ：明確な区切りを設けて指⽰を整理する • Promote Attention to Detail :「時間をかけて、深呼吸して、作業を確認して」を使⽤し注意を促す • Avoid Negative Instructions ：指⽰を否定的に表現しない • Granular Steps：タスクを細かいステップに分けて説明する • Consistency and Clarity：⽤語や分類を⼀貫して明確にする Tools and Actionsの特別な配慮 • Knowledge Files：ファイルの利⽤基準を明確に指⽰し、ファイル全体を分析するようにも指⽰する • Specificity in Prompts：具体的な例を⽤いることで指⽰を明確にする（⽇付や財務情報など） • Examples of Good Output：ナレッジとアクションの良い出⼒の具体例を⽰す • Referencing Actions:アクションは名前とドメインを参照する • Explicit Tool Use Instructions：参照、ナレッジ、カスタムアクションのツール使⽤⽅法を具体的に指⽰する https://help.openai.com/en/articles/9358033-key-guidelines-for-writing-instructions-for-custom-gpts

Slide 93

Slide 93 text

AgentHub が名前を Gumloop に変更 • AutoGPTでは、技術的知識がないユーザー向けのセットアップの難しさや、エージェントの実⾏コストと信頼性の問題があった • AgentHubはAutoGPTの⼈気に触発され、ユーザーがエージェントを簡単にセットアップし、共有できるプラットフォームを提供するために設⽴されたが、現在はユーザーがステップバイステップのパイプラインを定義するRPA的な要素が強いプロダクトになっている • 当初のエンジニアがエージェントの作成物を公開、ホスト、共有する場所にはなれなかった • AIに詳しくない⼈はエージェントが何なのか知らず誤解を⽣む • AgentHubがAsianHubに聞こえる • GumLoopはガムの粘着性のようにデータやアプリをつなぎ、1 つの⾃動化を 10,000 回ループできることは、プラットフォームの中⼼的な価値と考えて付けたそう https://www.gumloop.com/blog/why_agenthub_exists?ref=blog.gumloop.com https://blog.gumloop.com/agenthub-to-gumloop/

Slide 94

Slide 94 text

MILIZEが「MILIZE Financial AGENT」を発表 • ⽇本からもエージェントのサービスが開発されている • 多くの⾦融機関の⽣成AIのプロジェクトを⽀援している中で、チャット形式のLLMの活⽤よりも、⾃律的に作業を⾏うニーズの⽅が多い • ⾦融機関がノーコードでLLMを活⽤したエージェント構築ができる環境を提供予定ファイナンシャルアドバイザーのワークフロー⾦融のドメインに特化したエージェント https://milize.co.jp/news/20240522_5981

Slide 95

Slide 95 text

Perplexity からInteractive Knowledge Cards機能がリリース • Perplexity は他社のTako を搭載したインタラクティブなナレッジカードを表⽰ • ⽐較ワードなどのフレーズ検知で信頼のあるプロバイダーから情報を取得しグラフを描画 • ⾦融、経済、政治データの範囲で、単⼀ドメイン検索 (例: 「Nvidia 株価」)、クロスドメイン検索 (例: 「Nvidia 株価 vs. バイデン⽀持率」)、時間ベースの検索 (例: 「Nvidia 株価 vs. バイデン⽀持率 (2022 年 1 ⽉ 11 ⽇以降)」) をサポート • 注: 最初は⽶国のユーザー向けに英語で提供され、モバイルアクセスは近⽇中に開始されます。 https://trytako.com/blog/introducing-tako-and-perplexity-integration https://www.perplexity.ai/collections/Interactive-Knowledge-Cards-2FMyYxiKRfaUpOZLhO3NYw

Slide 96

Slide 96 text

Zapier Central: AI ボットにアプリ間で動作するように教える • Zapier Centralは、AIと⾃動化を融合させて業務効率を最⼤化するためのプラットフォーム • 6000以上のアプリにアクセスでき、メール管理、問い合わせ、プロジェクト管理、カスタマーサポート、カレンダーと会議、経費処理を対話的におこなえるツールと⾏動の選定 Gmailのドラフト保存初期設定 https://zapier.com/blog/zapier-central-guide/

Slide 97

Slide 97 text

Octoverse：AIコンパニオン • アプリ内でユーザーのタスクを理解して完了する AI コンパニオンを開発 • 関数呼び出しではGPT-4oより4 倍⾼速、10 倍安価なモデルを開発 • ショッピング、ビデオ会議、旅⾏予約のAIエージェントのデモ動画あり • デモが従来のユーザー体験と⽐較している。今後のユーザー体験のイメージがわかりやすい https://www.nexa4ai.com/ 旅⾏予約で従来のカレンダーを選んでいる間に⾳声指⽰を出し終了 ECで5星評価のレビューを探す場合画⾯スクロールしている間に⾳声指⽰を出し終了

Slide 98

Slide 98 text

No content

Slide 99

Slide 99 text

過去のアーカイブ • SpeakerDeckに4⽉分、5⽉分の資料を分けて公開しています。