SIerの会社でAI製品開発、技術検証やPoC案件に従事 ▍ ⼈間とシステムとAI のインタラクション技術が好き l LLMに基づく⾃律型エージェント l 予測の不確実性 l Human in the Loop & XAI ▍ 技術発信(masatoto) l Weekly AI Agents News! l LLMマルチエージェントを俯瞰する l ICLR2024 LLMエージェントの研究動向 X: @ottamm_190
環境の情報を取得できない ▍ RAG:ドキュメント検索結果をテキストプロンプトに渡してテキストを⽣成 l タスクを遂⾏するまで検索し続けることができない l 検索結果に応じて次の検索内容を決めるように適応できない l タスクごとに検索からプロンプト代⼊までフローをカスタマイズする必要がある ▍ RPA Workflows: LLMを⽤いて業務プロセスごとにノーコードワークフローで⾃動化 l ワークフローを業務ごとにカスタマイズが必要 l ワークフローを作っても動作中に環境の変化に適応できない l 複雑なタスクに対しては分岐の多い複雑なワークフローになる LLM Prompt Response LLM Prompt Docs LLM
l タスクの意図を理解し、問題解決までの道筋を計画できる l ⾃ら⾏動内容を決めて実⾏でき、環境から得られる情報に適応できる ▍ なぜAIエージェントを開発するのか l 開発フレームワークの充実で市⺠もプロも開発の敷居が下がっている l 業務に依存する部分の変更だけでRAG、RPAやデータ分析を⾼速に検証できる ▍ AIエージェントの開発⽅法とは ▍ AIエージェントの課題とは
Sequential型のReActは⼈間の介⼊できるポイントが少なく、難しいタスクで無駄に ⻑く推論が続き、誤りが累積し、デバッグがしにくい l Plan & Action型はPlanとAction段階それぞれで⼈間による動作チェックができ、難し いタスクを簡易サブタスクに分解でき、サブタスクごとに評価できる ▍ アーキテクチャの考慮ポイント l 計画を静的にするか、⾏動の結果で変更する動的にするか l 計画の粒度(サブタスク間に依存関係を持たせるか、完全に独⽴にするか) l ⾃⼰修正をどこでするか(⾏動後、サブ回答後、最終回答後) 計画 ツール利⽤ ⾃⼰修正 サブ回答 問い合わせ 1:N 最終回答 提案エージェントのワークフロー
Computer Control Agent ▍ コンピュータ制御エージェント l タスクはパワポ編集、ECサイトでの商品購⼊など l ツールはマウス操作やキーボード⼊⼒ l 観測はスクショ画像 l エージェントアーキテクチャは業務に依存しないため再利⽤可能 ▍ エージェントアーキテクチャの特徴 l Plan & Action 型のアーキテクチャ l Reflectionではサブタスク内容とスクショをもとに再⾏動、計画の続⾏、再 計画の3種類のいずれかを⽣成 Niu, Runliang, et al. "Screenagent: A vision language model-driven computer control agent." arXiv preprint arXiv:2402.07945 (2024).
l 計画のサブタスク数を少なくさせる l Reflection しやすいように、どのツールを使って何を得たいか⽣成させる ▍ Tool Use Prompt l ツールの関数名、各説明⽂の曖昧さをなくす l アプリケーションごとにツールにしない l 複数の検索インデックスは⽤途ごとにそれぞれ関数にする ▍ Reflection Prompt l ツールの実⾏結果からサブタスクを達成できるか評価する l ツールが良くない場合、次のツールやパラメータ案を⽣成する 計画 ツール利⽤ ⾃⼰修正 サブ回答 問い合わせ 1:N 最終回答
l タスクの意図を理解し、問題解決までの道筋を計画できる l ⾃ら⾏動内容を決めて実⾏でき、環境から得られる情報に適応できる ▍ なぜAIエージェントを開発するのか l 開発フレームワークの充実で市⺠もプロも開発の敷居が下がっている l 業務に依存する部分の変更だけでRAG、RPAやデータ分析を⾼速に検証できる ▍ AIエージェントの開発⽅法とは 1. 業務プロセスを書き出し、エージェントの理想的な⾏動パターンを考える 2. 業務に依存する部分のツール、ナレッジを開発する 3. エージェントのアーキテクチャを開発し、最後はプロンプトエンジニアリング ▍ AIエージェントの課題とは
l タスクの意図を理解し、問題解決までの道筋を計画できる l ⾃ら⾏動内容を決めて実⾏でき、環境から得られる情報に適応できる ▍ なぜAIエージェントを開発するのか l 開発フレームワークの充実で市⺠もプロも開発の敷居が下がっている l 業務に依存する部分の変更だけでRAG、RPAやデータ分析を⾼速に検証できる ▍ AIエージェントの開発⽅法とは 1. 業務プロセスを書き出し、エージェントの理想的な⾏動パターンを考える 2. 業務に依存する部分のツール、ナレッジを開発する 3. エージェントのアーキテクチャを開発し、最後はプロンプトエンジニアリング ▍ AIエージェントの課題とは l 理解⼒、計画⼒、適応⼒に実⽤上に難あり。エージェント能⼒をLLMに与える学習にも期待!
(1995). エージェントを考える (< 特集>「エージェントの基礎と応⽤」). ⼈⼯知能, 10 (5), 663-667. l 秋⽥ 興⼀郎. (1989). エキスパート・システム: 考え⽅・作り⽅・使い⽅ (DSライブラリー) l エージェントのサーベイ: Masterman, Tula, et al. "The landscape of emerging ai agent architectures for reasoning, planning, and tool calling: A survey." arXiv preprint arXiv:2404.11584 (2024). l エージェントのサーベイ: Wang, Lei, et al. "A survey on large language model based autonomous agents." Frontiers of Computer Science 18.6 (2024): 186345. l エージェントのビジネス応⽤: SIERRA, The Guide to AI Agents ▍ なぜAIエージェントを開発するのか l RPA: Insight Partners, AI Agents are disrupting automation: Current approaches, market solutions and recommendations l RAG: LlamaIndex, RAG in 2024: advancing to agents l Text-to-Analytics Agents: Hong, Sirui, et al. "Data interpreter: An LLM agent for data science." arXiv preprint arXiv:2402.18679 (2024). l エージェント開発の基礎: DeepLearningAI, Functions, Tools and Agents with LangChain ▍ AIエージェントの開発⽅法とは l ヘルプデスクエージェント: 電通総研, AIエージェントは何から取り組む?社内取り組み紹介 l エージェントアーキテクチャの参考: Niu, Runliang, et al. “Screenagent: A vision language model-driven computer control agent.” arXiv preprint arXiv:2402.07945 (2024). ▍ AIエージェントの課題とは l ヘルプデスクエージェント: 電通総研, AIエージェントは何から取り組む?社内取り組み紹介