$30 off During Our Annual Pro Sale. View Details »

Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ

masatoto
November 30, 2024

Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

X: ottamm_190

masatoto

November 30, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. プロダクト・ニュース リリース • Introducing the World’s First Data Search Autopilot

    Agent • The AI Agent Engine • NEC、高度な専門業務の自動化により生産性向上を実現するAIエージェントを提供開始 • BoxWorks 2024現地レポート:「Box AI Studio」で実現する自律型エージェントの世界 ニュース • MSが純正AIエージェント発表、ナデラCEOは「エージェンティックワールド」目指す ブログ • AI Agents: How to build Digital Workers • Fujitsu Kozuchi AI Agent at Microsoft Ignite 2024 • いま注目すべき「AIエージェント」とは? 「チャット型AI」の先を行く未来の体験 • AI旅行記事生成PJから学んだ マルチエージェントの本質と可能性 • 時代は生成AIからAIエージェントへ • マルチAIエージェント登場で更に変わるビジネス オープンソース • multi-agent-orchestrator/AWS 授業 • Kaggle's 5-Day Gen AI Intensive Course Day 3: Generative AI Agents
  2. Introducing the World’s First Data Search Autopilot Agent • Gensparkがすべてのデータ検索タスクを処理するエージェントをリリース

    • リファレンスにもハイライトがついている、途中の行動も表示されている https://mainfunc.ai/blog/genspark_autopilot_agent_data_search 途中の行動 引用の表示
  3. The AI Agent Engine Decagonは、次世代のカスタマーサポートを実現する包AIエージェントプラットフォームを提供 AIエージェントプラットフォームの機能 1. Decagon Core AI

    Agent: チャット、メール、音声など、複数のチャネルで顧客対応を行う中心的なAIエージェント 2. Routing: AIが対応できない場合、適切なチャネルや担当者に問い合わせを振り分け 3. Agent Assist: 人間のエージェントをサポートするリアルタイムの応答提案やインサイト機能 4. Admin Dashboard: 顧客とのインタラクションデータを集約し、パターンを分析してパフォーマンスを改善 5. QAインターフェイス: AIの意思決定の透明性を確保し、自己調整可能なオプションを提供 Decagonはスモールスタートが可能な製品群を用意しており、企業はROI(投資対効果)を実証しながら徐々に拡 張できる。最終目標は、完全に統合された自律型AIエージェントによるサポート体制を構築すること https://decagon.ai/resources/ai-agent-engine
  4. BoxWorks 2024現地レポート:「Box AI Studio」で実現する自律型エージェントの世界 近年Boxは、次世代のデータ(コンテンツ)管理として「ICM(Intelligent Contents Management:インテリ ジェントコンテンツ管理)」を提唱している。 新たに顧客自身がBox AIのエージェントをカスタマイズできる新機能「Box

    AI Studio」を発表した • 2025年1月にリリースする予定 • 講演のデモンストレーションでは、コンサルタント会社がコンプライアンス状況の確認や次に行うべき作業内容を確認す るシナリオ • 標準搭載のAIエージェントでは、順守すべき法令や作業内容を文章に要約して提示する • カスタムAIエージェントでは、危険性の内容や問題箇所、参照すべき法規制の条文などを特定して一覧表で提示する • 「エージェント=代理人」のごとく、定型業務だけでなく軽度な非定型の業務も人に代わって行うことができる。 https://news.yahoo.co.jp/articles/4c86030ece031c431c163bea86f21a3fb1edc9c1?page=2
  5. MSが純正AIエージェント発表、ナデラCEOは「エージェンティックワールド」目指す 2024年11月19日Microsoft Ignite 2024が開催され、AIエージェントを強化する新機能を発表した CopilotというUIの裏側でAIエージェントが動くイメージがあり、エージェンティックワールドとは、「従業員1人 とCopilot1人がいれば、1000人のエージェントを持つことができる」(ナデラCEO)という世界を指す。 • マイクロソフトによる純正エージェントであるAgents in Microsoft

    365 Microsoft 365の各種アプリに組み込んだ5つのエージェントを発表 • Teams:通訳エージェント、ファシリテーターエージェント • Microsoft 365 Copilot Business Chat:セルフサービスエージェント • SharePoint:SharePoint のエージェント • Planner:プロジェクトマネジャーエージェント • カスタマイズ可能なMicrosoft Copilot Studioエージェント • 5月に発表した内容が予定通りリリースされた • ナレッジソースの分析やセッションの分析も追加された https://xtech.nikkei.com/atcl/nxt/column/18/03012/112000001/ Copilot Studioとエージェントの新機能 https://ignite.microsoft.com/en-US/sessions/BRK165?wt.mc_ID=Ignite2024_esc_corp_bl_oo_bl_BON
  6. AI Agents: How to build Digital Workers AIエージェントの概要 • AIエージェントは、指示に従うだけでなく、推論し、意思決定し、行動し、学習する能力を持つソフトウェア

    • 従来のプログラムと異なり、タスクを自律的に計画し実行する エージェントの構成要素 1. 知覚 (Perception):ユーザーや環境から入力(チャット、API、音声など)を取得 2. 頭脳 (Brain):推論、計画、適応を担い、複雑なタスクを解決 3. 記憶 (Memory):短期記憶(セッションベース)と長期記憶(外部データベース)で一貫性を保持 4. 知識 (Knowledge):FAQや社内文書などを活用して意思決定を強化 5. 行動 (Actions):APIや外部ツールを動的に活用し、実世界で行動を実行 設計プロセス 1. ペルソナと目標を定義:エージェントの役割、目的、成功基準を明確化 2. タスクと計画の設計:ワークフローやエッジケースを想定して指示書を作成 3. 記憶の構築:セッション中の一時的な情報と長期的な履歴を保存 4. 知識の準備:最新のデータや知識を統合し、正確な回答を保証 5. ツールの提供:必要なAPIやツールを設定し、効率的な動作をサポート エージェントチームの構築 • 単一の汎用エージェントではなく、専門分野に特化した複数のエージェントを連携させることで効率を向上 • 各エージェントがデータ収集、分析、解決策の生成、実行などを分担 課題と運用 • セキュリティ: SSOやアクセス権管理でデータを保護 • 運用管理:エージェントのパフォーマンス追跡や定期的な改善が必要 https://medium.com/@alfredosone/ai-agents-how-to-build-digital-workers-4fe68bb20348
  7. Fujitsu Kozuchi AI Agent at Microsoft Ignite 2024 富士通研究所の方がMicrosoft Igniteで発表し、その感想の記事

    MS Ignite 2024の感想 • 何でもかんでもエージェント • マルチエージェントがもう実現できてきている • 自律性は「自ら動く」ではなく、「予め設定しておいたトリガーにもとづいて動く」 ブレークアウトセッション:Productive AI with Semantic Kernel • Fujitsu Kozuchi AI Agentへの発展という形で発表 • Fujitsu Kozuchi AI Agentのウリは自ら考えて動く をいち早く実現している • エージェントは会議でなされた会話を逐一聞いて、解く必要がありそうなタスクを自ら生成し実行結果を見せる https://blog.fltech.dev/entry/2024/11/28/ms-ignite-ja
  8. いま注目すべき「AIエージェント」とは? 「チャット型AI」の先を行く未来の体験 株式会社Algomaticの高橋さんから「開発者と読み解くAIの世界」の記事 「AIエージェント」とは何か • AIエージェントは、ユーザーの指示に基づき自律的に計画・実行するAIシステム • 目標達成のためのタスク分解や外部ツールの活用を行う点が特徴 • AIチャットとは異なり、人間の細かな指示が不要

    代表的なAIエージェントの活用例 • Anthropic Computer Use:コンピュータ操作の自動化 • Genspark Autopilot Agent:非同期での情報調査・レポート作成 • Replit Agent:プログラミング知識不要でのWebアプリ自動生成 • Moonhub:企業向け採用支援の自動化 • AIHawk:求職者向けの求人応募の全自動化 インターネット利用の未来 • AIエージェントがインターネットを活用する時代が到来 • 「人間だけでなくAIも使いやすいサービス」が求められ、企業もAIエージェント向けのツール開発を進めている。
  9. 時代は生成AIからAIエージェントへ 三菱総合研究所からエージェントに関するコラムが公開 AIエージェントによるビジネスをBtoBとBtoCに分けて公開されている AIエージェント時代に向け企業は変革を 業務のAI Ready化 • 業務文書やマニュアルのデジタル化・統一フォーマット化 • AIエージェントが操作可能なAPIやRPAの整備

    • 業務プロセスや入出力の定義 人材の育成 • AIツールやプロンプトエンジニアリングのトレーニング • 技術リテラシー、問題解決能力、クリティカルシンキングの向上 新サービスの検討 • AIエージェント活用を見越したサービス設計 • アジャイル型組織の構築 • 外部企業との連携による柔軟な開発体制の確立 https://www.mri.co.jp/knowledge/opinion/2024/202412_1.html
  10. Kaggle's 5-Day Gen AI Intensive Course Day 3: Generative AI

    Agents https://www.kaggle.com/discussions/general/545988 KaggleとGoogleが共催の生成AI集中コースの3日目の内容 エージェントのホワイトペーパーも公開され、エージェント技術の基本から応用までを包括的に解説
  11. プロダクト・ニュース ニュース • AIエージェントで「業務プロセス」自動化、SalesforceやServiceNowなど続々投入 ブログ • 【生成AI×RPA】Claudeの新機能「Computer Use」 を活用したリサーチ業務の自動化 •

    RAGENTIC: RAG-Enhanced Multi-Agent Architecture • 14 Perplexity AI Use Cases: The Search Engine You Didn’t Know Could Do So Much • State of AI Agents • RIP to RPA: The Rise of Intelligent Automation • Treating AI Agents as personas • Agentic Mesh: The Future of Generative AI-Enabled Autonomous Agent Ecosystems • What Makes a True AI Agent? Rethinking the Pursuit of Autonomy • Make Every Application An AI Agent オープンソース • RD-Agent@Minecraft • OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent@Microsoft • TinyTroupe@Microsoft 授業 • LLMs as Operating Systems: Agent Memory • LangGraph Agents with Amazon Bedrock • Multimodal AI Agents with Ruslan Salakhutdinov • EMNLPチュートリアル Language Agents: Foundations, Prospects, and Risks
  12. Treating AI Agents as personas AIエージェントに対するUXデザイナーのこれから • 人間のユーザーのペルソナを作成するのと同様に、AI エージェントのペルソナも開発する必要がある •

    エージェントのニーズ、能力、目標を理解し、人間とエージェントの両方に最適化されたUI/UXを設計する • UXデザイナーはインターフェース設計を超えてエージェントの動作の核心にまで関与する • 人間、エージェント、製品間の相互作用を視覚化する新しいブループリント設計する https://uxdesign.cc/treating-ai-agents-as-personas-6ef0135bdcad Agentic Experience Maps AI エージェントのペルソナ
  13. What Makes a True AI Agent? Rethinking the Pursuit of

    Autonomy 真のAIエージェントとは何か?自律性の追求を再考する 多くの企業が自社の AI 製品を「エージェント」と名付けようと急いでいるが、本当に正しいのか AIシステムを評価するための6つの核心特性(知覚、対話性、持続性、反応性、先見性、自律性)を提案 • AIエージェント: 6つの特性のうち5つ以上を備え、自律性が高い。例:Roomba • AIアシスタント: 知覚、対話性、持続性に優れ、反応性や自律性は限定的。例:GitHub Copilot https://towardsdatascience.com/what-makes-a-true-ai-agent-rethinking-the-pursuit-of-autonomy-547ab54f4995
  14. Make Every Application An AI Agent https://cobusgreyling.medium.com/make-every-application-an-ai-agent-6cad9323b743 Microsoftの研究では、AIエージェントがGUIではなく、API中心で操作する方が効率的であると提唱 GUIではなくAPIにするメリット •

    シンプルなタスク完了:APIを使用すれば、1回の呼び出しでタスクが終了する • 学習コストの低減:不必要なUI操作を削減 • エラーの軽減:画面解釈エラーや多段階のUI操作を回避 提案するエージェントのワークフロー • 探索モード:アプリのUIを探索し、機能や操作可能なアクションを記録・学習 • フォロワーモード:事前定義されたタスクの手順を学習
  15. Agentic Mesh: The Future of Generative AI-Enabled Autonomous Agent Ecosystems

    • Agentic Meshは、自律エージェントが互いを見つけ、協力し、対話し、取引することを容易にする相互接続さ れたエコシステム • エージェントの発展から現在の問題は「自律エージェントをどう構築するか」ではなく、自律エージェントの エコシステムをどのように管理するかに移る • スマホアプリのようなマーケットプレイスをイメージしている https://towardsdatascience.com/agentic-mesh-the-future-of-generative-ai-enabled-autonomous-agent-ecosystems-d6a11381c979
  16. RAGENTIC: RAG-Enhanced Multi-Agent Architecture Agentic AIシステムとは、自律的に環境を認識し、意思決定を行い、タスクを実行できるAIシステムであり、複 雑なワークフローを理解し、最小限の人間の介入で目標を達成可能 RAGENTICはRAGとマルチエージェントを統合した造語 RAGENTICは顧客満足度を向上させ、ブランドの成長を支援する新しいAIソリューション マスターエージェントと特化エージェントのインタラクションで動く

    シナリオ例:ECアプリのパーソナライズ 1. ユーザー行動追跡:ユーザー行動分析エージェントが興味のあるカテゴリーを特定 2. 関連商品の提案:市場バスケット分析エージェントが関連商品を提示 3. 個別化の強化:顧客分析エージェントが過去の購買履歴に基づき、嗜好を分析 4. 在庫確認:在庫分析エージェントが在庫状況をチェック 5. 最終推薦:商品推薦エージェントが全データを統合し、パーソナライズされた提案を提供 https://techcommunity.microsoft.com/blog/azure-ai-services-blog/ragentic-rag-enhanced-multi-agent-architecture/4287132#AI
  17. RIP to RPA: The Rise of Intelligent Automation RPAからAgentic Process

    Automationにベンチャー企業もシフト • 目標を指定するだけでプロセスを柔軟に遂行できる • 異なるデータ形式やビジネスプロセスの変更にも対応可能 • 実装・保守が容易で低コスト 水平型:特定の機能(データ構造化や抽出やWebクローリング)に特化して、幅広い業界にサービス提供 垂直型:特定業界(医療、物流)向けの深い統合と高精度のワークフロー自動化を提供 市場のインパクト • ビジネスプロセスアウトソーシング(BPO)市場にも影響 • 米国では約800万人のオペレーション/情報事務職の自動化余地 https://a16z.com/rip-to-rpa-the-rise-of-intelligent-automation/
  18. OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent@Microsoft

    UI スクショを構造化要素に変換できるコンパクトな画面解析モジュールOmniParser をMicrosoft が提案 1) UI内の対話型アイコンを確実に識別する 2) スクショ内のさまざまな要素を理解し、意図した行動を画面上の対応する領域に正確に関連付ける https://github.com/microsoft/OmniParser
  19. RD-Agent@Minecraft MicrosoftのRD-Agentは、産業界におけるR&Dプロセスの自動化を目指すオープンソースツール • 応用例:Data Mining Agent、Research Copilot、Kaggle Agent 利用可能なデモ •

    医療予測モデル:医療分野でのモデル提案と実装を自動化 • 研究開発のコパイロット:研究論文や財務報告書を自動的に解析し、モデル構造やデータセットの構築を支援 • Kaggleエージェント:モデルのチューニングや特徴量エンジニアリングを自動化 https://github.com/microsoft/RD-Agent
  20. LangGraph Agents with Amazon Bedrock LangChainのCEOとTavilyのCEOが作成した「AI Agents in LangGraph」のコースを基にしたワークショップ (DeepLearning.AIで提供)LangGraphフレームワークの理解とAmazon

    Bedrockの利用方法を学べるリポジトリ Lab 1: ReActエージェントをゼロから構築 • PythonとLLMを使って基本的なReActエージェントをゼロから構築 Lab 2: LangGraphのコンポーネント • LangGraphの紹介。ノード、エッジ、状態管理などのコンポーネントを活用 Lab 3: エージェント検索ツール • エージェント検索ツールの紹介 Lab 4: 永続性とストリーミング • 状態の保存、会話の再開、エージェントの行動と出力のリアルタイム表示 Lab 5: 人間をループに組み込む • LangGraphでの高度な人間参加型インタラクションパターンを学ぶ Lab 6: エッセイライター • LangGraphを用いて、計画、調査、執筆、振り返り、改訂といったマルチステップのプロセスを含む https://github.com/aws-samples/langgraph-agents-with-amazon-bedrock
  21. Multimodal AI Agents with Ruslan Salakhutdinov カーネギーメロン大学のRuslan Salakhutdinovが「Multimodal AI Agents」について講演した。

    マルチモーダルAIエージェントの進化 • LLMを活用し、複雑なマルチステップタスクを自律的に遂行できるエージェントの構築を目指している • 視覚的な環境も理解し、計画・推論・実行が可能 推論時の探索アルゴリズム • エージェントの探索プロセスを最適化するために、論文「 Tree Search for Language Model Agents」を紹介 評価ベンチマーク VisualWebArena • マルチモーダルエージェントの性能を評価するフレームワーク • Amazon、Reddit、GitHubのような実際のウェブサイトを模した環境でエージェントの能力をテスト 現状の課題と可能性 • 現在のモデルの主な課題は、視覚処理や計画能力の不足、探索の早期終了、エージェントの記憶機能の欠如など • 長期的にはデジタルおよび物理的環境での汎用エージェント構築を目指している 物理エージェントへの応用 • シミュレーションで学習した知識を現実世界で応用する取り組み • ロボットによる長期的なタスク遂行のための高レベル計画と低レベルの制御技術を統合 https://www.youtube.com/watch?v=wK0TpI3gu28
  22. State of AI Agents 1,300人以上の専門家を対象に2024年の AI エージェントの状況について調査 回答者の約 51%が現在、本番環境でエージェントを使用 •

    中規模企業 (従業員 100 - 2,000 人) がエージェントの本番環境への導入に最も積極的でした (63%) 回答者の78% がエージェントをすぐに本番環境に実装する積極的な計画を立てている エージェントのツールの権限 エージェントの構築とテストのベストプラクティスが課題 • エージェントの技術的なノウハウが足りない • 開発とデプロイに多くの時間の投資が必要 https://www.langchain.com/stateofaiagents
  23. 14 Perplexity AI Use Cases: The Search Engine You Didn’t

    Know Could Do So Much Perplexity AIは検索エンジンとチャットボットの融合型ツールで、複数のソースから信頼性のある情報を提供する 1. 質問応答エンジン:あらゆる質問に包括的かつ引用付きで答える # What is [topic or question]? 2. リアルタイム情報の追跡:天候や選挙などの最新イベントを追跡可能 # Can you provide real-time updates on [event]? 3. 価格比較:商品の最安値をリアルタイムで比較 # Where can I find the best price for [product]? 4. 不動産市場調査:物件情報や市場動向を迅速に調査 # What are the property market trends in [location]? 5. SEO最適化:キーワード生成やコンテンツ最適化に対応 # Generate a list of keywords for optimizing content about [topic]. 6. 学習支援:スキルや科目の学習を個別にサポート # Can you explain [subject] in detail? 7. カスタマイズ可能な出力:回答内容を「Collections」機能でカスタマイズ 8. 記事やウェブページの要約:長文コンテンツの要点を抽出# Summarize the key points of [article or webpage]. 9. 株式市場と財務リサーチ:株価分析や企業比較を提供 # What is the current stock price and performance of [company]? 10. Googleアラートの代替:業界ニュースや競合の活動を自動通知 11. 創作支援:ブログや脚本、歌詞などの草案を生成 # Generate ideas for [type of content] on [topic]. 12. 法務・専門リサーチ:判例や専門ガイドラインを迅速に検索 # Find relevant legal cases on [topic or law]. 13. マルチモーダル対応:画像や文書を解析 # Analyze this [uploaded document or image] and provide insights. 14. コード生成:Pythonスクリプトなど簡単なコードを生成 # Generate a [programming language] script to [task]. https://learnprompting.org/blog/perplexity_use_cases
  24. EMNLPチュートリアル Language Agents: Foundations, Prospects, and Risks 第1章: Language Agents:

    Introduction • LLMエージェントの概念と背景を説明。エージェントとは環境を感知し、行動するシステムを指し、LLMがその基盤となる 第2章: The Power of Language: Memory, Planning, Grounding, Tool Use • 記憶 (Memory)、計画 (Planning)、接地 (Grounding)、ツール使用 (Tool Use) 第3章: Future Directions • 計画能力や安全性の向上、GUIエージェントの進化、視覚的・言語的統合モデルの開発を提案 • 試行錯誤による学習(探索と模倣)や、合成データ生成の可能性 https://ysu1989.github.io/resources/language_agents_YuSu_2024.pdf
  25. 11月4日 更新 ブログ • What The Hype and Reality of

    Agents: Resurgence of the Past, with LLM Flavors • (Perplexity)Proのように複雑なクエリ検索を処理できるAI回答エンジン • LangGraphとAgentを使って最新のトレンドを考慮した広告文生成をやってみる
  26. What The Hype and Reality of Agents: Resurgence of the

    Past, with LLM Flavors LLMエージェントは完全に新しい技術というわけではない。 1990 年代を振り返ると、同様の話題があった。オックスフォード大学の教授である Michael Wooldridge は、 「エージェント」は「ノイズ」用語になる可能性があると警告した。あまりに頻繁に、そして漠然と使用される ため、意味を失う恐れがある。そして2024年の今も議論されている。 エージェントは、本質的には、ビジネス プロセス オートメーション (BPA) やロボティック プロセス オートメー ション (RPA) のように、ユーザーに代わってタスクを自律的に実行するソフトウェア エンティティ 今日の違いは、厳格なルールベースのシステムを使用する代わりに、LLM を使用してインテリジェントで適応性 のある動作をシミュレートしていること エージェントを車に例えると、ルールベースエンジンだったのが、LLMの電気モーターに交換するようなもの。 エンジンは異なりますが、それでも車は車。 重要なポイントは、ツールは改善されても、私たちが構築しているものの本質は変わらないということ https://leehanchung.github.io/blogs/2024/10/26/thoughts-on-agents/
  27. (Perplexity)Proのように複雑なクエリ検索を処理できるAI回答エンジン • 最近Perplexity チームは、多段階の推論を使用して複雑な質問に答えるPro Search をリリースしました • Perplexity Pro Search

    のクエリ検索量は、過去数か月で 50% 以上増加した • Perplexity Pro Search は、コードインタープリタ、Wolfram Alpha などの数学ツールもサポートしている • Perplexity はfew-shot やCoTプロンプトの手法を活用している • Perplexity は、製品が中間の進行状況を表示すると、ユーザーが結果を待つ意欲が高まることを発見した • 優れたUXを実現するには、回答の質とともにスピードも重要 • ユーザーを待たせるのではなく、動的な UI フィードバックでユーザーの関心を維持する https://www.langchain.com/breakoutagents/perplexity