Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News! 10月号 プロダクト/ニュースのアーカイブ

masatoto
October 30, 2024

Weekly AI Agents News! 10月号 プロダクト/ニュースのアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

X: ottamm_190

masatoto

October 30, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. プロダクト・ニュース リリース • OpenAI/swarm • Microsoft/New autonomous agents scale your

    team like never before • yoheinakajima/babyagi-2o • Anthropic/Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku • Anthropic/Developing a computer use model • 富士通、AIが人と協調し自律的に高度な業務を推進する「Kozuchi AI Agent」 • CTCがAIエージェントの構築支援サービス開始、3年間で50億円の売り上げ目指す • NTTデータがAIエージェントを活用した新たな生成AIサービスを提供開始 ブログ • LangChain/Memory for agents • PFN/PLaMoにおけるLLMエージェント能力の分析と改善 • jw-automation/AIエージェントによる業務ヒアリングの自動化 レクチャー • DeepLearning.AI/Serverless Agentic Workflows with Amazon Bedrock • DeepLearning.AI/ Practical Multi AI Agents and Advanced Use Cases with crewAI • MOOC/Enterprise trends for generative AI, and key components of building successful agents/applications • MOOC/ Agents for Software Development • MOOC/ AI Agents for Enterprise Workflows 10月21日 更新分
  2. OpenAI/swarm OpenAIからエージェントのオーケストレーションのルーチンとハンドオフの概念を紹介 それらが実装で体験できるswarm ライブラリを公開 ルーチン • 定型的な一連の処理を担う概念 • swarmだと指示プロンプトにルーチンを記述し、関数呼び出しを使ってルーチンを実行する ハンドオフ

    • 電話で別の人に転送するイメージ • ルーチン単位で別のエージェントに転送する • 関数呼び出しを通じて別エージェントを呼び出す 結果的にswarmはマルチエージェントの開発フレームワークになった https://cookbook.openai.com/examples/orchestrating_agents https://github.com/openai/swarm 10月21日 更新分
  3. Microsoft/New autonomous agents scale your team like never before •

    Copilot Studio 上に自律型エージェントを作成する機能が来月パブリックプレビュー • Dynamics 365 の 10 個の新しい自律エージェントをリリース 新たな機能 • 自律トリガーで実行のスケジュールが可能 • タスクの中で実行計画し、後からロジック (詳細手順、関連システム) を表示 • アクティビティタブで行動の監視 • Copilot Studio エージェントは o1 シリーズを含む最新のモデルを使用 Microsoftの中での取り組み Copilot 効果 • ある営業チームは一人当たりの売上が9.4%増加し、成約件数も20%増加した。 • あるチームは顧客案件の解決を約12%速めることができた。 エージェント効果 • マーケティングチームでは、Azure.comで購入者を支援するエージェントにより、コンバージョン率が21.5%向上した。 • 人事部門では、エージェントが社員の質問に対して42%の精度向上で答えることに貢献した。 https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/unlocking-autonomous-agent-capabilities-with-microsoft-copilot-studio/ https://blogs.microsoft.com/blog/2024/10/21/new-autonomous-agents-scale-your-team-like-never-before/ ユーザーが指定せずにエージェントが計画 10月21日 更新分
  4. yoheinakajima/babyagi-2o babyagi-2oは、必要なツールを作成および登録することで、反復的に自己改善することを目指している babyagi-2oの特徴 • 動的ツール作成: エージェントはツールを作成および更新 • パッケージ管理: ツールに必要なパッケージを自動的にインストール •

    エラー処理と反復: エラーを適切に処理し、エラーから学習し、タスクの完了に向けて反復を続ける • 関数ストレージ: 関数は動的に登録され、将来のタスクで再利用できる https://github.com/yoheinakajima/babyagi-2o/ 10月21日 更新分
  5. Anthropic/Introducing computer use, a new Claude 3.5 Sonnet, and Claude

    3.5 Haiku AnthropicからClaudeの最新モデルが公開 Claude3.5 sonnetの最新版では、SWE-bench Verifiedでの性能が 33.4% から 49.0% に向上し、OpenAI o1-preview などの推論モデルやエージェントの専用システムなどよりも高いスコアを獲得 ツール利用でも同様に改善傾向あり Claude3.5 Haikuでは元のHaikuの性能の全体改善 10月21日 更新分
  6. Anthropic/Developing a computer use model Anthropicの目標 • Claude が既存のコンピュータ ソフトウェアを人間と同じように使用できるようにすること

    コンピュータ利用機能のベータ版リリース • 最新のClaude 3.5 sonnetは、適切なソフトウェア環境を用意すると、ユーザーの指示からコンピュータ画面上で カーソルを動かしたり、クリックしたり、仮想キーボードで情報を入力したりできる • スクリーンショットを見て、正しい場所をクリックするためにカーソルを垂直または水平に何ピクセル動かす 必要があるかを学習させた • 訓練中は安全上モデルがインターネットにアクセスできないようにした • 精度に関してはこのニュースを定期的に読んでいる人ならお察しです 安全性に向けて • Claude はインターネットに接続されたコンピューターのスクリーンショットを解釈できるため、プロンプト イ ンジェクション攻撃を含むコンテンツにさらされる可能性がある • 不正利用に備えて、不正利用を警告して軽減するための分類器やその他の方法を開発した • 米国大統領選挙に関する悪用行為の警戒を強めている • Claude が選挙関連の活動に参加するよう求められた場合を監視する対策や、SNSでのコンテンツの作成と投稿、 Web ドメインの登録、政府の Web サイトとのやり取りなどの活動から Claude を遠ざけるシステムを導入 https://www.anthropic.com/news/developing-computer-use 10月21日 更新分
  7. 富士通、AIが人と協調し自律的に高度な業務を推進する「Kozuchi AI Agent」 富士通は23日 Fujitsu Kozuchi AI Agent を開発 「Fujitsu

    Uvance」のオファリング(製品・サービス)の1つであるオペレーションプラットフォーム「Fujitsu Data Intelligence PaaS」を通じ、グローバルに提供を開始する。 会議AIエージェントは、会議参加者の発言を踏まえて、データ分析を行うAIを複数選択実行して回答を提示する。 会議のスムーズな進行や生産的な結論の導出をサポートして、会議の生産性向上に貢献するとしている。 富士通は今後、生産管理や法務などの業務に特化したAIエージェントを、2024年度中に順次拡充する。 https://pr.fujitsu.com/jp/news/2024/10/23.html 10月21日 更新分
  8. CTCがAIエージェントの構築支援サービス開始、3年間で50億円の売り上げ目指す 伊藤忠テクノソリューションズ(CTC)は2024年10月17日、「AIエージェント」の構築支援サービスを開始 • AIエージェントは、LLMがユーザーの指示を解釈して作業計画を立て、必要な処理を自動で実行するシステム • RPAと比べ、非定型の作業を柔軟に自動化することが可能になる • 構築支援サービスでは「Dify」や「LangGraph」など、オープンソースのLLMアプリケーション開発プラット フォームを組み合わせてAIエージェントを構築する。 •

    AIエージェントの設計や構築のほか、回答精度の評価やチューニング、活用範囲の拡大や変更に伴うデータ ソースの追加など導入後の支援も実施する。 • 記者説明会の席上、CTCの藤岡良樹常務執行役員デジタルサービス事業グループ担当役員はサービス開始の背 景について、「生成AIの活用とR&D(研究開発)の間にある空白地帯を埋め、実際の業務においてより使いや すくする工夫が必要だ」と話した。 https://xtech.nikkei.com/atcl/nxt/news/24/01665/ 10月21日 更新分
  9. NTTデータ/AIエージェントを活用した新たな生成AIサービスを提供開始 NTTデータが生成AI活用コンセプトSmartAgent に基づき、新たな生成AIサービスの提供 第一弾として、営業領域を対象にLITRON Sales を11月から提供開始 • データ入力作業や、提案書準備、契約書作成、社内文書作成などのタスクを自律的に実行 NTTデータが描く生成AI活用の未来像 •

    オフィスワーカーの業務に最適化されたAIエージェントが、複数の専門性を持ったAIエージェントと連携し、 対象業務のタスクを抽出・整理・実行するもの 第二弾として、顧客経営課題分析から提案書作成までを実行するアポ・提案準備機能の提供を2025年3月末までに 予定 https://www.nttdata.com/global/ja/news/release/2024/102401/ 10月21日 更新分
  10. LangChain/Memory for agents LangChainからメモリに関するまとめブログが公開 UXにおいても重要なメモリ • 自分が伝えたことをまったく覚えていない同僚がいて、何度も繰り返し伝えるのは避けたい エージェントのメモリはLLMの外部で記憶する手段が多い Procedural Memory

    • エージェントのアルゴリズムコード、LLMの重み Semantic Memory • 対話や行動履歴から抽出した世界の事実、概念の意味、関連性 Episodic Memory • エージェントの過去の行動履歴 メモリの更新 • リアルタイムかバックグラウンドか https://blog.langchain.dev/memory-for-agents/ 10月21日 更新分
  11. PFN/PLaMoにおけるLLMエージェント能力の分析と改善 PFNのインターン生の記事 • PLaMoのエージェントのツール利用能力をBerkeley Function-Calling Leaderboard (BFCL) V2 で評価 •

    エラー分析の結果からフォーマットエラーが多いことに気づき、対策にguided decodingで指示忠実度を高めた ら改善はしたものの、推論能力とのトレードオフに苦しんだ • 更なるツール利用力の改善にツール利用のためのSFTか、生成の途中で特殊トークン生成以降はjson形式の指 示に従うSFTかの2つを考えて検証 結果 • ツール利用のためのSFTでJSON出力のみを学習させれば、ツール利用能力を向上できる • 特殊トークン生成以降JSON形式の指示に従うSFTは、訓練データに引っ張られ精度改善は部分的だった BFCLv2の評価結果 https://tech.preferred.jp/ja/blog/plamo-llm-agent-ability-analysis-and-improvement/ 10月21日 更新分
  12. jw-automation/AIエージェントによる業務ヒアリングの自動化 AIエージェントに業務ヒアリングをさせるメリット ①エキスパートの知見の再利用 ②品質の標準化とスキルの蓄積 ③人的コストの削減 AIエージェントの実態 ヒアリングのインプット 業務指示書という名の指示プロンプトを書く • 役割の提示、前提条件の指定、ヒアリング全体の流れの指示、各ヒアリングステップの詳細

    • ヒアリング項目の一覧、ヒアリング後のユーザーへの依頼事項、アウトプット生成の指示 • よくある質問一覧、社内用語一覧 ヒアリングのアウトプット • ヒアリングのサマリ、ヒアリングの全文、簡易業務フロー図 ツール • 日付取得、フォルダ生成、 Word出力、業務フロー出力 個人的にどのツールもいらないと思いました。 どれも業務ヒアリングで毎度必要なものに思うので全てアルゴリズムに直接書けばいいと思います。 出力先を変えたければアプリ上で出力形式や保存形式を選択して内部でif-thenルールを書けばいいと思いました。 エージェントに渡すツールは、タスクをこなす上で使うか使わないかケースバイケースなものです。 ヒアリングの様子 https://qiita.com/jw-automation/items/7dd88bb70e0d25e7b06b 10月21日 更新分
  13. DeepLearning.AI/Serverless Agentic Workflows with Amazon Bedrock Amazon Bedrock のエージェント開発の講義動画で中級者向け 以下が学べる

    • スケーラブルなサーバーレスエージェントアプリケーションの構築とデプロイ • ツール、コード実行、ガードレールを統合した行動の実装 • 悪意のあるプロンプトや意図しない出力を防ぐための安全対策 Amazon Bedrock を使用して AI エージェントを作成し、トレースを確認して、最 終出力に到達するまでのエージェントの思考プロセスと観察ループを確認 エージェントが機密情報を漏らしたり不適切な言語を使用したりしないように、 ガードレールを実装 AWS コンソールの Amazon Bedrock のウォークスルーでGUI 上から実行できる https://www.deeplearning.ai/short-courses/serverless-agentic-workflows-with-amazon-bedrock/ 10月21日 更新分
  14. DeepLearning.AI/Practical Multi AI Agents and Advanced Use Cases with crewAI

    マルチエージェント開発フレームワークCrew.AIの発展的なユースケースの講義動画 以下が学べる • 様々なタスクを自動化するマルチエージェントシステムを開発 • LLMとSLMモデルの使い分けでパフォーマンス最適化 • PwC の Commercial GenAI CTO、Jacob Wilson 氏とのボーナス インタビュー プロジェクト計画 プロジェクト進捗レポートの作成 データ分析レポート作成 https://www.deeplearning.ai/short-courses/practical-multi-ai-agents-and-advanced-use-cases-with-crewai/ 10月21日 更新分
  15. MOOC/Enterprise trends for generative AI, and key components of building

    successful agents/applications Burak Gokturk(Google CloudのVP)が、企業向けに AIエージェントの構築のための重要なトレンドや方法に ついて紹介 生成AIの企業向けトレンド 1. AIの加速的な進化 2. モデルの一般化と効率化 3. プラットフォームの選択 4. APIコールのコストが急速な低下 5. LLMと検索の統合 6. エンタープライズ検索/アシスタント 7. 自社カスタマイズ可能な生成AI https://llmagents-learning.org/slides/Burak_slides.pdf 10月21日 更新分
  16. MOOC/ Agents for Software Development ソフトウェア開発はコーディング、バグ修正、テスト、ドキュメント作成などの業務から構成 開発者をサポートするためのコパイロット Github Copilot/Cursor がある

    開発エージェントでもコーディング向けSWE-Agent, Aider や広範囲な開発向けDevin, OpenHands がある コーディングエージェントの課題 • 環境の定義、観測や行動の設計、コード生成、ファイルの位置特定、計画と自己修正、安全性 開発環境には、ソースリポジトリ(GitHubなど)、タスク管理ツール(Jiraなど)、オフィスソフトウェア、コ ミュニケーションツール、テスト環境 ファイルの位置の特定には、手動で指定、リポジトリ全体のマップを作成、リポジトリ内の検索ツール、RAG 計画と自己修正には、プロセスのハードコード化、LLMによる計画生成と実行、結果を見て再度計画を立て直し、 エラーの原因の追及、エラーメッセージに基づく修正 安全性には、Sandbox環境の利用、GitHubのアクセストークンの使用を通じて、エージェントがアクセスできる 範囲を必要最低限にする、エージェントの行動を記録し、後から分析するためのセキュリティ解析ツールを備え る https://llmagents-learning.org/f24 10月21日 更新分
  17. MOOC/ AI Agents for Enterprise Workflows ServiceNowがエンタープライズワークフローのためのエージェントについて講演 LLMエージェントは、目標を達成するために複数のイテレーションにわたって自律的に計画し、行動する能力を 持っている 企業ワークフローは、多くが手作業で行われており、生成AIの導入後も完全な自動化には至っていない

    TapeAgentsの紹介: 「テープ」を読み、そこに考えや行動を書き込むエージェント WebAgentsはより企業向けの一般的なタスクで評価が必要 最後にエージェントのベンチマークとWebエージェント のベンチマークを年表で紹介している https://llmagents-learning.org/slides/agentworkflows.pdf 10月21日 更新分
  18. プロダクト・ニュース リリース • Updated production-ready Gemini models, reduced 1.5 Pro

    pricing, increased rate limits, and more • Introducing the AutoGPT Platform: The Future of AI Agents ブログ • Don't Sleep on Single-agent Systems • Discover the World of AI Agents • Beyond Bots: How AI Agents Are Driving the Next Wave of Enterprise Automation • The agent economy • AI Voice Agentsのテクノロジー採用ライフサイクル • 185 real-world gen AI use cases from the world's leading organizations • Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge) 授業 • Reasoning with inference-time compute • Building a Multimodal Knowledge Assistant • Agentic AI Frameworks & AutoGen 10月7日 更新分
  19. Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate

    limits, and more • Gemini-1.5-Pro-002とGemini-1.5-Flash-002をリリース • Gemini 1.5 シリーズは、幅広いテキスト、コード、マル チモーダル タスクの一般的なパフォーマンス向けに設計 されたモデル • 1,000 ページの PDF の理解、1 万行を超えるコードを含 むリポジトリに関する質問応答、1 時間の動画を取り込 んでコンテンツを作成できる • 精度も全体的に向上している https://developers.googleblog.com/en/updated-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/ 10月7日 更新分
  20. Introducing the AutoGPT Platform: The Future of AI Agents AutoGPTのCEO兼クリエイターであるToran

    Bruce Richards氏が新たな「AutoGPTプラットフォーム」を発表 • ローコードワークフロー: 直感的なインターフェースで複雑なワークフローを簡単に作成し、コーディングの専 門知識が不要で特定のタスクを実行する • 自律的なエージェント: クラウドベースのエージェントが自動的にタスクを実行し、関連するトリガーで起動 • ユースケース:トレンド動画の作成、複雑な情報の分析 https://agpt.co/blog/introducing-the-autogpt-platform AutoGPTプラットフォームの画面 10月7日 更新分
  21. Don't Sleep on Single-agent Systems ソフトウェア開発エージェントのOpenHandsを開発したCMUの教授の経験からマルチエージェントシステムの流 行に対して、課題を述べ、シングルエージェントシステムの利点を主張 LLMとプロンプトと行動空間を定義すればエージェントは作れる。 マルチエージェントの場合、これらの3つのうち少なくとも一つを変更して作られる。 マルチエージェントシステムの問題

    • 構造の適合性 システムの構造が問題に適合しない場合、エージェント同士の相互作用が不十分となる • コンテキストの維持 複数のエージェント間で情報を伝達すると、情報の損失が発生しやすい • メンテナビリティ 各エージェントが独立したコードベースやプロンプトを持つため、システムの保守が難しくなる シングルエージェントでもマルチエージェントと同様のことを実現できることを説明している。 https://www.all-hands.dev/blog/dont-sleep-on-single-agent-systems 10月7日 更新分
  22. Beyond Bots: How AI Agents Are Driving the Next Wave

    of Enterprise Automation エージェントはエンドツーエンドのプロセスを動的に自動化できる エージェントはRPAの復活か? • RPAのUiPath と Zapier は、部門や業界固有のシステム内およびシステム間の業務プロセスのロングテールに 対応し、ルールベースの水平自動化プラットフォームの市場を証明した • しかし依然として人間と手作業が多数存在し、脆弱なUI自動化、非構造化データを処理できない課題があった • エージェントは新しい状況に適応でき、複数ステップのアクションが有効で、頑健であることが知られている ため都合がいい エージェントの種類 • 企業向けエージェント:新入社員に渡すような自然言語の SOP やルールブックを使用して、複数の機能とワー クフローによりエージェントを構築 • ブラウザエージェント: Web コンポーネント、その機能、およびインタラクションを「理解」して、Web ブ ラウジング、視覚的な UI アクション、およびテキスト入力を自動化 • 垂直エージェント:BPO企業や請負業者にアウトソースしている内容の自動化(顧客サポート、採用、コード レビュー、テスト、メンテナンスなどの特定のソフトウェア開発タスク、コールド セールスのアウトバウンド、 セキュリティ操作) https://menlovc.com/perspective/beyond-bots-how-ai-agents-are-driving-the-next-wave-of-enterprise-automation/ 10月7日 更新分
  23. 185 real-world gen AI use cases from the world's leading

    organizations Google Cloudの生成AIソリューションを活用し、世界中の企業、政府、研究機関、スタートアップがどのように AIを導入しているかを紹介。以下の6つの分野に分けて事例をまとめている。 顧客エージェント 顧客と直接対話し、質問への対応や商品推薦 • 従業員健康保険、旅行代理店、大学のコーチ、転職支援、レース解説、ガーデニング 従業員エージェント 従業員の日常業務をサポートし、プロセスの効率化や意思決定を支援 • カスタマーサポート、議事録やメール作成、法務と規制のドラフト作成、スケジュール管理 コードエージェント 開発者の生産性向上を目指し、コードの作成、レビュー、バグ修正を支援 • プルリクエストの要約、チケットからコードへの変換、データエンジニアリング、MLの評価とデバッグ データエージェント データ分析や予測をサポートし、迅速かつ正確な意思決定を支援 • 医療データ解析、地理空間による地域計画、インフラと建設管理、特許文書をNLP解析 セキュリティエージェント セキュリティインシデントの監視、対応、調査を自動化 • サイバー脅威の検出、セキュリティ監視、脆弱性管理、コンプライアンス管理 クリエイティブエージェントデザインやマーケティング業務を支援し、クリエイティブプロセスを加速 • 地域に応じた製品写真を自動生成、広告のパーソナライズ、デザイン支援、動画生成と編集、商品説明の自動生成 https://blog.google/products/google-cloud/gen-ai-business-use-cases 10月7日 更新分
  24. Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge) LLM-as-Judge についてまとめた記事 ベースラインは何か:人間のアノテーター、小規模な微調整された評価モデル

    スコア方法:単一応答の評価、ペアワイズ比較、リファレンスに基づく評価 評価指標:分類指標、相関指標 ユースケース:毒性の評価、要約品質の評価、事実性の評価、質問応答 LLM評価を適用するベストプラクティス • タスクの性質を決定する 客観的なタスク(例:事実性、毒性、指示遵守)には直接評価を使用 主観的なタスク(例:トーン、説得力、文体)にはペアワイズ比較を使用 • 適切な評価指標を選択する 二値の結果には分類指標(リコール、適合率)やCohen’s κを使用 リッカート尺度にはSpearman’s ρやKendall’s τなどの相関指標を使用 • ユースケースの考慮 開発中の評価には、CoTとFSLを使用したプロンプト手法を活用 本番環境でのガードレールが必要な場合、分類器や報酬モデルの微調整を検討 https://eugeneyan.com/writing/llm-evaluators/ 10月7日 更新分
  25. Reasoning with inference-time compute Sean Welleck(CMU)が9/20に発表した資料 推論時の計算スケーリング 背景: 2020年以降、モデルやデータセットの規模を拡大することによるスケーリング側が示されている。 最近の研究では、推論時の計算を増やすことで、さらなる性能向上が可能になることが示唆されている。

    技術手法: 推論時に「思考トークン」を追加生成する方法や、複数回生成を呼び出して解決策を得る手法がある 今後の課題: 新たなスケーリングの次元が導入されたため、さらなる研究が必要 Lean-STaR(推論を織り交ぜた学習) 目的: 数学的証明のようなタスクで、モデルが各ステップの前に「考える」ことを学習できるかをで検討 結果: 探索予算が増加するにつれて、思考を伴ったモデルの方が効率的に動作することが確認された 強力な評価者の活用 背景: 複雑なタスクに対しては、人間の評価者だけでは限界があるため、より強力な自動評価器が必要 手法: easy-to-hard generalizationのアイデアを用いて、簡単な問題で訓練された評価器を用いて、難しい問題にも対応できるようにする。 例えば、思孝のステップレベルの正誤を評価するプロセス報酬モデルと結果のみを評価するアウトカム報酬モデルが提案されている。 推論時の計算リソースの最適化 問題提起: 計算リソースは有限であるため、どのようにリソースを割り当てるべきか、計算コストと性能のトレードオフを最適化する課題 手法: Best-of-N、 Weighted majority voting、MCTS、REBASE Tree Searchが提案されている 結論: REBASE Tree Searchが限られた計算リソースを動的に最適化し、最も少ないリソースで最大限の推論精度を引き出す手法 10月7日 更新分
  26. Building a Multimodal Knowledge Assistant & Agentic AI Frameworks &

    AutoGen バークレーのAIエージェントの講義の第三回「マルチモーダル ナレッジ アシスタントの構築」と「AutoGen」の 資料の要約 • LlamaIndexは、企業データを活用したLLMアプリの開発を支援できるツール • マルチモーダルRAGやエージェントによるレポート生成に使えることを紹介 • マルチエージェント開発フレームワークのAutoGenの実装方法を解説 • エージェントの種類をPersonal assistants、Autonomous robots、Gaming agents、Science agents、Web agents、Software agentsあげている https://llmagents-learning.org/slides/autogen.pdf https://llmagents-learning.org/slides/MKA.pdf 10月7日 更新分