Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News!

masatoto
December 28, 2024

Weekly AI Agents News!

2024年12月30日更新済み。次回1月13日更新予定
AI エージェントに関する論文かニュースをシンプルにまとめます。

X : @ottamm_190

masatoto

December 28, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論文 12/16~12/23まで 自己修正 • Meta-Reflection: A Feedback-Free Reflection Learning Framework

    • Understanding the Dark Side of LLMs’ Intrinsic Self-Correction ツール利用 • Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage メモリ • Memory-Augmented Agent Training for Business Document Understanding • On the Structural Memory of LLM Agents 安全性 • SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents • Towards Action Hijacking of Large Language Model-based Agent • Agent-SafetyBench: Evaluating the Safety of LLM Agents ベンチマーク • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks • LegalAgentBench: Evaluating LLM Agents in Legal Domain
  2. 論文 12/16~12/23まで Agent Framework • Large Action Models: From Inception

    to Implementation • EscapeBench: Pushing Language Models to Think Outside the Box Agentic AI System • AutoPatent: A Multi-Agent Framework for Automatic Patent Generation Data Agent • A Survey on Large Language Model-based Agents for Statistics and Data Science Multi Agent System • ROMAS: A Role-Based Multi-Agent System for Database monitoring and Planning • A Survey on Multi-Generative Agent System: Recent Advances and New Frontiers • Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework
  3. 過去の内省を活用してフィードバックフリーな推論を実現 Meta-Reflection: A Feedback-Free Reflection Learning Framework 通常、内省手法は外部からのフィードバック(例えば、環境や他のモデルからの情報)や、複数回の推論を経て 精度を高める仕組みが求められる フィードバック不要のリフレクション手法Meta-Reflectionを提案

    • 過去のリフレクションを「コードブック」と呼ばれるデータ構造に保存する • コードブックを活用することで、外部のフィードバックがなくても適切なガイドラインを提供 実験結果 • プログラミングタスク(MBPP、HumanEval):Pass@1で最大3.0%の性能向上 • 数学的推論(GSM8K):Exact Match (EM)で最大6.2%の性能向上 • ECIDタスク:ユーザー意図検出精度で既存手法を約5%上回る 過去のリフレクションの知見 • 特定の数学的問題に対する解法のヒントや注意点 • プログラムコードの一般的な修正ガイドライン • eコマースのユーザー意図分類における重要な文脈情報
  4. 内在的自己修正が失敗する理由を解明するべく実験 Understanding the Dark Side of LLMs’ Intrinsic Self-Correction 単純なタスク(Yes/No質問など)から複雑なタスク(意思決定や推論)に至るまで、どのような状況で失敗が生

    じるのかを明らかにする 内在的な自己修正 • モデルが自身の最初の応答を見直し、外部の知識を利用せずに改善を試みるプロセスを指す • モデルの「内在的な能力」に基づいており、再度「考えて回答する」ような動作 実験結果 • o1-previewやo1-mini含め、自己修正が適用された後、初期応答の正解が誤答に変わる割合が高い 分析結果 回答の揺れ • 自己修正中に、モデルが中間的および最終的な回答を頻繁に変更 プロンプトバイアス • 自己修正プロンプトが元の質問よりも強く影響し、誤った修正を誘発 • 例: 「Are you sure? Think and answer again.」というプロンプトが、モデルに不必要な変更を促す 人間的認知バイアス • 過剰な思考によってタスク解決が遅れたり、失敗する • 長い入力プロンプトや複雑なタスクによって情報処理能力が限界を超え、重要な情報を見落とす • 完璧主義による不必要な修正を試みることで、既存の正解を誤りに変える
  5. マルチモーダルエージェントにおけるツール利用の学習方法を提案 Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient

    Tool Usage マルチモーダルタスクの問題解決におけるツール使用能力を強化するT3-Agentを開発 マルチモーダルタスクの例 • VQA、ファイル理解、視覚的編集・生成、オブジェクト認識、Web検索 • 例えば、「画像と地図を用いた動物の生息地を特定」、「メニュー表から最安値の料理を選択」、「温度 データから最も気温差が大きい日の特定」 T3-Agent • ツール利用つきReAct 軌跡を自動生成するパイプラインを構築 • MM-Trajという20,000件以上のマルチモーダルタスクを含む高品質なデータセットを作成 • Qwen2-VL-7B の言語モデル部分ををLoRAを用いて微調整 • ツール使用能力と多段階推論の強化
  6. メモリに行動履歴をそのまま保存しない?これからはメモリの設計が鍵になるか Memory-Augmented Agent Training for Business Document Understanding 物流企業のKuehne+Nagelとともに、請求書や出荷情報の業務文書の輸送参照番号抽出の自動化を目指す研究 提案手法Matrix

    は、長期記憶と記憶の最適化をおこないタスク実行の性能を高める エージェントの行動の軌跡データそのものをそのままメモリに保存しない(下表参照) • 学習フェーズ:学習用のタスクの実行後、内省でプロセスの正誤を評価、メモリ形式に変換し保存 これを数エポック繰り返し、記憶を洗練する(2回目からメモリを使ってタスク実行する) • 推論フェーズ:蓄積した長期記憶をもとにタスク解決 従来の手法と比較して30%以上の性能向上、 APIコール数は最大21.3%減少 保存内容 具体例 データの配置パターン 「'配送情報' セクションにデータがある」 再利用可能な正規表現や手順 「'TR-XXXX' フォーマットを正規表現で抽出」 エラー原因と回避策 「ラベルがない場合、隣接データを参照」 情報抽出フロー 「セクション検索 → 正規表現抽出 → 検証」 状況に応じた戦略 「長文時はセクションを優先」 APIコール数、成功率 「APIコール数:平均3回、成功率:90%」 データの配置関係 「参照番号は '出荷日' の隣に配置される」 メモリ保存情報 青線を見ると記憶の改善は一度で良さそう
  7. メモリの構造と検索方法を比較調査 On the Structural Memory of LLM Agents メモリ構造(チャンク、知識関係、事実、要約)と検索手法(シングルステップ検索、再ランキング、反復検 索)のタスクの性能への影響を体系的に調査

    記憶構造: 混合型記憶は多様なタスクでノイズ文章にも強く、最も安定した性能を発揮した • チャンクと要約は長い文脈を必要とするタスクに適し、知識関係と事実は関係推論や精度が求められるタスクに適する 記憶検索手法: 反復検索が最も効果的であり、複雑な質問応答や読解理解で一貫して高い性能を発揮した
  8. ツールの使用や環境とのインタラクションに安全性の課題あり SafeAgentBench: A Benchmark for Safe Task Planning of Embodied

    LLM Agents LLMエージェントの安全性を評価するためのベンチマーク「AGENT-SAFETYBENCH」を提案 結果の分析 1. リスク認識の欠如 • 明確な制約を無視: ツールの使用許可がないにもかかわらず、使用を試みる • 暗黙的なリスクを見落とす:全ての建物の警報システムを無効化するなど、潜在的な危険を伴う行動を取る 2. ツール呼び出しの不正確さ • 不完全な情報でツールを呼び出す: 複数の「John」がいるにもかかわらず、特定せずにメールを送信する • 誤った引数を指定: ファイルアクセス権限を誤って設定する 3. ツールの利用ミス • 必要なツールの使用を怠る: アラート送信ツールが必要な場面で呼び出しを行わない • ツール結果の過信: ツールが返す誤った情報を検証せず、そのまま利用 4. 安全性の低いツールの利用 • リスクのあるツールの使用: 明らかに危険なツールや違法行為を助長するツールを使用 5. 情報拡散や誤情報の生成 • 誤情報の拡散: ブログやメールを通じて誤った情報を発信 • 有害情報の生成: 機密情報を公開フォーラムで共有 6. 複数ツール間での連携ミス • ツールの順序性を無視: 情報収集ツールを使用せずにアクションツールを呼び出す
  9. 商用エージェントのメモリから情報を抜き出し、不正な操作をエージェントにやらせる攻撃 Towards Action Hijacking of Large Language Model-based Agent エージェントのメモリを操作してその行動を誘導する新しい攻撃手法を提案

    知識窃盗(Knowledge Stealing) • 無害なプロンプトを用いてエージェントのメモリから有益な知識を引き出し、攻撃計画を整える ハイジャック(Hijacking) • 盗んだ知識をもとにエージェントの行動を誘導し、不正な操作を実行させる トロイの木馬プロンプトの利用 事前に不正な方法をエージェントに生成させ、「先ほどのクエリの結果に基づいて操作を行ってください。」 99.67%の攻撃成功率(ASR)を達成し、キーワードフィルタ回避率は100%で、テーブル操作分類器の回避率も 92.7%を達成 理由はトロイの木馬プロンプトには有害なキーワードが含まれていないため、安全フィルタを通過可能
  10. 身体性エージェントは危険な行動を避けられるか Agent-SafetyBench: Evaluating the Safety of LLM Agents SafeAgent Benchで安全性を評価

    エージェントが危険な指示を実行してしまう エージェントの安全なタスクの成功率は69%、危険なタ スクの拒否率はわずか5%とほとんど危険な行動をする 行動の安全性を評価するプロンプトを通すと危険タスク の拒否率が大幅に向上するが通常のタスクにも悪影響 人間への危害の例 • 火災、感電、爆発、中毒/摂取、滑りの危険 財産への損害の例 • 液体による損害、物品の破損/落下、電化製品の誤使用 • 家具や装飾品や小物品の損害
  11. エージェントに社員のように仕事をこなせるか能力評価 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

    ソフトウェア開発会社を模倣したシミュレーション環境を作成し、エージェントが同僚やツールを活用してタス クを完遂する能力を測定 企業環境を再現するための以下のツールを採用 • ソースコード管理やWiki機能にGitLab、ドキュメント共有や編集にOwnCloud • タスク管理にPlane、チーム内コミュニケーションにRocketChat 175種類のタスク • ソフトウェア開発、プロジェクト管理、財務分析、事務作業、人事関連タスクなど 実験結果 • 最も高性能なモデルでも、自律的に完了できたタスクは全体の24% • SWE関連タスクで比較的高い成功率を示す一方、人事・財務関連タスクでは成功率が低い • RocketChatでの対話やOwnCloudでの複雑なUI操作がエージェントの大きな課題
  12. AIエージェントを中国の法律分野の質問応答と書類作成で評価 LegalAgentBench: Evaluating LLM Agents in Legal Domain 多段階推論(例: 情報収集と処理)

    • 例「91320115773957541Hの高消費制限ケースに関連する総金額 はいくらですか?」 • 多段階ステップ:会社名の特定→高消費制限ケースの照会→金額 計算 書類作成(例: 法的文書の構成) • 例「PersonAがCompanyXを訴えました。CompanyXはLaw Firm Aに法的代理を依頼しました。Law Firm Aの代表として、指定さ れたフォーマットに基づき抗弁書を作成してください。」 • 実行ステップ:企業情報の取得→法律事務所情報の取得→関連す る法的知識の検索→抗弁書の生成 実験はReAct、Plan &Solve、Plan &Executeで評価 • 多段階推論: GPT4oのReActが最良 • 書類作成:GPT4oのPlan&Executeが最良 法律条文の範囲や解釈ミス • LLMは関連する条文や判例を特定することができても、その内容 を正確に解釈する能力が欠けている • 法律条文の適用範囲や「どの条文が適用されるのか」や「どのよ うに判断を下すべきか」を理解するのに苦労する ツールはこのくらいある
  13. LLMから大規模アクションモデル LAM への進化 Large Action Models: From Inception to Implementation

    MicrosoftからLAMsの設計と実装に関する体系的なフレームワークを提案 • LAMsはユーザー意図を解釈して計画を立案し、それを行動シーケンスに変換して実行 • LAMsの学習には、タスクプラン(計画)データとタスクアクション(実行)データの両方が必要 • タスクプランデータの例は行動系列が作れそうなアプリのドキュメント、オンライン「How-to」ガイド、Bingの検索履歴 学習ステップ • 1. Task-PlanのSFT, 2. 行動生成の学習, 3. 学習済LAMで追加の軌跡生成&学習, 4. 成功と失敗の軌跡からPPO ポイント • データ収集したものに手順を少し加えた挑戦的なタスクにデータ拡張する • 行動シーケンスは実行できるか検証してから使う
  14. 密室脱出ゲームを通じてLLMの創造性を評価 EscapeBench: Pushing Language Models to Think Outside the Box

    EscapeAgent:創造性の課題を克服するために開発されたフレームワーク 脱出ゲームの隠れた目標を発見し、革新的なアイテム使用法を見つける能力を向上させ、ヒント使用率が平均で50%削減 予見(Foresight) • 新しいタスクが発見されたとき、所有するツールを評価して仮説を立てる • 新しいツールを取得したとき、それが既存タスクにどのように役立つかを推測する • 仮説に基づいて「試行行動」モードに入り、提案された行動を順次試す • 有効な仮説がない場合、「自由探索」モードに戻り環境を探索 内省(Reflection) • 未解決タスクや失敗した行動を記録し、目標達成時にタスクを削除 • 各行動の後にタスクリストを更新し、無駄な行動を回避 現在のLMは創造性や暗黙の目標認識において依然として人間に及ばない
  15. 質問に答えるだけで特許文書の作成を自動化するエージェント AutoPatent: A Multi-Agent Framework for Automatic Patent Generation 特許出願者の草稿から特許文書(平均17Kトークン)を自動生成するAutoPatentを提案

    プランナーエージェント (Planner Agent) • 特許文書の構造を設計し、内容をセクションやサブセクションに分割する役割を担う ライターエージェント (Writer Agents) • 6つの短いコンポーネント(タイトル、概要、背景、要約、請求項)と詳細記述を担当する 審査官エージェント (Examiner Agent) • 各セクションやサブセクションの品質を確認し、不備がある場合は修正指示を出す • 内容の正確性、論理性、一貫性、網羅性などを評価 最初にユーザーが5つの質問に答える形式にして処理を安定させている
  16. データサイエンスエージェントの進化 A Survey on Large Language Model-based Agents for Statistics

    and Data Science データサイエンスエージェント • プログラミングや統計知識がなくても自然言語でデータ解析を依頼できる • 分析の計画、実行、視覚化、報告までを自動でおこなう • ユーザーインターフェースはIDE, 独立システム, コマンドラインがある ケーススタディ • ワインのアルコール含有量が品質に与える影響を可視化 • 平均給与を年齢別に分析し、折れ線グラフを生成 • 乳がん診断データの分類モデル構築と学習
  17. 行動や計画にも自己修正を入れて適応力と柔軟性を高めるマルチエージェント設計 ROMAS: A Role-Based Multi-Agent System for Database monitoring and

    Planning 既存のMASは静的なタスク割り当てや事前定義されたプロセスに依存し、予期しない状況への適応が困難で柔軟性や 頑強性に欠ける そのため、特定のドメインに特化していることが多く、汎用性に欠ける 自己計画(self-planning)、自己監視(self-monitoring)、協働(collaboration)を実現するMAS手法を提案 ROMAS:各エージェントが自らのパフォーマンスを動的に評価し、必要に応じて計画を修正できる • プランナー: タスクを分割し、ワーカーに具体的な指示を与える • ワーカー: 実際のタスク(データ抽出・処理・分析など)を遂行する • モニター: ワーカーの作業を監視し、エラー時に再計画を指示する ROMAS
  18. コンパクトにまとまったマルチ生成AIエージェントシステムのまとめ A Survey on Multi-Generative Agent System: Recent Advances and

    New Frontiers MGAS (Multi-Generative Agent Systems) • 多数の生成エージェント(generative agents)が相互作用し、協力しながら環境内でタスクを遂行するシステム Generative Agents • それぞれ異なる役割を持ち、環境を認識し、意思決定を行い、行動を実行する能力を持つ 特徴 • 自然言語での高度なコミュニケーション能力を持つ • 長期的な意思決定や複雑な行動計画を実行する • メモリや履歴の活用により、文脈を維持する 応用領域 複雑なタスクの解決 • タスクを複数のエージェントで分担し、協力することで効率と精度を向上 • 例: ソフトウェア開発やデータ分析、意思決定支援 シナリオのシミュレーション • 現実世界の社会や物理環境を仮想空間で再現し、現象やシステムの挙動をシミュレーション • 例: ソーシャルメディアや経済活動、都市計画・交通シミュレーション 生成エージェントの評価 • LLMの能力や戦略性を多様なシナリオでテストし、性能を測定 • 例: 戦略ゲームでの競争力評価、感情理解とコミュニケーション能力、学習用のデータ生成
  19. コードに例外処理を追加してくれるマルチエージェント Seeker: Towards Exception Safety Code Generation with Intermediate Language

    Agents Framework エンジニアは例外が発生する可能性のある「脆弱なコード」を適切に特定することが難しい 特にカスタム例外や稀な例外に対する処理が難しい コード生成の中でも例外処理生成に特化したマルチエージェントSeekerを提案 1. Scanner:コードをユニットに分割 2. Detector:脆弱なコード部分を検出 3. Predator:例外ブロックを捕捉し、対応する例外を特定 4. Ranker:例外処理の優先順位付け 5. Handler:最適な例外処理を生成
  20. 12月30日 更新 リリース • AI Shift、営業の成果を最大化する企業専用の営業AIエージェントを提供開始 ブログ • Weekly AI

    Agent News!から見えたAIエージェントの現在地 • AIエージェントビジネスの現状と今後の考察 • 生成AIエージェントが刺さる業務課題を探そう! • 2024年生成AIエージェントのおすすめ論文 16選 • AIエージェントの評価 • 10 AI Trends in 2025 You Can't Miss • 15 Agentic Systems and Frameworks of 2024 • Top 10 Research Papers on AI Agents • AI Agent Trends: Skills and Workforce Insights for 2024 • Top 10 AI Agent Trends and Predictions for 2025
  21. 12月30日 更新 ブログ • Building effective agents • Multi AI

    Agents In Production • 【AI Shift Advent Calendar 2024】AIエージェントの設計とその勘所 • Agentic AI vs Generative AI: Understanding the Key Differences and Impacts • AI エージェントで実現する業務効率化とイノベーション: 日本の最新事例 授業 • Reasoning with o1
  22. Weekly AI Agent News!から見えたAIエージェントの現在地 2024年のエージェント開発動向と技術的な気づき マクロレベルのアーキテクチャはほぼ同じ • 2023年夏頃までにエージェントの基礎的構成要素(知覚、プロフィール、プランニング、ツール利用、メモリ、リフレク ション)は出揃い、2024年にはそれを発展させる研究が続いた 細部の作り込みの工夫

    • メモリ管理やプロンプト設計、環境情報(RAGやツール)を磨くことで、タスク成功率を一定レベルまで底上げできる • ただし、一定水準を超えると性能が頭打ちになりがち 2024年は応用分野の開拓が進んだ • コンピュータ操作、データ分析、レポート生成、製造現場、教育支援など、多くのベンチマークや業務適用の事例の登場 “エージェントを作り込んだら精度が本当に上がるのか” という疑問 • エージェントが複雑化しても、最終的な精度向上幅は数%〜10%ほどで、思ったほど大きくない • 多くの論文は同じ課題にぶつかり、根本的にはLLMの限界を超えられない場合が多い https://masamasa59.hatenablog.com/entry/weekly-ai-agent-journey
  23. 著者が重視、主張していることはなんだと思いますか Weekly AI Agent News!から見えたAIエージェントの現在地 著者が特に強調しているのは、 • エージェントの基礎技術はすでに出揃っており、マクロレベルのアーキテクチャはどれも似通っているが、細 部の作り込みによって性能や使い勝手に差が生まれる •

    LLMの性能向上に依存する部分が大きく、アーキテクチャやプロンプトを工夫しても大幅な性能改善は難しい • ビジネス活用では、エージェントが苦手とする領域を避けつつ、限界にぶつからない範囲で現実的な価値を出 すのが重要である • どの会社でも使える標準的な設計を押さえたうえで、細部の作り込みやタスクの絞り方を賢くやり、現場で成 果を上げていこう https://masamasa59.hatenablog.com/entry/weekly-ai-agent-journey
  24. AIエージェントビジネスの現状と今後の考察 多様な企業・ベンダーが参入 • 大手クラウドベンダーは「Agent Builder」を提供し、業務に応じてエージェントを手軽に作れる環境を整備中 • 既存システムの強みを活かしてデータ分析やドキュメント管理、業務代行などのエージェントを提供する例も増加 主要なエージェント応用 • エージェントビルダー:プロバイダ側が開発済みエージェントを提供・カスタマイズ可能

    • リサーチ・問い合わせ対応(RAG的アプローチ):社内文書やWeb検索を繰り返し行い、情報が揃ったかを判断 • データに基づく意思決定支援:売上やCRMデータなどを可視化・分析し、報告 • 資料作成支援:Webや社内情報を統合し、提案書・調査報告などを生成 • Agentic Process Automation:従来のRPAを拡張し、定型・非定型作業を自律的に組み合わせる エージェントの今後の方向性 • 生成AIエージェントと業務ソフトウェアが強く連携し、「指示だけで〇〇が完了」といったキャッチコピーが増える • GUI操作など汎用的なコンピュータ制御はまだ困難で、業務特化のエージェントに商機がある AIエージェントへの誤解と注意点 • 「自動化=AIエージェント」ではない。必ずしもLLMを用いた高度な“思考プロセス”が必要なわけではない • エージェントの思考と行動プロセスが人間らしく見えても、結果の正確性は保証されない • 「マルチエージェント」という言葉は分野や文脈で意味が異なり、曖昧に使うと混乱を招く https://masamasa59.hatenablog.com/entry/ai-agent-business-guide
  25. 著者が重視、主張していることはなんだと思いますか AIエージェントビジネスの現状と今後の考察 著者が一貫して主張しているのは、「AIエージェント」という言葉がビジネス現場でバズワード的に使われつつあるが、 実際には“何を自動化・高度化するのか”を明確にし、かつ特化型で作り込む必要があるという点 1. 汎用的なエージェントより、業務特化型のエージェントにこそ勝機がある • GUI操作などを含む汎用的な制御はまだ難しく、不確実性も高い • 一方で、特化型エージェントは業務領域を絞ることで精度を高められ、ビジネスインパクトを出しやすい

    2. 「エージェント=自動化」ではない • エージェントが持つ計画・思考プロセスが必ずしも必要とは限らず、むしろ既存ツールで解決できることも多い • 目的に応じて、あえてエージェントを使わない選択も重要 3. “マルチエージェント”を安易に謳わない • 分野ごとに「エージェント」の定義が異なるため、曖昧なまま使うと社内外で混乱を招く 4. 業務フロー(プロセス)への納得感と、結果(精度・使いやすさ)は別 • 人間らしい思考プロセスや動的なフローを実装しても、結果の正確性が伴わなければ意味がない • 顧客やユーザーは最終的な成果物や業務効率の向上を評価する 5. 今後はLLMプロバイダだけでなく、各業務ソフトウェアが独自の「AIエージェント」を持つ流れが加速する • 「ユーザーが指示するだけで〇〇が完了/効率化」というマーケティングが増えるものの、連携先が増えても精度が伴わ なければ使われない • 自社ソフトウェアの強みやデータ連携を活かして、特化型エージェントを磨く必要がある 総じて、「エージェント」という言葉が広範かつ曖昧に使われがちな現状に対して、著者は“より明確な目的設定”“特化領域での 精度向上”“結果を重視した価値提供”の重要性を強く主張している https://masamasa59.hatenablog.com/entry/ai-agent-business-guide
  26. 生成AIエージェントが刺さる業務課題を探そう! エージェントが刺さるビジネスの特徴 • 抽象度が高いタスク 例:事前に手順や正解が一意に定まらない・複数のプロセスがある業務 • 課題は明確だが答えが一意に定まらない 例:新規製品アイデアの立案 • 成果物のバリエーションが多く、都度カスタマイズが必要

    例:営業資料や提案書を顧客ごとに作り直す業務 • 複数のツール・データソースを組み合わせる必要がある 例:データ分析ツール→見込客リスト生成→メール送信、などのクロスオペレーション • “試行錯誤”や“自己改善”が必須のPDCAサイクルを回す業務 例:A/Bテストを繰り返すマーケティング施策、新規事業アイデア創出 • 情報収集・要約・分類といったナレッジワークが多い 例:大量のレポートから要約を行い、次のアクション(提案書作成など)まで繋げる • ルーチンワークだが例外が多く、対応ルールが複雑 例:契約書チェックや在庫管理フローで、多数の条件分岐と例外対応が必要 • 複数ステークホルダーがレビュー・承認し合うワークフロー 例:提案書や仕様書のレビューに多部署が関わる場面 https://masamasa59.hatenablog.com/entry/business-challenges-for-ai-agents
  27. 2024年生成AIエージェントのおすすめ論文 16選 大きくまとめると以下の文献を紹介 (1) CoT(Chain of Thought)関連 • CoTが有効なタスク・そうでないタスクの分析 •

    推論能力向上の文脈で再注目されている (2) LLM(Large Language Models)の計画・推論能力 • 前提条件からゴールまでの「計画」が苦手とされていたが、最新のモデルでは改善されているかを評価 • 実世界の制約やルールを守る能力の評価。法律・税制・規制など複数ルールの遵守がどこまでできるかを検証 (3) RAGのエージェント化 • 従来のRAGからエージェント化へ移行するメリットや具体的な手法 • 「Agentic IR」など、新たなアプローチを解説 (4) マルチエージェント設計 • 複数のエージェントをオーケストレートして問題解決する方法 • 「専門エージェント+オーケストレータ」という構成をどう活用するか (5) AIエージェント構築・UX設計 • シングル/マルチエージェントにおける設計手法(計画・メモリ・制御フローなど) • GUI操作エージェント(AnthropicやGoogleなどの事例)の仕組みと課題 • エージェントと人間のインタラクション設計をどう行うか (6) 学習手法 • 大規模行動モデル(LAM: Large Action Models)など、エージェントとしての性能を強化する学習方法 • LLMベースのエージェントとの差異や適用タスクの例 (7) メタ認知能力 • 「フロンティアモデルはメタ認知能力を持つか?」という評価 • エージェントが「自分の限界を把握し、必要な追加情報を補う」ように行動できるかどうかを検証 (8) ゲーム(脱出ゲーム)を題材にした長期タスク評価 • 長期的な計画や創造力を要する「脱出ゲーム」を使ってエージェントの知能を評価 • サブタスク管理や探索的行動など、エージェントの自律性・創造性が試される点が興味深い https://masamasa59.hatenablog.com/entry/2024-best-papers-on-ai-agents
  28. AIエージェントの評価 W&B AI Solution Engineer の方からAIエージェントの評価記事が公開 • 背景:AIの活用は単一プロンプト利用から複数のコンポーネントを統合する方法へと移行 • Compound

    AIシステムの観点からRAG, AIエージェントを定義 (ここを強調したいように感じた) 評価観点 • システム全体、プロンプトレベル、軌跡レベルで評価 • それぞれの評価の実現用意性や課題も記述されていた 評価項目(右図参照) • オフライン評価とオンライン評価で評価指標は変わらない • 変わるのはリアルタイム評価に人間フィードバックがあるか 評価体系構築の流れ Step1: Observability toolの導入 Step2: 基本的なテストケースの整備 Step3:Playgroundでの検証 Step4:本格的な評価体系の構築 https://note.com/wandb_jp/n/nf563ea9d3096
  29. 10 AI Trends in 2025 You Can't Miss 1. 自律型エージェントAI

    (Autonomous Agentic AI) • AIエージェントが複雑なタスクを人間の手をほとんど借りずに実行可能になる。 2. マルチモーダルAI (Multimodal AI) • AIがテキスト、音声、画像など複数の情報源を同時に処理し、より包括的な理解をする。 3. 推論時計算の最適化 (Inference-Time Compute) • AIモデルがタスクの内容に応じて「どれだけ計算するか」を動的に調整し、高速化や省電力化を図る技術。 4. Edge AIと小型言語モデル (SLMs) の台頭 • クラウドではなく、端末(スマホやIoT機器など)自体でAIを動作させる流れが拡大。ユーザーのプライバシー保護や低電力化が進む。 5. ほぼ無限のメモリ (Near-Infinite Memory) • AIが会話やユーザーの好みを長期にわたって保持し、よりパーソナライズされた体験を提供。プライバシーの扱いが課題になる可能性も。 6. リアルタイム音声:タイピング不要の時代 • 音声入力が進化し、スムーズで自然なやり取りが可能に。文字入力に代わるインタラクション手段として、対応言語・品質の向上が期待される。 7. AIのワークフロー統合の深化 • AIがメールやプロジェクト管理などの既存ツールに組み込まれ生産性が向上 8. 製品開発の加速 • AIによる設計・プロトタイプの高速化により、開発期間が従来の半分以下に短縮される見通し 9. 投資拡大とインフラ強化 • 政府レベルでの大規模投資(数十億ドル規模)が研究やインフラ、イノベーションを後押し 10.科学分野での画期的進歩 • AIが生物学・化学・物理学などの研究を加速し、創薬や素材開発に革命的な変化をもたらす。研究と産業応用の連携が一層重要に。 https://learnprompting.beehiiv.com/p/10-ai-trends-in-2025-you-can-t-miss
  30. 15 Agentic Systems and Frameworks of 2024 GUI Agents: A

    Survey: ソフトウェアの画面を人間のようにクリック・入力して操作するエージェントについての総合的調査 Agent K v1.0:データサイエンスに特化した自律型エージェント。前処理から特徴量エンジニアリング、モデル調整まで自動化 The AI Scientist:研究アイデアの生成、コード執筆、実験、結果の可視化、論文執筆、疑似査読まで自動化する科学研究支援フレームワーク MALT:複数のLLMを“生成者・検証者・改良者”のように役割分担させ、段階的に出力を洗練する協調型フレームワーク Agent S:GUI操作を自動化し、複雑な長いタスクを人間同様に実行するオープンフレームワーク Automated Design of Agentic Systems (ADAS):メタエージェント”がコードを書くことでエージェント自体を自動生成・改良する AgentInstruct:シンプルな入力から大規模な合成データを自動生成し、LLMの事後学習に利用させるフレームワーク AgentStore:複数のデジタルエージェントを組み合わせて複雑なコンピュータタスクを自動化するプラットフォーム WALL-E:LLMと学習規則を併用して現実環境を理解・ナビゲートするシステム “Generative Agent Simulations of 1,000 People”:1,052人の実際の行動や態度をLLMエージェントで再現する手法で85%の精度で個人の回答や行動 傾向を模倣 DynaSaur:汎用プログラミング言語でタスク実行手順を動的に作成・再利用するエージェントフレームワーク PRefLexOR:選好最適化や強化学習を取り入れ、モデルが自らの推論を何度も振り返り、深い思考を育む手法 Generative World Explorer (Genex):AIエージェントが3D環境を頭の中でシミュレートし、現実の探索回数を減らしながら理解を深めるフレーム ワーク Bel Esprit:会話型エージェントが複数モデルを組み合わせて高度なタスクをこなすパイプラインを作成するシステム AutoKaggle:テーブルデータを扱うKaggle形式のタスクを効率化するエージェント https://www.turingpost.com/p/15-agents-of-2024
  31. Top 10 Research Papers on AI Agents Modelling Social Action

    for AI Agents • AIエージェントの社会行動を依存関係やコミットメント理論を通して体系化し、協調と集団行動の基盤を提案 Visibility into AI Agents • 自律エージェントがもたらすリスクに対し、ID付与やリアルタイム監視、ログ記録など透明性を高める手法を提案 Artificial Intelligence and Virtual Worlds –Toward Human-Level AI Agents • 仮想世界を活用して、NPCの高度化や人間レベル知能の実現可能性を探る Intelligent Agents: Theory and Practice • エージェント理論からアーキテクチャ・プログラミング言語まで包括的に整理し、理論と実用面での課題を論じる TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents • LLMエージェントのタスク分割と外部ツール活用能力を評価する枠組み“TPTU”を提案 A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges and Future Directions • 文脈認識を備えるマルチエージェントを対象に、学習・推論モデルから今後の研究課題までを体系化 Agent AI: Surveying the Horizons of Multimodal Interaction • 視覚・音声・テキストなど複数モーダルを扱うエージェントAIの現状と課題を整理し、AGIに向けた方向性を示す Large Language Model-Based Multi-Agents: A Survey of Progress and Challenges • LLMを組み込んだマルチエージェントの応用事例と技術的ハードルを総括し、協調・競合シミュレーションの可能性を検討 The Rise and Potential of Large Language Model-Based Agents: A Survey • LLMを核としたAIエージェントの進化と応用分野を概観し、マルチモーダル化や倫理的課題を含む将来展望を論じる A survey of progress on cooperative multi-agent reinforcement learning in open environment • オープンな動的環境での協調型MARL手法を総括し、エージェント数や環境条件が変化する状況への適応戦略を提案 https://www.analyticsvidhya.com/blog/2024/12/ai-agents-research-papers/
  32. AI Agent Trends: Skills and Workforce Insights for 2024 企業はAIエージェントを活用した高度な自動化へシフトしつつあり、将来的にはマルチエージェントの協調や戦略的意思決定が重要になる

    エージェンティックAIの台頭と企業戦略への影響 • AIエージェントが人間を置き換えるのではなく、協働しながら業務を高度化する未来が近づいている • OpenAIが2025年1月にリリースを予定している「Operator」のように、複数ステップのタスクを自律的に行うAIエージェントの登場が注目 を集めている • MicrosoftやAnthropicなど他社も同様の開発を進めており、今後は「AIエージェント同士の協業」や「マルチタスク処理」が重要となる 求められるスキル:データインフラと自動化から、適応力・高度分析へ • プロセスマイニング(394%伸び)やデータパイプライン(245%伸び)など、データを活用してワークフローを最適化するスキルの需要が 急増。 • 「転移学習」「特徴量エンジニアリング」などのスキルも伸びており、複数のドメインに応用できる柔軟なAIモデル開発が重視されている。 • RPAやデータエンジニアリングの需要は依然高いが、すでに多くの企業が導入済みで成熟期に入り、今後はより高度な「インテリジェント オートメーション」に移行する可能性がある。 変化するデータ活用:ビッグデータからリアルタイム・インサイトへ • ビッグデータ関連の需要がやや減少傾向にある一方で、より高速かつ柔軟な分析手法の需要が高まっている。 今後注目される分野:マルチエージェントや戦略的AI • 「群知能」「ゲーム理論」関連スキルも成長し、AIエージェント同士が協調・競合しながら複雑なタスクをこなす時代が見込まれる。 • 技術力だけでなく、組織設計や戦略的思考を兼ね備えた人材の需要が高まる可能性がある。 https://blog.getaura.ai/ai-agents-skills-data-trends
  33. 2024年の主な動向 Top 10 AI Agent Trends and Predictions for 2025

    1. カスタマーサービスでの普及 • 多くの業界で、AIエージェントが問い合わせ対応などの顧客接点を担うように • 一部の企業では60%超の顧客対応をエージェントが担当 2. エージェントの高い自律性 • NLPや強化学習の進歩により、文脈理解力が向上し、より賢くタスクを遂行 3. サイバーセキュリティ分野での活用 • AIエージェントが脅威検知やリアルタイムでのセキュリティ監視を行い、企業の防御を強化 4. 人間との連携強化 • データ分析や意思決定の補佐など、“作業代行”を超えた共同パートナーとして活躍 5. エージェント構築フレームワークの台頭 • AutoGen、CrewAI、LangChainなど、コード不要でカスタマイズできるプラットフォームが多数出現し、開発・導 入の障壁が低下 https://www.analyticsvidhya.com/blog/2024/12/ai-agent-trends/
  34. 2025年に注目すべき10のエージェントトレンド Top 10 AI Agent Trends and Predictions for 2025

    さらなるAIエージェント導入の増加 Capgeminiの調査では、2026年までに82%の企業がAIエージェントを導入予定 コード生成やデータ分析など、幅広い部門のタスクへ適用が拡大 プロアクティブなAIエージェントの登場 単に指示待ちではなく、利用者の状況やデータを分析して先回りして提案・行動するエージェントが増加 パーソナライズの実現 Generative AIの進化により、ユーザーの好みや履歴を基に高度なパーソナライズが可能に 小売・ヘルスケアなどで顧客の趣味嗜好・健康データに合わせた提案を行うように 感情知能(Emotional Intelligence)の向上 ユーザーのトーンや文脈を汲み取り、共感を伴ったコミュニケーションを取るエージェントが増える カスタマーサポートや教育・セラピーなど、対話の質が一段と向上 マルチモーダル対応の進化 テキスト、音声、画像、動画を統合的に扱うことで、より自然で多彩なインタラクションを可能に カスタマーサポートやクリエイティブ領域での協働が拡張 高度なマルチエージェント・システム 複数のAIエージェントが連携し、在庫管理・需要予測・物流最適化など、より複雑な業務を一括で処理 OpenAI SwarmやMicrosoft Magentic AIのような基盤で大規模マルチエージェントを運用・管理 エージェント構築フレームワークの発展と統合 2024年に台頭したAutoGenやCrewAIなどのプラットフォームがさらに拡充 小規模企業の統合や機能追加が進み、より大規模で成熟したフレームワークが確立する可能性 IoT・パーソナルデバイスとの連携強化 スマートホームやスマートシティなどのIoT環境と連動し、自律的にデバイスやプロセスを制御 個人向け端末でもエージェントが自動でスケジュールやショッピング手配を行うなど、利便性アップ 倫理・透明性への重視 エージェントの意思決定プロセスを説明可能にする「XAI(Explainable AI)」がさらに注目 金融や医療などでの活用が増すにつれ、公平性と説明責任を担保する規制や基準が整備 コミュニケーション・コラボレーションツールの高度化 会議の効率化(リアルタイムでの議事録作成や要点整理など)を実現するスマート・アシスタント 異業種間での情報共有やプロジェクト管理ツールにも高度に組み込まれ、チームワークを強力にサポート https://www.analyticsvidhya.com/blog/2024/12/ai-agent-trends/
  35. Building effective agents/Anthropic エージェントは、ツール等を活用して自律的にタスクを進めるシステム、一方、あらかじめ決まったコードフローに沿う構成はワークフロー(workflow)と呼ぶ ワークフローはタスクの手順が定型化している場合に向いており、エージェントは柔軟かつモデル主体の意思決定が求められる場合に適している Augmented LLM(拡張LLM) • retrievalやツール呼び出し、メモリなどでLLMを拡張する ワークフロー各種

    Prompt Chaining • タスクを複数ステップに分解して順に実行。途中でプログラム的なチェックをはさみ、精度向上を図る 例: ドキュメントの要約→チェック→翻訳、のように明確な段階分割がある場合 Routing • 入力を分類して、最適な下流タスクに振り分ける 例: カスタマーサポートの問合せを種類別に振り分ける、モデルごとに負荷やコストを最適化する Parallelization • タスクを並列に分割して処理(Sectioning)したり、同じタスクを複数回試行して投票(Voting)で最適解を得たりする 例: セキュリティ診断を複数のプロンプトで行い、結果を投票でまとめる Orchestrator-Workers • 中央のLLMがサブタスクを動的に生成し、それぞれのWorker LLMに振り分けて結果を集約 • タスク内容に応じて必要なサブタスク数が変わるような、複雑な場面向き Evaluator-Optimizer • 1つのLLMが回答を出し、もう1つのLLMがその回答を評価・フィードバックし、改善する。 例: 文書作成や検索を複数回にわたって修正・最適化する場合に有効 コメント)研究では、Routing 以降はマルチエージェントでよく見る設計です。Augmented LLMはToolLLMと呼ばれていましたね。 エージェント Prompt Chaining Augmented LLM https://www.anthropic.com/research/building-effective-agents
  36. Multi AI Agents In Production/CrewAI この調査には 4,500 人を超える専門家が参加しました 導入の広がりと主な用途 •

    多くの企業はまず内部プロセス改善などの「高精度が求められるユー スケース」からAIエージェントを導入し始める傾向があり、マーケ ティング分野での導入は比較的少ない。 • サポート業務への適用が重要視されるケースが増えている。 導入スピード • 約76%の企業が30〜60日以内にAIエージェントを本番運用に移した いと考えている。 • 大企業ほど複数のユースケースを素早く本番運用に取り入れており、 中小企業と比較して約23%高い導入実績がある。 調査概要 • 回答者の地域比率はアメリカ大陸45.2%、APAC(アジア太平洋) 22.27%、EMEA(欧州・中東・アフリカ)21.3%、リモート10.8% • 企業規模では従業員10名未満が34.6%、11〜100名が32.1%、101〜 5,000名が19.9%、5,000名超が13.5%。 https://insights.crewai.com/
  37. 【AI Shift Advent Calendar 2024】AIエージェントの設計とその勘所 AIエージェント開発の前提条件 • 課題やニーズの明確化 • LLMが最適解であるとは限らない。従来の問い合わせシステムや単純なFAQで足りる場合もある。

    • まず「何を解決したいのか」を明確にし、要件定義に十分な時間をかける。既にあるSaaSやツールで足りるなら無理にLLMを導入しない。 • LLMの有用性と限界 • 金融・医療・法律など正確性が求められる領域では、LLM単体では要件を満たしにくい場合がある。 • 「LLMを使う部分」と「人間が介在すべき部分」の切り分けが重要。 • どの範囲までLLMに委ねるかを明確にし、ビジネスロジックやルールは別途システム側に実装するなど、役割をはっきり分割する。 • モデル選定とユーザーニーズ • 大半のケースでは汎用的な大規模モデル(GPT-4など)で十分。 • セキュリティ・コスト要件やオンプレ運用の必要がある場合などは専用モデルを検討する価値がある。 要求定義と設計上のポイント • UI・UXの設計 • チャット型UIが最適とは限らない。ユーザーにテキスト入力を強要しすぎると逆に使いにくい。 • 最終的な目的は「チャットをする」ことではなく「問題を解決する」こと。 • セキュリティ・プライバシー要件 • プロンプトインジェクションなどLLM固有のリスクが存在する。 • DBアクセスなどを行う場合は、ユーザーが直接SQLを操れるような状況を避けるなど、従来同様のセキュリティ設計が必須。 AIエージェント時代のアプリケーション開発パターンの例 • ユーザー入力 → DBから取得 → LLMで結果生成(最小関与パターン) • LLMがユーザー入力を解析 → API呼び出しクエリ生成 → システムが結果取得 → LLMで生成(Function Callingパターン) • LLMにAPI一覧を渡し、必要なAPIやパラメータをLLMが自律的に選択する(AIエージェントパターン) https://www.ai-shift.co.jp/techblog/5252
  38. Agentic AI vs Generative AI: Understanding the Key Differences and

    Impacts Agentic AIとは • 自律性: 人間からの明確な指示がなくても、設定された目的に向けて自律的に行動を起こす。 • ゴール指向: タスク達成のために意思決定を行い、必要に応じて環境に適応し続ける。 • 適応と学習: 失敗や成功から学習し、継続的にパフォーマンスを向上できる。 • 複雑な意思決定: 多くの選択肢を検討し、それに伴う結果を踏まえて最適な判断を下す。 • 環境認識: カメラやセンサーなどを用いて外部環境を把握し、それをもとに行動を変化させる。 具体例 • 自動運転車: 目的地へ安全に到達するために、周囲の交通状況を認識しながら自律的に走行する。 • 高度なバーチャルアシスタント: 予定調整やリマインダーなどを自動的に実行し、ユーザーの目標達成をサポートする。 Generative AIとは • 反応的な仕組み: ユーザーからの入力に応じてテキストや画像を生成するが、自ら目的を設定して行動するわけではない。 • タスク指向(受動的): 入力に対して即座にコンテンツを生成するが、継続的・自律的な意思決定や行動はしない。 • 単純な意思決定: 学習済みのパターンをもとに最も可能性の高い出力を選択する程度で、複雑な状況判断や目標追求は行わない。 • 学習や適応が限定的: 訓練後の推論時には、基本的には新しい情報を反映して自己改善するわけではない。 • 環境認識なし: バーチャルなデータ(テキストや画像)のみに基づいており、物理的な環境を認識して行動を変えることはできない。 具体例 • ChatGPT: 入力された質問や文章に対してテキストを生成し返答する。 • 画像生成モデル(DALL-Eなど): テキストの説明をもとに画像を生成。 https://medium.com/@myscale/agentic-ai-vs-generative-ai-understanding-the-key-differences-and-impacts-e4527bb7c4ee
  39. AI エージェントで実現する業務効率化とイノベーション: 日本の最新事例/Microsoft MicrosoftからAIエージェントの事例 • コールセンターの業務効率化 (ソフトバンク、大和証券、ベルシステム 24 など) AI

    が問い合わせ内容を判断し最適解を提示。待ち時間短縮や回答精度向上を実現 • 熟練知識の継承と開発スピード向上 (トヨタ自動車) 専門分野ごとの AI エージェントが 24 時間体制で質問に対応。効率的な知識共有により新車開発を加速 • 現場スタッフ支援とサービス品質向上 (JR西日本) 複雑な営業制度を扱う駅員を AI が支援。待ち時間短縮や新人育成に効果 • 自律型エージェントによる課題解決 (富士通) 複数のサブエージェントを協調させて最適解を提案する仕組みを開発。社内で数百のエージェントを活用中 • ゲーム開発や金融業務、教育分野への応用 (スクウェア・エニックス、セブン銀行、ナガセなど) ゲームエンジンの活用支援、社内チャットボット、個別学習支援などを実装 • 社内業務効率化と投資判断支援 (三菱商事、MUFG など) 文章要約ツールや社内 ChatGPT を活用し、膨大な情報から必要な判断を迅速化 • 24 時間の AI 法律相談サービス (弁護士ドットコム) 125 万件以上の法律相談データを活用し、一般ユーザーが無料相談を利用可能 https://news.microsoft.com/ja-jp/2024/12/18/241218-operational-efficiency-and-innovation-enabled-by-ai-agents-latest-case-studies-from-japan/
  40. Reasoning with o1/DeepLearningAI Colin Jarvis(OpenAI)による短期コース o1を使ったプロンプトの4つの主要原則 • Simple and direct

    • No explicit CoT required • Use structured formats( XML or markdown ) • Show rather than tell 計画と実行の分離方法も紹介 • o1がオーケストレーター(指揮者)として計画を作成し、4o-mini モデルにその計画を実行させることで知性とコストのトレードオフ を管理した方法を紹介 メタ・プロンプティング手法も紹介 • o1を使ってプロンプトそのものを改善していくアプローチ https://www.deeplearning.ai/short-courses/reasoning-with-o1/
  41. 論文 12/4~12/13まで プロフィール • CharacterBox: Evaluating the Role-Playing Capabilities of

    LLMs in Text-Based Virtual Worlds • Simulating Human-like Daily Activities with Desire-driven Autonomy 推論 • MISR: Measuring Instrumental Self-Reasoning in Frontier Models • RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios 学習 • Training Agents with Weakly Supervised Feedback from Large Language Models • MALT: Improving Reasoning with Multi-Agent LLM Training • Personalized Multimodal Large Language Models: A Survey Agent Framework • Practical Considerations for Agentic LLM Systems • Challenges in Human-Agent Communication • Specifications: The missing link to making the development of LLM systems an engineering discipline
  42. 論文 12/4~12/13まで Agentic AI System • Hacking CTFs with Plain

    Agents • Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System Digital Agent • Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction • AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials • The BrowserGym Ecosystem for Web Agent Research • PAFFA: Premeditated Actions For Fast Agents • Generalist Virtual Agents: A Survey on Autonomous Agents Across Digital Platforms Data Agent • DataLab: A Unified Platform for LLM-Powered Business Intelligence • AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark • Towards Agentic Schema Refinement
  43. 論文 12/4~12/13まで Research Agent • DrugAgent: Automating AI-aided Drug Discovery

    Programming through LLM Multi-Agent Collaboration Embodied Agent • Navigation World Models • From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons Multi Agent System • GENMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration • A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios • From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents • LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation Agentic RAG • Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models • A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data
  44. ロールプレイングの没入感を増すための評価から学習フレームワーク CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based

    Virtual Worlds LLMのロールプレイ能力を評価するためのフレームワークCharacterBox を提案 ロールプレイングの対話履歴に基づきキャラクターの行動や反応を7つの基準でLLMがスコアリング • 知識の正確性: キャラクターが提供する情報が背景知識に一致し、正確であるか • 行動の正確性: キャラクターの行動や言葉遣いが、その特性と一致しているか • 感情表現: 感情が適切に表現されており、ユーザーの没入感を高めるか • 個性の維持: キャラクターが一貫した個性を持ち続けているか • 没入感: キャラクターのパフォーマンスが一貫しており、ユーザーが物語に没入できるか • 適応性: 新しい状況にどれだけ柔軟に対応できるか • 行動の一貫性: 過去の行動や状況と整合性のある振る舞いを示すか 対話履歴をスコアの結果に基づきLLMが修正し、その結果で再学習するとキャラクタ表現の一貫性や深みが増した Agent Capabilities: プロフィール
  45. ペルソナではなく人間の内在的な欲求を数値で管理して人間らしい振る舞いを目指す Simulating Human-like Daily Activities with Desire-driven Autonomy 人間のように内在的な欲求を基盤にした自律エージェントのフレームワークを提案 •

    エージェントが11の欲求次元(健康、喉の渇き、精神的満足など)を11段階の数値でプロンプトに保持 • エージェントは、自身の状態を評価し、欲求を満たす最適な活動を選ぶ • テキストベースのシミュレータを活用し、室内、パーティーなどで活動をシミュレーション • 従来のベースライン(ReAct, BabyAGI)と比較して、より自然で一貫性のある人間らしい活動を生成 提案手法の位置付け Agent Capabilities: プロフィール
  46. エージェントが自身の状態や環境を理解して目標を達成する能力があるのか評価 MISR: Measuring Instrumental Self-Reasoning in Frontier Models Deep Mindから目的達成のための自己推論(instrumental

    self-reasoning)を測る方法を提案 • instrumental self-reasoning:エージェントが自身の状態や環境を理解し、それを活用して目標を達成する能力 評価項目 自己改変:エージェントが自身の制約や設定を理解し、それを修正してタスクを解決する能力 • 例えば、長文メッセージ送信時に、文字数制限を設定ファイルで変更して送信する • 全てのタスクで最も精度が低い結果になっている。ヒントがない場合、ほとんど失敗する ツール改善:外部ツールやスクリプトを理解し、修正することでタスクを解決する能力 • ツールの欠陥を発見し修正する基本的能力を示したが、暗黙的なタスク要件を理解する能力が限定的 知識追求:エージェントが自身の知識状態を評価し、必要な情報を特定して情報を探索・収集する能力 • 特定の知識を探索するタスクで優れた性能を発揮したが、目標が明示されない場合では効率が低下した 社会的推論:他者との相互作用や社会的文脈で戦略的に行動する能力 • 社会的文脈を理解する能力は発達しているが、商用モデルでは倫理的な制約が能力発揮を妨げる場合がある Agent Capabilities: 推論
  47. 実世界の複数の制約やルールに準拠した推論は難しい RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in

    Real-World Scenarios LLMが複雑な現実世界のルールに従って推論する能力を測るベンチマークRuleArenaを提案 航空手荷物料金、NBAの取引規則、税制の3つの実用的なドメインにおけるルールに基づく推論を評価 • RULEARENAは95のルールと816のテスト問題を含む • 航空と税のドメインでは、明確なルールが多いため、モデルはすべてのタスクで関連するルールを適用できている • 一方で、NBAでは類似ルールの区別が難しく、Precisionが低下 • 全ての関連ルールの適用割合は全ドメインで低い値となった(見逃しあり) • モデルは多数のルールを一貫して統合することが難しく、不要な情報に惑わされる傾向がある LLMに求められる能力 • 適切なルールを特定する能力 • 複数のルールを組み合わせて適用する能力 • 正確な計算と論理的推論を行う能力 航空手荷物料金ルールの例 • すべての客室で、キャリーオンバッグ1個と個人用バッグ1個まで無料。 • 荷物の総寸法が62インチ(長さ + 幅 + 高さ)を超える場合、追加で$100。 Agent Capabilities: 推論
  48. エージェントの振る舞いをするための高品質な学習データを逐次学習 Training Agents with Weakly Supervised Feedback from Large Language

    Models Tencentからエージェント訓練フレームワークを提案 従来のエージェント訓練では専門家の軌跡や決定的な環境フィードバックが必要 提案手法 • 軌跡生成: エージェントが指示に従い環境と相互作用して軌跡を生成 • 批評モジュール: LLMを活用して軌跡を評価し、高スコアの軌跡を選択 • 逐次学習: 評価された軌跡の上位p%を次の学習データとして使用し、エージェントを学習 API-Bankでは提案手法により、GPT-4に匹敵する精度(49.5%)を達成 Agent Capabilities: 学習
  49. 各LLMを役割別で学習したマルチエージェントで推論を強化しよう MALT: Improving Reasoning with Multi-Agent LLM Training 提案手法は複数のLLMを役割別に訓練し、それぞれが専門的な役割を果たしながら連携して推論問題を解決する •

    生成モデル (Generator):初期回答を生成 • 検証モデル (Verifier):生成された回答の妥当性を検証 • 改良モデル (Refiner):検証結果をもとに回答を改善 実験 • Llama 3.1 8Bモデルを全て使っている • 学習することで数%改善しているが、コスト的に推論だけでも良さそう • 推論だけの役割を与えたマルチエージェントと提案手法はほぼ変わらない結果に見える 単一モデル +投票 マルチエージェント +投票 Agent Capabilities: 学習
  50. LLMエージェント設計・展開のベストプラクティスを提案 Practical Considerations for Agentic LLM Systems 計画(Planning) タスク分解:サブタスクの定義はLLMが適切に実行可能なレベルで行うべき 計画戦略の選択

    • 暗黙的計画: LLMに逐次的に次のステップを推測させる方法 • 明示的計画: タスク開始時に全体の計画を明確に定義し、実行中に計画を修正する方法 計画の評価と適応:計画の各ステップ実行後にその成功を評価し、必要に応じて計画を調整する 記憶(Memory) RAGの活用:必要な情報を外部データベースから動的に取得して提供 長期記憶の管理:長期的に有用な情報を選別して保存し、適切な場面で呼び出して再利用すること メモリの選別基準:他の入力に依存しないこと。ユーザーやタスクに関連すること。継続的に有用であること ツール(Tools) ツールの設計:LLMが外部ツールを使用する方法を明確に定義 ツールの分類と管理:ツールを共通の機能ごとにグループ化(「ツールキット」の概念)し、簡潔に管理 動的ツールの追加:エージェントが新しい環境で自動的に新しいツールを識別・追加できる仕組みを構築 制御フロー(Control Flow) エラー処理:同じプロンプトを繰り返して出力を確認。エラー情報を追加しLLMに再試行。コンテキストを別のLLMに提供し、再試行 停止基準の設定:明確な停止条件(例: 特定のトークンやフレーズ)をプロンプトに組み込む 複数のペルソナの活用:各タスクに最適化されたペルソナ(役割やプロファイル)を使用し、タスクごとに異なる役割を担わせる コンテキスト管理:必要な情報だけを選択してLLMに渡す。過去のコンテキストを要約し、トークン数を削減 Agent Framework
  51. エージェント時代のUXについて考えよう Challenges in Human-Agent Communication MicrosoftからAIエージェントと人間とのコミュニケーションに関する課題を分析 エージェントがどの ような能力を持つか エージェントが次に 何をする予定か

    エージェントが現在 行っていることは何か 環境への影響や副作用は何か 目標が達成されたか エージェントに達成すべき目標は何か エージェントが優先すべきことや制約は何か エージェントが次回気をつけることは何か エージェントの行動をどのように検証すればいいですか エージェントは一貫した行動をどのように伝えるべきか エージェントは最適な情報量をどのように伝えるべきか エージェントが過去のやり取りや文脈をどの程度活用すべきか エージェントか らユーザーへの 課題 ユーザーから エージェントへ の課題 基本的な人間と エージェントの コミニケーショ ンの課題 Agent Framework
  52. LLMシステムは仕様が命であることを説く Specifications: The missing link to making the development of

    LLM systems an engineering discipline 工学分野の成功は、明確な仕様によって支えられてきた LLMを用いたシステムも仕様の明確化が不可欠なため、工学の考えを踏まえてLLMシステムの仕様を議論している ステートメント仕様(Statement Specification) • タスクが何を達成すべきかを記述する(タスクの目的を明確化する部分) • タスクの目標や期待される振る舞い、入力、および出力を具体的に示す • 複雑なタスクを細分化し、各コンポーネントに目標を割り当てる際の指針となる ソリューション仕様(Solution Specification) • タスクの目標が達成されたかどうかを検証するための基準や方法を記述する • 出力結果が正しいかを検証し、タスクの成功を保証するため • デバッグや改善を行う際に基準を提供する LLMのプロンプト設計においてそれぞれの位置付け • ステートメント仕様を適切に設計することで、より良い出力が得られる • ソリューション仕様を構築することで、出力が仕様に準拠していることを確認できる タスクの出力が正しいことを確認し、LLMシステムをデバッグするための、明確なステートメント仕様とソリュー ション仕様をより簡単に記述できる新しい技術を開発する必要がある Agent Framework
  53. システムの脆弱性を探し出すのにエージェントって使えるの? Hacking CTFs with Plain Agents 高校レベルのハッキングベンチマークであるInterCode-CTF におけるLLMのサイバーセキュリティ能力を評価 最も精度が出たのは図のReAct&Plan型 •

    GPT-4oがReActを担い、o1-previewが計画を立て直す • 95%という高いタスク成功率が達成した 細かい分析 • 計画のないReActでも91%で、計画をo1-previewからgpt-4oに変えても92%と変わりはない? • ReActを4o-miniにするか、構造化出力を使わないと80%前半まで落ち込む Agentic AI Systems
  54. 医療レポート作成支援をマルチエージェントで解決 Enhancing LLMs for Impression Generation in Radiology Reports through

    a Multi-Agent System • 放射線科レポートにおける所見から印象を生成するタスクを支援するマルチエージェントシステム 「RadCouncil」を提案 印象とは所見を要約し、臨床医が患者の診断や治療を迅速に判断するための要となる内容 1. Retrieval:類似過去レポートをベクトルDBから検索 2. Radiologist:所見を基に印象を生成 3. Reviewer:印象の一貫性と正確性を検証し、修正を提案 エージェントのワークフロー Agentic AI Systems
  55. 学習によるGUIエージェントがステップ成功率を大幅に改善 Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

    Aguvis: Qwen2-VLを使用したGUIエージェントの学習手法を提案 (1) グラウンディング学習(Grounding Training) 画像内のGUI要素と自然言語指示を結び付ける学習 • 1つのGUI画像から複数の指示・行動ペアを学習し、学習効率を向上 • この段階を経たモデルは「AGUVIS-G」と呼ばれる (2) 計画と推論の学習(Planning & Reasoning Training) • 複雑なタスクを計画的に実行するため、観察、思考、アクションを逐次的に推論する学習 • 完全学習後のモデルは「AGUVIS」と呼ばれる 競争力のあるGPT4V+OmniParserのステップ成功率を20%も上回ったことは大きい Multimodal Mind2Web Digital Agents
  56. Web上のチュートリアルを学習データにするとWebナビゲーションの精度は向上するのか AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web

    Tutorials GUIエージェントの訓練に必要な高品質なデータ不足を解決するため、データ合成パイプラインAgentTrekを提案 1. Web上のチュートリアルの収集と加工(様々なチュートリアルは人間が操作手順を理解する文章のため) 2. チュートリアルをBrowserGym 環境で再現シミュレーションを行い、成功したタスクのみを採用 3. 成功した再現チュートリアル軌跡データでモデルQwen2-VLを微調整 前スライドと比較すると劣るが、GPT4と比較して優っている Mind2Webの結果 合成データパイプライン Digital Agents
  57. 複数のWeb操作を関数に変えてタスク汎用性を高める! PAFFA: Premeditated Actions For Fast Agents 昨今のエージェントはAPIを使うが、複雑なWebインターフェースでは課題がある • 効率性:

    LLMによるHTML解析が繰り返されるため、計算コストが高い • 信頼性: Web構造が動的に変化することで解析が不安定になる • スケーラビリティ: 汎用性のあるソリューションが不足しており、特定のタスクやウェブサイトに依存しがち 提案手法のPAFFAはタスク依存を脱却し、様々なウェブサイトのタスクにも適応可能な設計になっている • Action API Library: 事前に計算された再利用可能なブラウザ操作関数を集約したライブラリを構築 • 「商品検索関数」「カート操作関数」「支払い処理関数」などを事前に作成 • Dist-Map: タスクに依存しないHTML構造の要素抽出プロセスで、異なるタスク間で共有可能な操作を抽出 • チェックインボタン、フライト番号入力欄、乗客情報入力欄などを識別し、各要素に対応するDOMセレクタを抽出して保存 • Unravel: ページ単位で動的な内容を処理し、タスクを小さなサブタスクに分解して効率的に処理 • 「宿泊日選択」「部屋タイプ選択」「個人情報入力」「支払い情報入力」の4つのステップに分割 Digital Agents
  58. 汎用的なバーチャルエージェントの実現に向けたサーベイ論文 Generalist Virtual Agents: A Survey on Autonomous Agents Across

    Digital Platforms 様々なデジタルプラットフォームで駆動する汎用型バーチャルエージェント(GVA)のサーベイ論文 初期のインテリジェントアシスタントから、大規模モデルを活用した現代の実装までの歴史を解説 • 第一次は特定のタスクに特化したシンボリック推論や、チェスや囲碁のようなゲーム分野に焦点を当てていた • 次にAppleのSiriやMicrosoftのCortanaといったインテリジェントバーチャルアシスタントが登場 • 音声入力に基づいてAPIを操作する仕組み、あらかじめ定義されたタスクの範囲を超えることはできませんでした • LLM時代にGoogleの汎用エージェントやIBMのバーチャルエージェントなどが登場 • 多様なデータを利用した計画立案やツール使用が可能、特定のAPIや事前定義された動作に依存する Digital Agents
  59. 新たなBIツール?エージェントとノートブック形式でビジネスデータの分析ができる DataLab: A Unified Platform for LLM-Powered Business Intelligence TencentのDataLabは、BIタスク全体を1つのノートブック環境で実行できる

    ユーザーは自然言語でクエリを入力することで、データ処理、分析、可視化な どのタスクを自動的に実行できる 特徴 • ノートブック内のセルの依存関係を有向グラフで管理し、最低限の文脈のみLLMに渡す • 企業特有のデータセットや業界固有の用語をナレッジグラフで管理 • エージェントは必要な情報のみを取得でき、情報の過剰共有を防ぐ Data Agents
  60. データクリーニングをエージェントが自動化 AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark 自動データクリーニングワークフローを生成するAutoDCWorkflowを提案

    インプット: 生データテーブルと目的 エージェントの処理内容 • ターゲットカラムの選択 • カラム品質の評価(正確性、完全性、関連性、簡潔性) • データ操作と引数の生成し、編集後に品質評価に戻る アウトプット: 高品質なデータテーブル、処理ワークフロー 生成されるワークフローの例 ステップ1: trim 操作を適用して前後の空白を削除(例: " Cafe " → "Cafe") ステップ2: regexr_transform を使用して、施設名の不要な記号を削除(例: "Cafe;" → "Cafe") ステップ3: mass_edit 操作を適用し、類似名を統一(例: "Café" と "Cafe" → "Cafe")。 Data Agents
  61. Text-to-SQLはエージェントがビューを作って複雑なクエリを簡略化 Towards Agentic Schema Refinement DBの複雑なスキーマからビューの集合を作成しながらクエリを簡略化していくエージェントを提案 • アナリスト(Analyst):SQLクエリを作成し、データベースビューを生成 • 批評家(Critic):ビューの効率性や再利用性を評価し、改良案を提案

    • 検証者(Verifier):ビューの正確性を検証し、DBエンジンで実行可能かを確認 処理の流れ 1. 問い合わせ解釈: ユーザーの質問を直接クエリに変換 2. ビューの生成: クエリを簡略化するための再利用可能なビューを動的に作成 3. 段階的な改善: 各エージェントが協力して、クエリの効率性と可読性を向上 4. スキーマ洗練の再利用: 一度作成したビューは次回以降の問い合わせでも再利用可能 Data Agents
  62. 薬物発見プロセスを自動化するためのフレームワークDrugAgent を提案 DrugAgent: Automating AI-aided Drug Discovery Programming through LLM

    Multi-Agent Collaboration 薬物発見プロセスの中でも機械学習が貢献しやすい部分の薬物の早期評価や設計プロセスの効率化を目指す 既存の課題 • LLMは専門的なドメイン知識を必要とする薬物発見タスクを正確に実行できないことが多い • LLMが提案するアイデアが実現可能性に欠けている場合がある 提案手法のマルチエージェントアーキテクチャの要点 ドメイン知識 • LLM Instructorがアイデアを分解し、各ステップで必要な専門知識を特定する • 必要なツール(APIやライブラリ)を構築し、それらを再利用可能なツールボックスに追加 アイデアの生成と管理 • LLM Plannerがタスクに対して複数のアイデアを生成する • 実験結果に基づいて不適切なアイデアを削除し、有効なアイデアを最適化する プログラミングとデバッグ • タスクの実行を完全に自動化 • データセットの取得、特徴量生成、モデル学習、結果評価 Research Agents
  63. ナビゲーションにおいて数秒先の映像を生成できるのか Navigation World Models Metaらから将来の視覚的状態を予測するNavigation World Model (NWM)を提案 身体性エージェントの基本スキルであるナビゲーションに焦点を当てている NWMは、過去の観察とナビゲーション行動に基づき、ビデオ生成モデルを用いて未来の状態を生成する

    • 学習環境では4秒程度なら高精度な予測が可能で、視覚的にも正確な軌跡を生成できる • 8秒〜16秒と時間が伸びるにつれて予測精度が低下する • 未知の環境では、モデルが文脈を徐々に失い、訓練データに似た状態を生成し続ける「モード崩壊」が起きる • 歩行者や動的な物体の動きなど、複雑な時間的動態を正確にシミュレーションするのが難しい Embodied Agents
  64. 汎用的な身体性エージェントを実現する方法を提案 From Multimodal LLMs to Generalist Embodied Agents: Methods and

    Lessons AppleらからMLLMを基盤に、物体操作、ナビゲーション、ゲームプレイ、UI制御に対応できるGeneralist Embodied Agent (GEA)を提案 • 単一の汎用モデルで複数タスクをカバーする困難さがあった • MLLMをSFTで基本的なタスク遂行能力を持たせ、RLにより自己修正能力と環境適応力を付与してGEAを構築 • 連続および離散的な行動空間を扱えるようにトークン表現を統一化した Embodied Agents
  65. 動画生成の構成の質を高めるマルチエージェントフレームワークを提案 GENMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration 既存手法は複数のオブジェクト、時間的動態、空間的相互作用のある動画生成が困難 Microsoft

    ResearchらがText-to-Video生成を実現するマルチエージェントフレームワークを提案 • デザイン (DESIGN):テキストプロンプトをフレームごとのオブジェクトレイアウトに変換 • 生成 (GENERATION):オブジェクトレイアウトを利用して初期ビデオを生成 • 再設計 (REDESIGN):生成結果を検証し、テキストやレイアウトを修正(最も力を入れている) 「泡立ったビールを持つフワフワの熊,…」というお題に既存手法は熊の姿勢やビールの詳細が正確に表現されない Multi Agent Systems
  66. エージェントの社会的知能をゲーム理論の枠組みで評価する! A Survey on Large Language Model-Based Social Agents in

    Game-Theoretic Scenarios LLMエージェントのゲーム理論のシナリオにおける社会的知能の性能評価と発展を網羅的に調査 • 社会的知能は、他者の感情や意図を読み取り、文化、信念、価値観を理解し、他者と効果的に相互作用する能力 • サーベイは、ゲームフレームワーク、社会的エージェント、評価プロトコルの3つに分類 • プロンプトエンジニアリングによる結果の不安定さが課題であり、一貫性のある評価手法が必要 • 信念の更新は不安定で、外部からの影響を受けやすい • 今後、エージェント間の相互作用から行動パターンを発見する方法が有望かもしれない 選択するゲーム 会話するゲーム 信念 嗜好 推論 Multi Agent Systems
  67. LLMによる社会シミュレーションは個人、シナリオ、社会ベースと複雑化している From Individual to Society: A Survey on Social Simulation

    Driven by Large Language Model-based Agents 個人シミュレーション • 特定の個人またはデモグラフィックグループの行動を模倣する • プロファイル、記憶、計画、行動モジュールで構成されるアーキテクチャに基づく方法 シナリオシミュレーション • 特定のタスクや目標を達成するために複数のエージェントを協力させる • ソフトウェア開発や質問応答、レビュータスクなど、具体的な文脈での協調作業を重視 社会シミュレーション • エージェント社会内の複雑な行動やパターンをモデル化し、現実世界の社会ダイナミクスを再現する • 社会学テストや政策決定支援に役立つ シナリオシミュレーション 社会シミュレーション Multi Agent Systems
  68. 1万体のエージェントで人間社会をシミュレーション LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation

    大規模かつマルチモーダルなエージェント社会をシミュレートするシステムLMAgentを提案 エージェントの設定:ペルソナとメモリ、計画、内省、視覚情報を解釈した行動 実験 • エージェント社会が現実の購買パターンをどの程度模倣できるか→ JD.comユーザーの購買データと高い相関を示した • エージェントの行動パターンがどの程度人間の行動に近いか → 平均で人間の約93%の精度に達した Multi Agent Systems
  69. 必要な情報が手に入るまで検索して回答するRAGの繰り返し検索は意味があるの? Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models Auto-RAGは、LLMの推論と意思決定能力を活用した自律的な反復検索モデル

    • ユーザーの質問に基づいて複数回の対話を通じて情報を取得し、必要な外部知識が十分に得られるまで検索を続ける • Auto-RAGは検索計画を立て、クエリを精緻化し、取得した知識を分析する一連の推論プロセスを実行する 戦略立案 検索クエリの作成 検索 関連する事実の特定 検索の必要性を判定 戦略立案 検索クエリの作成 繰り返し 回答 検索の繰り返し回数と検索ドキュメント数に対する質問の回答 割合を示しています。 • 検索ドキュメント数が2件以上あれば結果に差はない • 検索回数を重ねるごとに回答割合が高まる • 2回検索すれば9割近くは回答できている Agentic RAG
  70. データソース単位でエージェントを設計する考え方 A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse

    Data 単一エージェント型システムでは、多様なデータソース(リレーショナルデータベース、ドキュメントストア、 グラフデータベースなど)を扱う際に効率性や正確性が低下する データソース単位でエージェントを設計するマルチエージェントを提案 エージェントと呼ぶよりクエリ生成のツールで良いのではないかと思う。 Agentic RAG
  71. 12月16日 更新 リリース • RTX AI PC が生成 AI で複雑な問題を自律的に解決する

    AI エージェントを実現 • Pydantic AI • 「Copilot Vision」プレビュー版公開。AIとの二人三脚が実現しそう • OpenAI o1 System Card • Introducing Gemini 2.0: our new AI model for the agentic era • The next chapter of the Gemini era for developers • Google が Project Mariner を発表: ユーザーに代わってWebを使用する AI エージェント • Introducing Google Agentspace: Bringing AI agents and AI-powered search to enterprises • グーグル、AIエージェント搭載「メガネ型デバイス」発表 Gemini 2.0採用 • Devin is generally available today! リポジトリ • awesome-llm-apps
  72. 12月16日 更新 ブログ • Best 5 Frameworks To Build Multi-Agent

    AI Applications • Magentic-One, AutoGen, LangGraph, CrewAI, or OpenAI Swarm: Which Multi-AI Agent Framework is Best? • GenAIOps: Operationalize Generative AI - A Practical Guide • From SaaS to Vertical AI Agents • How to Build a General-Purpose LLM Agent • エージェンティックAI:ビジネスにおける6つの有望なユースケース • How to use AI for Prototyping as a PM • What is AI Engineering? • Outcome-based pricing for AI agents
  73. RTX AI PC が生成 AI で複雑な問題を自律的に解決する AI エージェントを実現 AnythingLLM:各自のローカル PC

    上で様々なアプリに統合できるようにする、カスタマイズ可能なオープン ソースのデスクトップ アプリ • ドキュメント作業、タスク管理、電子メール返信など、個別のニーズに対応可能 • NVIDIA RTX GPUにより高速かつプライバシーを保護した環境でAIを利用可能 • コミュニティハブではAIスキルやスラッシュコマンドの共有・利用が可能 エージェント型AIの特徴 1. ユーザー入力を処理し、情報を収集 2. 推論を通じてタスクを理解し、解決策を生成 3. 外部ツールやソフトウェアを統合して実行 4. フィードバックループで性能向上 実例と応用 • Microsoft Outlookのメールアシスタント、カレンダー管理、ウェブ検索、カスタムAPIの統合など • 個人データをローカルで安全に処理しながら、さまざまなワークフローを効率化 https://blogs.nvidia.co.jp/blog/ai-decoded-agents-anythingllm-rtx-ai/
  74. Pydantic AI エージェント Pydantic AIは生成AIを使用して本番環境レベルのアプリケーションを簡単に構築できるように設計された Python エージェント フレームワーク LangChain, LlamaIndexなどのエージェントクラスと同じようなもの

    • ツールとシステムプロンプトを与えてエージェントが定義できる • Agentクラスを見るとループで終了フラグが立つまで行動する仕組みになっている • 自己修正に関してはデフォルトの再試行回数は1だが、エージェント全体、特定のツール、または結果検証ごとに変更できる • 単一のエージェントだけでなくマルチエージェントも実現できる • 入出力を型定義できる 数ヶ月後の評判次第で使ってみようかな https://github.com/pydantic/pydantic-ai https://ai.pydantic.dev/agents
  75. Introducing Gemini 2.0: our new AI model for the agentic

    era Gemini 1.0: 初のマルチモーダルAIモデルとしてテキスト、音声、画像、コードの理解力が向上した Gemini 2.0: 次世代のエージェンティックモデルで、マルチモーダルインアウトができ、計画・行動の能力を強化 Gemini 2.0の主な特徴 • マルチモーダル対応 • 入力: テキスト、画像、音声、動画、コード 出力: 画像生成、 TTSの多言語対応 • 高性能モデル • Gemini 2.0 Flash: 1.5 Flashの2倍の速度と性能向上、ツール利用(Google Search、コード実行、外部関数呼び出し)も可能 • 新機能 1. Deep Research: 複雑なトピックを調査し、レポート作成を支援 2. AI Overviewsの強化: 高度な数式、マルチモーダルクエリ、コーディングなど、より複雑なトピックや複数ステップの質問に対応 プロジェクト 1. Project Astra • AIアシスタントとしての対話、記憶、ツール活用能力を強化し、Androidとプロトタイプのスマートグラスでテスト中 2. Project Mariner • ブラウザ内の情報を理解し、タスクを実行可能。ユーザー操作を優先し、安全性に配慮した設計 3. Jules • GitHubに統合された開発者向けAIコードエージェント 来年初めには、Gemini 2.0 をさらに多くの Google 製品に拡張する予定 https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
  76. The next chapter of the Gemini era for developers 開発者向けのブログ

    Multimodal Live APIによってリアルタイムのマルチモーダルアプリを構築できる • 音声指示から画面のハイライト部分を読み上げてもらったり、単語の意味を説明させることができる Gemini 2.0 を使用する実験的な AI 搭載コード エージェントである Jules • Gemini2.0 FlashがSWE-bench Verified で 51.8% を達成 • Jules は問題に対処するための包括的な複数ステップの計画を作成 • 複数のファイルを効率的に変更し、修正を直接 GitHub に戻すためのプルリクを作成 • 2025 年初頭には他の関心のある開発者にも提供される予定 Colabのデータサイエンスエージェントがノートブックを作成 • labs.google/codeで誰でもデータセットをアップロードして数分以内に分析情報を取得できる https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
  77. Google が Project Mariner を発表: ユーザーに代わってWebを使用する AI エージェント Geminiを搭載し、Chromeブラウザを制御し、カーソル移動やクリック、フォーム入力などを実行する 現在、少数のテスターに提供されている段階

    操作速度 動作が遅い • カーソルの移動やクリックごとに約5秒の遅延 • この遅さが実用性を制限する要因となっている 機能の制約 クレジットカード番号や請求情報の入力が不可 • セキュリティ上の理由で、ユーザーの重要な個人情報は扱わない仕様 利用規約への同意やクッキーの受け入れが不可 • これも意図的に制限されており、ユーザーの許可が必要 利用環境の制限 アクティブタブのみ対応 • エージェントはChromeブラウザの最前面のアクティブタブでのみ動作可能 • 他の作業を並行して行うことはできない プライバシーとセキュリティ • スクリーンショットをクラウドに送信する必要があり、これに同意しなければ使用できない • ユーザーのプライバシー保護を考慮し、すべての動作は透明性を持つように設計されている ユーザー依存性 • Geminiが行う動作はすべて目視で確認可能 • Googleはこれを意図的な設計とし、AIがユーザーのコントロール外で操作することを防いでいる https://techcrunch.com/2024/12/11/google-unveils-project-mariner-ai-agents-to-use-the-web-for-you/
  78. Introducing Google Agentspace: Bringing AI agents and AI-powered search to

    enterprises Google Agentspace: AIを活用したエンタープライズ向けソリューション NotebookLMを活用した企業データの新しい利用法 • NotebookLM Plusを企業向けに拡張し、データの統合やインサイト発見を支援 • 音声要約機能や高度なRAGが可能 • 例: 財務データを分析し、オーディオで要約を生成する 企業全体の情報発見 • Googleの検索技術を活用した企業専用のマルチモーダル検索エージェント • 文書やメール、構造化データにまたがる検索と翻訳機能を備える • ConfluenceやSharePointなどのサードパーティアプリとも連携可能 • 例: JIRAチケットの検索と上司への要約メール送信 業務自動化エージェント • 業務領域ごとにカスタムAIエージェントを作成可能 • マーケティング、財務、エンジニアリングなどで調査やタスク自動化を支援する • ローコードツールを使って独自のエージェントを作成可能 • 例: 経費報告の管理やバグ修正の支援 https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace?hl=en
  79. グーグル、AIエージェント搭載「メガネ型デバイス」発表 Gemini 2.0採用 Gemini 2.0を搭載したメガネ型デバイスの試作品を公開 • 音声で操作し、リアルタイムで周囲の情報を提供 • グーグル検索やマップ、画像認識機能あり •

    AIエージェント機能でタスクを代行(例: eコマース、店の予約) • 試作品は少数のテスター向けに提供予定 公開されたデモ メガネを使い、自転車でロンドン市内を探索しながら • 公園名や自転車道沿いの施設情報の確認 • バスのルートや道路沿いの彫刻に関する情報の提供 • メールから暗証番号を抽出して案内 https://forbesjapan.com/articles/detail/75798
  80. Devin is generally available today! AIスタートアップのCognitionが、自律型のAIソフトウェアエンジニア「Devin」の正式サービスを開始 価格は月額500ドルからで、利用回数の制限はなく、Slack経由でのアクセスとVisual Studio CodeなどのIDEから の利用、APIへのアクセス、そしてCognitionによるサポートなどが利用できる

    開発からドキュメントのメンテナンスまで、開発チームを支援できるとする 次のようなタスクを与えた場合に最も適切に処理できる • すでにやり方が分かっているタスクをDevinに与える • テストのやり方や確認の方法をDevinに指示して実行してもらう • 大きなタスクは3時間以内に終わる程度のタスクに分解する • 事前に詳細な要件をDevinと共有する • Devinにチャットでフィードバックする Azure Marketplaceからの導入も可能 https://publickey1.jp/blog/24/aidevin500.html https://devin.ai/
  81. Awesome LLM Apps RAG および AI エージェントを使用し て構築された優れた LLM アプリの厳選

    コレクションのリポジトリ 参考になるものがあればコードを見て もいいかも! https://github.com/Shubhamsaboo/awesome-llm-apps/tree/main
  82. Best 5 Frameworks To Build Multi-Agent AI Applications 1. Phidata

    • Pythonベースのフレームワークで、LLMをAI製品用のエージェントに変換する • 特徴: 組み込みUI、AWS統合、複数エージェントの構築、テンプレート、クラウドデプロイ • 利用例: Yahoo Financeのデータを要約するエージェントの構築 2. OpenAI Swarm • 軽量なオープンソースのエージェントフレームワーク(実験段階) • 特徴: 会話の引き継ぎ機能、スケーラビリティ、プライバシー保護 • 利用例: エージェント間のタスク引き継ぎシステム 3. CrewAI • 多機能かつ大規模なエージェントフレームワーク。大企業が利用 • 特徴: 700以上のアプリ統合、ノーコード環境、エージェント監視、テストツール • 利用例: チームでのマルチエージェント自動化 4. Autogen • エージェントコラボレーションとLLMワークフロー向けのオープンソースフレームワーク • 特徴: クロス言語対応、ローカル実行、非同期メッセージング、拡張性 • 利用例: 天気情報を取得するエージェントシステムの構築 5. LangGraph • LangChainエコシステム内のグラフベースのエージェントフレームワーク。 • 特徴: ノードとエッジでワークフローを構築、トークンストリーミング、状態の永続化、スケール展開 • 利用例: 線形・階層型ワークフローの作成 https://medium.com/@amosgyamfi/best-5-frameworks-to-build-multi-agent-ai-applications-1f88530ef8d8
  83. Magentic-One, AutoGen, LangGraph, CrewAI, or OpenAI Swarm: Which Multi-AI Agent

    Framework is Best? AutoGen (Microsoft) • ソフトウェア開発向け、コード生成と実行に特化。ユーザーとアシスタントエージェントの双方向モデル • セットアップが複雑で非プログラマーには不向き。他のタスクでは性能が限定的 CrewAI • 直感的で簡単にエージェントを作成可能。初心者向けで迅速なデモ作成に最適 • カスタマイズ性が低く、複雑なプログラミングタスクには不適 LangGraph • 高い柔軟性とカスタマイズ性を持つ。LangChainをベースにし、オープンソースLLMやAPIとの互換性が高い。 • ドキュメントが不十分で、初心者には難しい。プログラミングスキルが必要 OpenAI Swarm • 簡単なエージェント作成とコンテキスト切り替え(ハンドオフ)に特化し、初心者向け。 • OpenAI APIのみ対応、実運用には不向き。コミュニティサポートが不足。 Magentic-One (Microsoft) • 非プログラマー向けで簡単に使用可能。AutoGenをベースにした汎用フレームワークで、5つのデフォルトエージェントが付属。 • オープンソースLLMとの互換性が難しく、柔軟性に欠ける。ドキュメントとコミュニティサポートが未整備。 https://medium.com/data-science-in-your-pocket/magentic-one-autogen-langgraph-crewai-or-openai-swarm-which-multi-ai-agent-framework-is-best-6629d8bd9509
  84. GenAIOps: Operationalize Generative AI - A Practical Guide Generative AIと新たなOps

    生成AIの急速な進化により、新たな運用パラダイムが登場 • PromptOps: プロンプトの管理と最適化、AgentOps: 自律エージェントの運用、RAGOps: RAGの運用 生成AIを活用するプロセス 1. モデル選定: 必要に応じた適切な生成モデルの選択。モデルの精度、コスト、レイテンシなどを評価。 2. プロンプトエンジニアリング: 効果的なプロンプトを設計し、カタログ化。テンプレートと評価データセットを活用して 自動評価を行う 3. 評価指標の設定: タスクに応じた適切な評価基準を選択(例:ROUGEやBLEU) 4. モデルのテストとデプロイ: 評価結果に基づき、業務要件(コスト、速度)に合致するモデルを選択 https://medium.com/@sokratis.kartakis/genaiops-operationalize-generative-ai-a-practical-guide-d5bedaa59d78
  85. From SaaS to Vertical AI Agents スタートアップ業界における垂直型AIエージェントの台頭について議論記事 垂直型AIエージェントとは • エージェントはタスク管理を支援するSaaSの進化版という位置付け

    • SaaSがデスクトップソフトをクラウド化して業界を変えたのに対し、垂直型AIエージェントは特定のドメインでの人間 の仕事そのものを置き換えるソリューション • SaaSは業務を効率化するツールでしたが、垂直型AIエージェントは業務そのものを削除する スタートアップ戦略 1. SaaSと同様、巨大企業と競争しない(GoogleやAppleに任せる) 2. B2Bニッチな市場で特化型ソリューションを開発 3. 退屈で反復的なタスクを見つけて、それを自動化する 例:特定の官公庁契約の自動入札や、歯科医療請求の自動化 汎用 AI アシスタントを夢見ているなら、やめてください。Apple、Google、OpenAI はすでにその王座を争っています。 https://medium.com/the-ambition-hub/from-saas-to-vertical-ai-agents-dfec2b646570
  86. How to Build a General-Purpose LLM Agent 汎用的なLLMエージェントを構築することは、ユースケースを迅速にプロトタイプ化できる LLMエージェント構築の7ステップ 1.

    適切なLLMの選定 • 推奨モデル: GPT-4.0、Claude 3.5やLlama3.2 2. エージェントの制御ロジック(通信構造)の定義 • エージェント行動パターン: ツール使用、リフレクション、ReAct、Plan-then-Execute 3. プロンプトの明確化 • エージェントの役割、トーン、エラー処理、ツール使用条件を明記 4. ツールの定義と最適化 • 必須ツール: コード実行、ウェブ検索、ファイル操作、データ分析 • ツールの要素: 名前、説明、入力スキーマ(必要パラメータなど)、実行方法 5. メモリ管理戦略の決定 • メモリの種類: 最新の会話kターン、最新nトークン、LLMによる会話要約 6. エージェントの生の出力の解析 • 出力データをJSONなどの構造化フォーマットに変換 7. エージェントの次のステップをオーケストレーション • ツール実行またはユーザーへの回答を決定 マルチエージェントの必要性 • 単一エージェントはトークンやコンテキストの制限で性能に限界がある • 複数のエージェントを活用することで、タスクを分割し効率を向上可能 • 推奨: 汎用単一エージェントをプロトタイプとして構築し、徐々に複雑なシステムへ拡張 https://towardsdatascience.com/build-a-general-purpose-ai-agent-c40be49e7400
  87. Agentic AI:ビジネスにおける6つの有望なユースケース 1. ソフトウェア開発 • コーディングアシスタントがコード作成やエラーチェックを担い、開発プロセスを大幅に効率化 • DevOpsツールチェーンと連携し、仕様のリバースエンジニアリングやテストケースの自動生成を実現 2. ステロイドを投与したRPA(ロボットによるプロセス自動化)

    • 単純なタスクだけでなく、複雑な意思決定を含むプロセスも自律的に対応 • 適応性のある自律プロセスが業務効率を向上 3. カスタマーサポートの自動化 1. 従来のチャットボットを超え、文脈を理解し複雑なリクエストにも対応 2. 例外処理や非決定論的タスクも実行可能 4. 企業ワークフローの効率化 1. 会議メモのプロジェクトチケット化や、需要予測に基づくサプライチェーン管理の自動化 2. 情報サイロを解消し、組織全体でのデータ活用を促進 5. サイバーセキュリティと脅威検出 1. AIエージェントが脅威をリアルタイムで検出し、迅速に対応 2. 個別のセキュリティプロトコルの適用やコスト削減を実現 6. ビジネスインテリジェンス(BI) 1. BIエージェントが音声入力やあいまいな質問を解釈し、有益な洞察を提供 2. マーケティングチームや他部門のデータ分析を支援 https://www.cio.com/article/3619835/
  88. How to use AI for Prototyping as a PM PMがAIを使ったプロトタイピングを行うべき理由

    • AIの進化でソフトウェア開発の敷居が低下: AIは迅速なプロトタイピングを可能にし、これまで数週間かかって いた工程が数時間、場合によっては数分に短縮される • 役割からスキルへのシフト: 企業はタイトルよりもスキルを重視するようになり、アイデアを伝えたりプロトタ イプを作成したりするスキルが重要に ツール選択のポイント • プロジェクトタイプ • フロントエンド → Vercel v0 • バックエンド → Replit Agent • フルスタック → 複数ツールの組み合わせ • チームの経験 • 開発者中心 → Cursor、Windsurf • デザイナーとの連携 → Vercel v0 https://amankhan1.substack.com/p/how-to-use-ai-for-prototyping-as
  89. What is AI Engineering? AIエンジニアとは何か • AIエンジニアは、LLMを活用してAIシステムを構築し、ビジネス課題を解決する役割 • この職種は、MLエンジニアやソフトウェアエンジニアと関連している •

    特有のスキルセットを持つ新たな職種として注目されている AIエンジニアに必要なスキル 1. リサーチ: 最新の研究論文を理解し、自身のプロジェクトに適用する能力 2. プロンプトエンジニアリング: 効率的なプロンプト設計と評価 3. ソフトウェア開発: 高品質なコードとシステム構築スキル 4. インフラ管理: データストレージやデプロイに関する知識 5. データエンジニアリング: データ処理とクレンジング能力 6. MLOps: 継続的なシステム改善のための運用スキル https://www.newsletter.swirlai.com/p/what-is-ai-engineering
  90. Outcome-based pricing for AI agents アウトカムベース価格モデルの登場 • 料金変動型だが、実際のビジネス成果(解決されたサポートケース、アップセル、契約維持など)に紐づいて課金される。 • 結果が出なかった場合、多くの場合費用は発生しないというもの

    AIエージェントに適用 • Sierra社はアウトカムの価格モデルを採用し、AIエージェントが顧客対応を行い、成果を生み出すことで収益を得る。 • 継続的な最適化を行い、費用削減や収益向上を目指す。成功の基準や料金は透明で、明確な基準に基づいて設計 アウトカムベースの価格モデルは、ソフトウェアが「棚に眠る」ことを防ぎ、ビジネス成功の価値にのみ支払いを求める革新的な 仕組み。Sierraは、このアプローチを通じて、顧客のコスト削減と成長を支援する。 https://sierra.ai/blog/outcome-based-pricing-for-ai-agents