Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190

Slide 2

Slide 2 text

はじめに • LLMエージェントに関するニュースや論文をほぼ毎週更新しています。 • 論文、プロダクトの順番でまとめています。 • 個人の備忘録で取り組んでおり、誤りがある場合もあります。 • 文字サイズ16ptで小さいのでPCで見ることをおすすめします。 • SpeakerDeckに過去の4~12月の資料を分けて公開しています。 • 7月から隔週で更新します。

Slide 3

Slide 3 text

2/7(金) セミナーのご案内 【AIエージェント最前線 】AIエンジニアとアメリカAI技術担当が語る ~AIエージェントの業務活用の勘所~ https://uipath.zoom.us/webinar/register/WN_XBwh7VNgTvK12pGRKAJ5mg 登録フォーム

Slide 4

Slide 4 text

1月27日 更新 • 論文 • プロダクト・ニュース

Slide 5

Slide 5 text

論文 1/13~1/24まで ツール利用 • ACEBench: Who Wins the Match Point in Tool Learning? (紹介しない) 学習 • 自己修正能力を獲得する学習フレームワーク「Agent-R」を提案 • Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training • エージェントが新しい環境に自律的に適応できるよう、軌跡データ生成するフレームワーク • Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments メモリ • 動的な自己更新型ライブラリを持つChem Agentの提案 • ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning 自己進化 • 学び続けるエージェントの実現に向けて生涯学習を知っておこう • Lifelong Learning of Large Language Model based Agents: A Roadmap

Slide 6

Slide 6 text

論文 1/13~1/24まで Agent Framework • 計画や思考、行動を方策が選ぶエージェント • PoAct: Policy and Action Dual-Control Agent for Generalized Applications • モジュールを組み合わせ計画と実行を完遂するエージェント • A Multimodal Social Agent • 標準操作手順をもとに行動するエージェント • SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs • エージェントの認証、行動範囲と参照範囲の認可 • Authenticated Delegation and Authorized AI Agents Agentic AI Systems • クラウド運用やITシステムの管理をエージェントで自動化 • AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds • 個別教育プラットフォームのユーザー行動をシミュレーション • Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems

Slide 7

Slide 7 text

論文 1/13~1/24まで Agentic RAG • Agentic RAGの種類を網羅したサーベイ論文 • Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG • 情報密度の高い文章コンテンツを生成させる方法を提案 • OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking Software Agents • LLMベースのコード生成プロセスを体系的に整理 • Towards Advancing Code Generation with Large Language Models: A Research Roadmap API Agents • 小型無人航空システム(sUAS)のシミュレーションテストプロセスを自動化 • LLM-Agents Driven Automated Simulation Testing and Analysis of small Uncrewed Aerial Systems Digital Agents • 自己データ収集によるGUIエージェントモデル「UI-TARS」を提案 • UI-TARS: Pioneering Automated GUI Interaction with Native Agents • アリババから階層型の自己進化モバイルエージェントの提案 • Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

Slide 8

Slide 8 text

論文 1/13~1/24まで Data Agents • データ品質や前処理の自動化をおこなうデータ中心なエージェント • Towards Human-Guided, Data-Centric LLM Co-Pilots Research Agents • 文献調査エージェントをいつ使う? • PaSa: An LLM Agent for Comprehensive Academic Paper Search Embodied Agents • EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents(紹介しない) Multi Agent Systems • マルチエージェント協調を俯瞰する • Multi-Agent Collaboration Mechanisms: A Survey of LLMs

Slide 9

Slide 9 text

自己修正能力を獲得する学習フレームワーク「Agent-R」を提案 Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training Agent-Rは以下の2つのフェーズで構成 1. モデル主導型の修正軌跡の生成 • モデルがMCTSを用いて軌跡を探索し、エラー箇所を特定 • 悪い軌跡を途中で切断し、正しい軌跡に接続して修正軌跡を生成 2. 修正軌跡を用いた反復学習 • 修正軌跡と良い軌跡、一般的な軌跡を使用してモデルを訓練する • 学習したモデルで軌跡を集める • 再学習を重ねることで、より早期にエラーを検出し、修正できる 実験結果 理想的な軌跡だけで学習するより修正軌跡で反復学習すると良かった • エラー検出の早期化: 軌跡内でのエラー箇所を迅速に特定可能 • ループ回避能力: 同じ行動を繰り返す「デッドループ」に陥りにくい • タスク成功率の向上: 他の手法を用いたモデルよりも高いタスク達成した 学習で比較する軌跡 • 理想的な軌跡: 完全な軌跡で、エラーは一切含まれない • 良い軌跡: 高い成果を上げたが、エラーや無駄な行動が含まれる軌跡 • 直接修正軌跡:軌跡の終端でエラーを修正した軌跡 1月27日 更新分 Agent Capabilities: 学習

Slide 10

Slide 10 text

エージェントが新しい環境に自律的に適応できるよう、軌跡データ生成するフレームワーク Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments エージェントが相互作用する環境から得られる高品質なデータ不足が性能向上の妨げになっている 人間によるラベル付けを必要とせず、新しい環境にエージェントを迅速に適応させる仕組みを提案 Learn-by-interact フレームワーク • 環境のドキュメントやチュートリアルを参照してタスク指示を生成し、LLMが実行して軌跡データを収集 • 生成された軌跡データを要約・抽象化し、新たなタスク指示を生成(サブタスクで量増し) • 低品質なデータを除外するための自動フィルタリング • タスク意図に基づく検索と現在と同じ状態の検索を組み合わせたエージェント専用の履歴検索を設計 1月27日 更新分 Agent Capabilities: 学習

Slide 11

Slide 11 text

動的な自己更新型ライブラリを持つChem Agentの提案 ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning 1. タスク分解:化学タスクを細分化し、それぞれを解決可能な単位に分割 2. ライブラリの構築:分解されたサブタスクとその解法をライブラリに保存し、将来のタスクで参照可能に 3. ライブラリに含まれる三種類のメモリ構成 • 計画メモリ(Planning Memory):高レベルの戦略や方法論を記録 • 実行メモリ(Execution Memory):特定タスクの解法を記録 • 知識メモリ(Knowledge Memory):化学の基本原理や公式を保持 メモリの内容 ライブラリを使った推論 1月27日 更新分 Agent Capabilities: メモリ

Slide 12

Slide 12 text

学び続けるエージェントの実現に向けて生涯学習を知っておこう Lifelong Learning of Large Language Model based Agents: A Roadmap • 生涯学習(Lifelong Learning)では、新しい知識やスキルを継続的に学習しながら、過去に学んだ情報を保持 し、新たなタスクにも適応する • エージェントでは知識管理、動的タスク適応、ツール統合で生涯学習をする • LLM登場以前から転移学習の文脈で議論されていた • 知識の安定性(既存の知識を保持する能力)と可塑性(新しい情報を学ぶ能力)がトレードオフになる • 過去の知見を活かすか、新しく学ぶかの境目が難しい 1月27日 更新分 Agent Capabilities: 自己進化

Slide 13

Slide 13 text

計画や思考、行動を方策が選ぶエージェント PoAct: Policy and Action Dual-Control Agent for Generalized Applications PoActは以下2つのコントローラーを活用し、より高品質な推論とアクションを実現する 1. Policy Controller:推論過程の異なるステップ(計画、思考、コード生成)に応じて推論ポリシーを動的に切り替え 2. Action Controller:行動空間を動的に調整し、推論パスをレビューすることで、正確で効率的なタスク実行 PoActは、ReActに比べて最大20%以上の成功率向上を達成し、トークン消費を削減 1月27日 更新分 Agent Framework

Slide 14

Slide 14 text

モジュールを組み合わせ計画と実行を完遂するエージェント A Multimodal Social Agent 6つのモジュールを組み合わせて作られる計画と実行分離型エージェント 応用 • 人々の意見やトレンドを分析し、戦略的な意思決定を支援する • 顧客の反応を分類・分析し、製品やサービスの改善に活用する 計画を立てることに特化 行動を実行することに特化 1月27日 更新分 Agent Framework

Slide 15

Slide 15 text

標準操作手順をもとに行動するエージェント SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs 自然言語で記述された擬似コード形式のSOPを使用し、エージェントの行動を制御 SOPを 「決定グラフ」 として表現し、エージェントのタスク遂行をガイド 深さ優先探索(DFS)を用いて決定グラフを探索して問題解決する タスク: サービス中断対応(SOPの例) - 顧客の認証を行う - 行動: 顧客IDを確認 (`authenticate_customer()`) - 認証失敗の場合、再認証のガイドを提供 - サービスステータスを確認 - 行動: 地域のサービス中断状況を確認 (`check_area_outages()`) - 中断があれば、顧客に通知し、復旧予定時間を伝える (`provide_resolution_time()`) - 中断がなければ、接続状況を確認 (`assess_line_connection_status()`) - 顧客問題が解決しない場合、技術サポートチームにエスカレーション - 行動: 問題を記録し、技術チームに転送 (`escalate_to_tech_support()`) タスク: 質問応答(SOPの例) - 質問文を読み、回答に必要な情報を特定する - 行動: キーワード検索 (`search(entity)`) - 検索結果に基づいて、次の文書を調べる - 必要な情報を集めたら、質問に答える - 行動: 回答を短い形式(例: "はい"、"いいえ"、具体的なエンティティ名)で出力 (`answer(question)`) - もし情報が不十分であれば、別のキーワードを検索 タスク: データクレンジング - データを読み込む (`read(data.csv)`) - 数値形式でない列を特定し、数値に変換する - 行動: ラベルエンコーディングを適用 (`convert_to_numerical(columns)`) - 欠損値を補完する - 行動: ランダムフォレスト手法で欠損値を埋める (`fill_missing_values(method=random_forest)`) - 外れ値を検出して除去する - 行動: Local Outlier Factor(LOF)法を適用 (`remove_outliers(method=LOF)`) - 重複行を削除する - 行動: データセットをクリーンアップ (`remove_duplicates()`) 1月27日 更新分 Agent Framework

Slide 16

Slide 16 text

エージェントの認証、行動範囲と参照範囲の認可 Authenticated Delegation and Authorized AI Agents AIエージェントがデジタル空間で安全かつ責任を持って行動できるようにするための重要な一歩となる研究 OAuth 2.0を拡張し、認証とアイデンティティ情報の提供を追加 • エージェントIDトークン: エージェントのユニークIDや属性(例: システム能力、制限)を含む • 委任トークン: ユーザーがAIエージェントに特定のタスクを許可するためのトークン 「タスクスコーピング」と「リソーススコーピング」の二重の仕組みで安全性を確保 自然言語による指示をXMLやJSON形式に変換し、AIエージェントの行動を制限できる仕組みがある 欧州のAI法律との整合性を考慮 AIエージェントの識別と追跡ができる • 各エージェントが一意のIDを持つため、操作や責任の所在を明確化 誤った操作やリスクの軽減ができる • スコーピングによりエージェントが許可されていない操作を防止 Agent Framework

Slide 17

Slide 17 text

クラウド運用やITシステムの管理をエージェントで自動化 AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds AIOpsAgents(AI for IT Operations Agents)は、クラウド運用やITシステムの管理に特化したAIエージェント 問題検出(Detection) • システムのメトリクスやログデータを解析し、異常や問題をリアルタイムで検出 • 例:CPU使用率の急上昇やメモリ不足、ネットワーク遅延の検知 問題の位置特定(Localization) • 検出した問題がどこで発生しているのか、具体的な箇所を特定 原因分析(Root Cause Analysis, RCA) • 問題の根本原因を特定し、システムエラーや設定ミスなどの根源的な要因を明らかにする 問題解決(Mitigation) • 自動的に修正を実行し、システムの正常状態への復旧を図る 課題:複雑なタスクの処理、データ過多による混乱、誤判定や誤操作のリスク 応用例:クラウドサービスプロバイダ、大規模ITシステムの運用管理、自律型の「セルフヒーリング」クラウド運用 1月27日 更新分 Agentic AI Systems

Slide 18

Slide 18 text

個別教育プラットフォームのユーザー行動をシミュレーション Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems LeetCodeやCourseraのようなパーソナライズ教育プラットフォームでは個別データを用いて以下を実現する • 個別最適化: 学習者ごとに適切な難易度や分野の練習問題を提案する • 知識追跡: 学習者の現在の知識レベルを推定し、その進化を追跡する • コンピュータ適応テスト(CAT): 少ない問題数で学習者の能力を正確に評価する しかし、個別最適の学習に必要なデータが足りないため、学習者をシミュレートするAgent4Eduを提案 1月27日 更新分 Agentic AI Systems

Slide 19

Slide 19 text

Agentic RAGの種類を網羅したサーベイ論文 Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG 種類 ワークフロー メリット ユースケース Agentic RAG Router シングルエージェントがクエリを処 理し、外部データをルーティングし て応答を生成 シンプルな設計 リソース効率 基本的なカスタマーサポート 配送状況確認 Multi-Agent RAG 複数のエージェントが特定の役割を 持ち、タスクを分担し並列処理を実 施 高いスケーラビリティ タスク特化型で精度向上 マルチドメイン研究支援 複雑なクエリ処理 Hierarchical Agentic RAG 階層構造で上位エージェントが下位 エージェントを指揮し、戦略的にタ スクを処理 戦略的意思決定 柔軟なタスク管理 財務分析 法律文書レビュー Corrective RAG 結果を評価し、不足や誤りを修正す るための再検索やクエリ再構築を実 施 応答精度向上 不正確な情報の修正 医学研究の要約 複雑な情報統合 Adaptive RAG クエリの複雑さに基づき、シンプル な処理からマルチステップ推論まで 動的に対応 効率的なリソース使用 柔軟な適応 パーソナライズ教育支援 顧客サポート Graph RAG グラフ構造を用いてデータ間の関係 性を考慮した高度な推論を実施 高度な関係性推論 構造化データの利用 医療診断 法的研究 Agentic Document Workflows ドキュメント処理に特化し、文書解 析、情報抽出、応答生成を自動化 エンドツーエンドのプロセス自動化 ドメイン特化型 契約書レビュー 請求書処理 保険クレーム管理 1月27日 更新分 Agentic RAG

Slide 20

Slide 20 text

情報密度の高い文章コンテンツを生成させる方法を提案 OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking OmniThinkは、情報収集と文章生成のプロセスに「反復的な拡張(Expansion)」と「反省(Reflection)」を 導入し、情報密度を高めることに注力したフレームワーク 情報を階層的に整理しながら、取得した情報を再評価して最適化する 情報密度が高い文章は、読者にとって「少ない努力で多くの知識を得られる」ため、読みやすく、有益性が高い 提案手法プロセス 1. 情報収集(Information Acquisition) • 拡張(Expansion) • テーマに関連する情報を検索エンジンやデータベースを使って収集 • 検索された情報は階層構造で整理され、「情報ツリー(Information Tree)」に格納 • 各ノード(情報単位)について、必要であればさらに深掘りして詳細な情報を取得 • 反省(Reflection) • 新たに収集した情報を評価・分析し、冗長性を取り除き、意味のある知識を抽出 • これらの知識は「概念プール(Conceptual Pool)」に統合され、次の情報収集ステップをガイド 2. アウトライン構築(Outline Structuring) • 概念プールを活用して、テーマに基づいた論理的で一貫性のあるアウトラインを作成 3. 文章生成(Article Composition) • 各アウトラインセクションごとに、情報ツリーから関連情報を検索して文章を生成。 1月27日 更新分 Agentic RAG

Slide 21

Slide 21 text

LLMベースのコード生成プロセスを体系的に整理 Towards Advancing Code Generation with Large Language Models: A Research Roadmap 6層構造のコード生成のフレームワークを提案 1. Input Phase: ユーザーの要件やタスクの記述を多モーダルで扱い、曖昧さを減らす 2. Orchestration Phase: 複数のエージェント間のタスク調整を行い、動的タスク生成やシステム全体の理解を向上 3. Development Phase: 開発チームとモデル間の頻繁なインタラクションを通じたインクリメンタルなコード生成 4. Validation Phase: 自動化されたテストと人間の検証を通じて、コードの安定性と現実世界の要件への適合性を確認 5. Refinement & Debug Layer: モデルの反復的なデバッグとユーザーからの明確化を含む 6. Execution, Verification & Validation: コード実行および統合テスト 1月27日 更新分 Software Agents

Slide 22

Slide 22 text

小型無人航空システム(sUAS)のシミュレーションテストプロセスを自動化 LLM-Agents Driven Automated Simulation Testing and Analysis of small Uncrewed Aerial Systems sUASのシミュレーションテストの課題 • 複雑な環境やミッション条件を反映したテストシナリオの設計が手動で行われ、時間がかかる • テスト環境の設定やシミュレーションツールの構成が煩雑でエラーを引き起こしやすい AUTOSIMTESTというマルチエージェントフレームワークを提案 シナリオ設計 • LLMエージェントが過去の事故データを活用し、環境設定、ミッション内容、テスト項目を含むシナリオを生成 シナリオ実行スクリプトの生成 • Env-Agentが環境構成ファイルを作成、M-Agentがミッションスクリプトを生成 シナリオ分析 • Analytics-Agentがフライトログを解析し、インタラクティブな分析レポートを出力 1月27日 更新分 API Agents

Slide 23

Slide 23 text

自己データ収集によるGUIエージェントモデル「UI-TARS」を提案 UI-TARS: Pioneering Automated GUI Interaction with Native Agents オンラインブートストラップによる思考も含めた学習 • エージェント自身がインタラクションデータを収集し、学習する仕組み 1. 人間やモデルが共同でタスク目標を生成 2. 仮想環境でタスクを実行し、ステップバイステップで操作データを記録 3. ヒューリスティックルールやVLMの評価によりデータフィルタリング 1月27日 更新分 Digital Agents

Slide 24

Slide 24 text

アリババから階層型の自己進化モバイルエージェントの提案 Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks 現在のモバイルエージェントの課題 • 高度な推論や長期的な計画を必要とするタスクに対応できない • 過去の経験から学ぶ仕組みがないため、同じエラーを繰り返す Mobile-Agent-E • Managerがタスクを小目標に分割し、全体計画を立てる。Perceptor(視覚認識)、Operator(具体的行動の実行)、 Action Reflector(エラー確認)、Notetaker(情報集約)というサブエージェントが細かい作業を担当 • 自己進化モジュールにより、長期記憶として「Tips」(一般的なガイドライン)と「Shortcuts」(再利用可能な操作 シーケンス)を保持し、過去の経験から継続的に改善する 自己進化を有効化すると • 満足度スコアが75.1%→86.9%に向上 • 行動の正確性が85.9% → 90.4%に改善 • 中断エラー率が32% → 12%に改善 1月27日 更新分 Digital Agents

Slide 25

Slide 25 text

データ品質や前処理の自動化をおこなうデータ中心なエージェント Towards Human-Guided, Data-Centric LLM Co-Pilots エージェントが機械学習モデリングする研究が多い中でエージェントがデータ改善をおこなう • 欠損値補完、ノイズデータの処理、ラベルリーク対策、データドリフト対応など、現実のデータ課題に対応 • 非技術的なドメイン専門家を対象にデータ改善つき機械学習ワークフローを提供できるフレームワーク マルチエージェント推論 • コーディネータエージェントは、データ処理全体の流れを計画・監視し、ユーザーのフィードバックや自動的な評価指標 に基づいてプロセスを調整する • ワーカーエージェントは、計画されたタスクを実行し、具体的なデータ処理コードを生成・実行する 人間参加型プロセス • データの問題が発見された際に、専門家にフィードバックを求めることで、ドメイン固有の知識を統合する 1月27日 更新分 Data Agents

Slide 26

Slide 26 text

文献調査エージェントをいつ使う? PaSa: An LLM Agent for Comprehensive Academic Paper Search PaSa (Paper Search Agent) という新しい学術論文検索エージェントを提案 • Crawler: ユーザークエリに基づき論文を検索し、引用ネットワークを探索して関連論文を収集 • Selector: 検索された論文を評価し、クエリ要件を満たすかどうかを判断 実験結果 • 文献レビューや調査の初期段階で、漏れを防ぐことが重視される場合、Recallを重視する • 具体的な研究課題に絞った検索の場合、Precisionを重視する • Precisionが低い場合、不要な論文が多く含まれ、ユーザーが手動でフィルタリングする負担が残る • Recall@100は69.29%、Precisionは51.46%だった。若干、文献収集の初期段階の利用向けか 1月27日 更新分 Research Agents

Slide 27

Slide 27 text

マルチエージェント協調を俯瞰する Multi-Agent Collaboration Mechanisms: A Survey of LLMs マルチエージェントの協調を目的、構造、戦略の3つの観点で整理したサーベイ論文 各観点の強みや弱みがまとめられている 1月27日 更新分 Multi Agent Systems

Slide 28

Slide 28 text

1月27日 更新 • 論文 • プロダクト・ニュース

Slide 29

Slide 29 text

1月13日 更新 リリース • Introducing Operator • Computer-Using Agent • Scheduled tasks in ChatGPT • Introducing Citations on the Anthropic API • Perplexity now has a mobile assistant on Android • Perplexity launches Sonar, an API for AI search

Slide 30

Slide 30 text

Introducing Operator OpenAIから明示的にエージェントと称される「Operator」の登場(research preview) ブラウザの操作をしてくれるエージェントでUSのProライセンスの方限定で使える Operator を動かすモデルをAPI で近日中に公開し、独自ブラウザ操作エージェントが開発できる すべてのサイトまたは特定のサイトに対してカスタム指示を追加すること(Booking.com で航空会社の好みを 設定するなど)で、Operator のワークフローをパーソナライズできる。 安全性の配慮 • Operator は、ログイン、支払いの詳細、または CAPTCHA の解決が必要なタスクは、ユーザーに依頼する • Takeover mode:Operator はユーザーがログイン認証情報や支払い情報などの機密情報入力するときに情報の収集や スクショを撮らない • 注文の送信やメールの送信など、重要なアクションを完了する前に、オペレーターは承認を求める • 銀行取引や、求人応募の決定など、重大な決定を必要とする特定の機密タスクを拒否する • プロンプトインジェクション対策をしている 研究から実利用のギャップとなる安全性の配慮からパーソナライズまでを学習を通してLLMに能力を与えてい るのが素晴らしい 1月27日 更新分 https://openai.com/index/introducing-operator/

Slide 31

Slide 31 text

Computer-Using Agent • GPT-4o の視覚機能と強化学習による高度な推論機能を組み合わせたモデル • 人間と同じように画面に表示されるボタン、メニュー、テキスト フィールドなどのGUIを操作するように訓練 されている • OSWorld の成功率 38.1%、Web ベースのタスクでは WebArena で 58.1%、WebVoyager で 87% を達成 行動のたびに スクショの理解が必要 そのため長くなってしまう https://openai.com/index/computer-using-agent/

Slide 32

Slide 32 text

Introducing Citations on the Anthropic API Claude がソースに基づいて回答する新しい API Citations をリリース Citations は、Anthropic API および Google Cloud の Vertex AI で一般公開 画像の引用は不可 1月27日 更新分 https://www.anthropic.com/news/introducing-citations-api https://docs.anthropic.com/en/docs/build-with-claude/citations#example-pdf-citation 各ドキュメントに設定 引用対象 PDFを渡す場合 分割文書を渡す場合 pdfの場合ページ単位で引用

Slide 33

Slide 33 text

Scheduled tasks in ChatGPT • OpenAIからタスクスケジュール機能がベータ版で登場 • タスクは、特定の時間 (1 回限りまたは定期的) または UI でトリガー • ユーザーがオフライン環境でも動く • タスクが完了すると、ユーザーにプッシュ通知またはメールが送信 • ChatGPT のタスクは GPT-4o を使用する • アクティブ タスクは常時 10 個までに制限 • サポート対象外:Voice chats、File Uploads、GPTs 1月27日 更新分 https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt

Slide 34

Slide 34 text

Perplexity launches an assistant for Android • Perplexity Assistantをリリース • スマホ画面かカメラで外界を観測し質問応答する • 行動もできる • 自分の地域のレストランを調べさせて、自動的に予約させることもできる • 15の言語(日本語含む)で無料で利用可能 1月27日 更新分 https://techcrunch.com/2025/01/23/perplexity-launches-an-assistant-for-android/

Slide 35

Slide 35 text

Perplexity launches Sonar, an API for AI search https://www.perplexity.ai/ja/hub/blog/introducing-the-sonar-pro-api https://techcrunch.com/2025/01/21/perplexity-launches-sonar-an-api-for-ai-search/ • Sonarと呼ばれるAPIサービスをリリース • 生成AI検索ツールを自社に組み込める • 安価で高速な基本の Sonar • 難しい質問に適した高価な Sonar Pro 価格 • 1,000回の検索ごとに5ドル • 約100万の入力トークンで1ドル(Pro 3ドル) • 約100万の出力トークンで1ドル (Pro 15ドル)

Slide 36

Slide 36 text

No content

Slide 37

Slide 37 text

1月13日 更新 • 論文 • プロダクト・ニュース

Slide 38

Slide 38 text

論文 12/30~1/10まで ツール利用 • ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use 推論 • Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought • Test-time Computing: from System-1 Thinking to System-2 Thinking 学習 • AgentRefine: Enhancing Agent Generalization through Refinement Tuning • TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action Agent Framework • Agents Are Not Enough • Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering • Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection agents • Agentic Systems: A Guide to Transforming Industries with Vertical AI Agents • Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches

Slide 39

Slide 39 text

論文 12/30~1/10まで Agentic AI System • User Simulation in the Era of Generative AI: User Modeling, Synthetic Data Generation, and System Evaluation • OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System Agentic RAG • Search-o1: Agentic Search-Enhanced Large Reasoning Models Software Agents • Training Software Engineering Agents and Verifiers with SWE-Gym(紹介しない) • SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution(紹介しない) GUI Agents • OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis • A3: Android Agent Arena for Mobile GUI Agents(紹介しない) • InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection(紹介しない) Data Agents • MDSF: Context-Aware Multi-Dimensional Data Storytelling Framework based on Large language Model Research Agent • DOLPHIN: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback(紹介しない) • Agent Laboratory: Using LLM Agents as Research Assistants • LLM4SR: A Survey on Large Language Models for Scientific Research

Slide 40

Slide 40 text

マルチホップツール利用の評価データセットを提案 ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use マルチホップツール利用 • モデルが複数のステップにわたってツールを使用しながら情報を収集し最終的な回答を導く GPT-4oでさえマルチホップツール利用の精度が49.04%にとどまり、改善の余地が大きい • 直接解答(Direct Answer): モデルがツールを使用せずにクエリを解く場合の正確性を測定 • 必須ツール利用(Mandatory Tool Use): モデルがツールを必須の状況で正確性とツール利用エラーを測定 • 自由選択(Free Choice): ツールの使用が任意で、モデルが独自に判断して問題を解く場合の性能を測定 ツールの例 歴史検索、計算機、アルバムリリース日検索、発明者検索 Agent Capabilities: ツール利用 1月13日 更新分

Slide 41

Slide 41 text

SynthLabs.ai から思考するモデルを作る方法の解説 Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought Meta-CoT Reasoningとは何か? • Meta-CoTは、探索と検証のプロセスを統合し、反復的で非線形的な推論を可能にする Meta-CoT Reasoningのプロセス 1. 探索(Search) • 問題解決の途中で複数の選択肢を試みるために、探索アルゴリズムを活用する • 例: モンテカルロ木探索(MCTS)やA*アルゴリズムを使用して最適な解決策を探索 2. 検証(Verification) • 各探索ステップで生成された結果が有効かどうかを評価する • 検証には、プロセス報酬モデル(PRM)や、結果を評価するための検証器(verifier)が使用される 3. 自己修正(Self-Correction)とバックトラック(Backtracking) • モデルは誤りを認識した際に、自ら解決策を修正する能力を持つ • また、探索過程で失敗した場合、過去の探索ステップに戻って別の経路を試すことができる 実験結果 • 推論能力の向上: Meta-CoTは、従来のCoTよりも難易度の高い問題において顕著に優れた性能を発揮 • 効率性の改善: 探索プロセスを内包することで、より少ない推論コストで高い精度の解答を生成可能 • 課題の発見: モデルが自己修正や検証を学習するには、十分なデータと訓練が必要であることが明らかに Agent Capabilities: 推論 1月13日 更新分

Slide 42

Slide 42 text

MLのテスト時の計算量を増やすことはどんな意味がある? Test-time Computing: from System-1 Thinking to System-2 Thinking テスト時の計算を活用して、AIモデルがより高度な「System-2型思考」を実現するための手法や進展を紹介 System-1思考 • System-1モデルでは訓練時の分布に基づいて直感的な処理が強みだが、未知の分布に対するロバスト性が欠ける • テスト時の計算を増やして、分布変化への適応やモデルのロバスト性・一般化能力を向上させる System-2思考 • System-2モデルでは高度な推論が可能だが、計算コストが高く効率化が必要 • テスト時の計算を増やして、人間の認知プロセスに近い高度な推論能力を目指す Agent Capabilities: 推論 1月13日 更新分

Slide 43

Slide 43 text

エージェントの未知環境の適応と自己修正能力を高める学習方法の提案 AgentRefine: Enhancing Agent Generalization through Refinement Tuning エージェントが自己修正し、未知環境への適応能力を向上させるAgentRefine 学習フレームワークを提案 • 現在のエージェント調整(Agent-Tuning)技術は、訓練データと同じ環境では良い性能を示すものの、新しい環境には 十分に一般化できない • フォーマットエラー、非論理的な推論、反復的な誤った生成が主な問題として挙げられる Refinement Tuning • エラーを含む軌跡データを生成し、リファインメントデータセットとする • データセットには多様な環境でドメインを増やして汎化性能を高める • エラーを直すことを学習させる一方で、エラーを生成することが誤学習されないよう損失を抑制 Agent Capabilities: 学習 1月13日 更新分

Slide 44

Slide 44 text

マルチモーダルな大規模行動モデルとそのデータセット作成方法を提案 TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action Multi-modal large action modelsのTACOを開発 • 推論中にChains-of-Thought-and-Action (CoTA) を生成し、中間ステップでOCR、深度推定、計算などの外部ツールを実行 • TACOの学習には高品質なCoTA用の人工データセット(293K例)を用いる 結果 • TACOは様々なタスク(OCR、数学的推論、空間的推論を含む)で既存モデルを上回る性能を達成 • CoTAデータのうち、誤答の軌跡や直接回答、CoTの軌跡を学習に入れると精度が下がる • ツール呼び出しが多いデータセットやCoTAの成功軌跡の割合を高めることで、モデルの推論能力と行動選択の精度を向上 Agent Capabilities: 学習 1月13日 更新分

Slide 45

Slide 45 text

今のエージェントに足りないことは? Agents Are Not Enough 現代のAI技術だけではタスクを自律的に実行する潜在能力を十分に引き出せない これまでのエージェント開発の失敗例を分析し、現在のエージェント技術の課題を特定 エージェントの課題 • 汎用性の欠如、スケーラビリティの問題、コミニケーションの課題、ロバスト性の欠如、倫理的課題と安全性 エージェントだけでは不十分な理由 • 価値の創出:自律的に実行する過程でユーザーが頻繁に介入や修正をする場合、エージェントの利用価値が低下する • 適応可能なパーソナライズ:各ユーザーや状況に応じた柔軟な対応が十分に実現されいない • 信頼性:リスクの伴う高度なタスクを遂行するほど、ユーザーの信頼が重要になる • 社会の受容:ユーザーの代理として取引や交渉を行うのを社会が受け入れるには時間がかかる • 開発の標準化:エージェント開発や利用が分散化されているため、互換性や信頼性の確保が難しい Agent Framework 1月13日 更新分

Slide 46

Slide 46 text

複雑なテーブル質問応答 (TQA) 用のマルチエージェント協調フレームワークを提案 Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering エージェントの内部アルゴリズム 1. 計画エージェントが行動(意図と指示文)を複数候補選択し、多数決で行動を選択する 2. 選択された行動に基づき、対応するツールを選択する 3. 行動と実行結果をメモリに記録する 4. 計画エージェントが「Finish」を生成するまで繰り返す 行動の種類 Agent Framework 1月13日 更新分

Slide 47

Slide 47 text

人間の「直感的な判断」と「熟考的な分析」を模倣した推論フレームワークを提案 Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection agents 複数の推論パスを並列実行し、各結果を統合して最適な解答を導き出す 1. 初期推論の生成 • 反応型(Reactive)エージェントが外部環境から質問を受け取り、初期推論を実行(直感的な判断) • この結果は「仮の解答」として共有メモリに格納 2. 内省(Reflection)による分析と修正 • 内省型エージェントは共有メモリから初期解答を取得し、精査と修正(熟考的な分析) • サブタスクを細分化して外部知識やツールを活用し、推論を深める 3. 結果の統合 • 各パスの結果を統合し、最終的な解答を生成 • 統合時には複数の推論パスの結果を比較して、最も適切なものを選択 異なるロールで複数パスを実行する方が良い結果 Agent Framework 1月13日 更新分

Slide 48

Slide 48 text

業界に特化した「垂直型AIエージェント」のガイド Agentic Systems: A Guide to Transforming Industries with Vertical AI Agents 従来のSaaSプラットフォームの限界 • 水平型の汎用性により一般的な業務プロセスを効率化する一方で、特定の業界や複雑な環境への対応力に欠けている 垂直型AIエージェントの設計基盤 • メモリ、推論エンジン、認知スキル、ツールの4つの主要モジュールで構成 • 各モジュールが相互作用し、ドメイン知識を活用しながら、複雑なタスクを効率的に解決 設計パターン • タスク特化型エージェント: 個別タスクを効率的に解決 • マルチエージェントシステム: 複数エージェントが連携し、複雑なタスクを分担 • 人間拡張型エージェント: 人間のフィードバックを取り入れ、信頼性と適応性を強化 ユースケース • 医療: 診断支援、患者データ統合、治療計画策定 • 金融: リスク評価、ポートフォリオ管理、投資分析 • 法務: 契約レビュー、法的リサーチ、規制準拠の検証 • 物流: 在庫管理、供給チェーン最適化、リアルタイムの障害対応 Agent Framework 1月13日 更新分

Slide 49

Slide 49 text

AGIに必要な能力とは何だろう?LLMはAGIになりうるのか Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches • AGIは、広範な知的能力を持ち、多様で複雑な認知タスクを追加の学習なしに遂行できるAIシステムを指す • 高度な認識、計画、推論、学習能力を備え、新しい状況や未知のタスクにも柔軟に対応できる点が特徴 必要な特徴 AGI能力への主な貢献 LLMでの実現方法 一般的なコメント 目標認識(Goal-awareness) ・自律性を強化する ・プロアクティブな行動を可能にする ・行動の一貫性を確保する ・複数のタスクを同時に処理する能力を強化する ・柔軟で適応可能な行動を促進する ・協力的なタスク遂行を促進する ・異常な状況からの復旧能力を向上させる ・データから暗黙的に学習する ・入力プロンプト内で目標を明示的に指定する ・目標認識に特化したデータセットで微調整を行 う ・深層学習モデルに明示的に目標を組み込む ・LLMの目標認識は特定のタスクに関する 低レベルの目標に限られており、すべての 状況で行動を導く高次目標には達していな い。 自己認識(Self-awareness) ・自身の限界を理解し、必要に応じて外部リソース を効果的に利用できる ・信頼性と安全性を向上させる ・内省を通じて継続的な学習と自己改善を促進する ・コンテキスト学習を活用する ・自己認識データセットで微調整を行う ・RLHFを使用する ・自己認識は本質的にタスク依存であり、 エージェントは限られた設定内で自己認識 を持つ可能性がある。 ・現在のところ、LLMの自己認識全体を評 価する方法はない。 状況認識(Situatedness) ・戦略的行動を促進する ・高レベルの文脈理解を強化する ・倫理的および社会的知能を促進する ・環境や他のエージェントとの相互作用を向上する ・危険やリスクを伴う状況や行動を認識して回避 ・現実世界のデータセットから深く学ぶ ・3Dグラフィックスツールを使用した合成データ セットを利用 ・ゲームエンジンに基づくインタラクティブなモ デルを使用 ・エゴセントリックデータセットは静的で インタラクティブではなく、大規模な作成 やスケールには高コストがかかる。 ・仮想ワールドモデルは非常にインタラク ティブでスケーラブルだが、Sim-to-Real ギャップの課題がある。 思慮のある行動(Deliberate action) ・本質的にエージェンシー(主体性)を可能にする ・長期的な計画を促進する ・物理的な相互作用の主要な仕組みとして機能する ・低レベルの感覚運動制御の手段として機能する ・ツールによりエージェントの能力を拡張する ・VLA(Vision-Language-Action)モデルなどの 特別な基盤モデルを使用 ・外部ツールの活用 ・神経記号的アプローチを使用したアクション シーケンスの学習 ・LLMエージェントが物理的な行動を実行 する能力は、明確なステップに分解できる シンプルな行動に限定されている。 Agent Framework 1月13日 更新分

Slide 50

Slide 50 text

ユーザーシミュレーションの必要性を考える User Simulation in the Era of Generative AI: User Modeling, Synthetic Data Generation, and System Evaluation ユーザーシミュレーション • タスク(T)システム(S)ユーザー情報(U)の3つの変数に基づいて、ユーザー行動をシミュレーションする 利用用途 1. ユーザーモデリング:システムのパーソナライズと改善を支援 2. 合成データ生成:データ不足を補い、機械学習モデルをトレーニング 3. システム評価:大規模かつ再現可能な方法でAIシステムの性能を評価 シミュレーション応用例 • ECサイト商品の満足度評価 • 推薦システムのための視聴する映画選定 • 個別指導型AI教育システムの教育評価 Agentic AI Systems 1月13日 更新分

Slide 51

Slide 51 text

様々な知識抽出をこなすマルチエージェントシステムの登場 OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System 提案手法「OneKE」は エージェントでニュースや特許など多様な知識抽出タスクに対応することを目的 とする • スキーマエージェント: ユーザーからのタスクに応じたスキーマ(出力形式)を生成 • 抽出エージェント: スキーマをもとに知識を抽出 • リフレクションエージェント: エラーケースを分析・修正 • 事前定義のスキーマリポジトリや成功や失敗基準のケースリポジトリも用意し更新していく Agentic AI Systems 1月13日 更新分

Slide 52

Slide 52 text

LRMsが推論中に外部知識を取得する行動をとるようになる Search-o1: Agentic Search-Enhanced Large Reasoning Models • Search-o1はLRMの推論中で事実が必要なとき検索クエリを生成し、検索結果を推論に統合する • 学習したツールを推論中で使うようになるとエージェントのアーキテクチャが変化するかもしれない 1月13日 更新分 Agentic RAG

Slide 53

Slide 53 text

GUIエージェントの操作の軌跡データを自動的に生成するパイプラインを提案 OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis 探索駆動型のデータ合成方法 1. 環境探索 • エージェントがGUI環境を探索し、画面の各UI要素に対して行動(クリック、入力、スクロールなど)を実行 • 各行動前後のスクショ(状態)と行動を状態遷移データとして記録 2. 低レベルタスク合成 • 状態遷移データを基に、具体的な操作(低レベルタスク)を合成 • 例:「ドロップダウンメニューをクリックしてオプションを表示」など 3. 高レベルタスク合成 • 低レベルタスクを統合し、全体的な目的を持つ高レベルタスクを合成 • 例:「イベントをスケジュールする」「商品をカートに追加する」など 軌跡報酬モデル(TRM): 合成データの質を評価し、タスク達成度や論理的一貫性を基にスコアリング OS-Genesisは、従来手法では見逃されがちな操作やタスクを含み、精度もデータ多様性も向上した 項目 タスク駆動型データ合成 OS-Genesis タスクの起点 事前定義されたタスク 環境の探索に基づくタスク作成 データの多様性 低い(固定された操作に限定される) 高い(柔軟で多様な操作が可能) 人間の関与 必要(タスク設計と操作の実行) 不要(完全に自動化) コスト 高い 低い データの質と量 制限あり(スケールが難しい) 高品質で大規模なデータ生成が可能 Digital Agents 1月13日 更新分

Slide 54

Slide 54 text

エージェントにデータ分析の洞察を語らせる MDSF: Context-Aware Multi-Dimensional Data Storytelling Framework based on Large language Model データストーリーテリング(Intelligent Data Storytelling) • データ分析プロセスを自動化する手法で、わかりやすく、説得力のある「物語」として伝えることを目的とする ビジネス分析 売上データやユーザー行動を解析し、売上向上のための戦略を提案 売上のトレンドや異常値を検出し、その背景を説明 マーケティング キャンペーンの効果を分析し、次の施策に活用可能なインサイトを提供 提案手法は、多次元データ分析のデータストーリーテリングを提案 • インサイト発見、文脈に基づくストーリーテリングの2段階 データ分析のインサイト評価項目 • 重要性、意義、ユーザーの驚き、似たような洞察度合い、解釈可能性 Data Agents 1月13日 更新分

Slide 55

Slide 55 text

研究の自動化はo1-previewを使うとさらに結果の質が上がるのか Agent Laboratory: Using LLM Agents as Research Assistants Agent Laboratoryは、研究プロセス全体を自動化し、科学的発見を加速するために設計されている 文献レビュー • LLMエージェントが、arXiv APIを使用して関連する研究論文を検索し、要約を作成し、最適な論文セットをキュレーションする • o1-previewを使うと論文の関連性が高く、研究の背景説明が充実した 実験 計画作成: PhDエージェントとPostdocエージェントが共同で、実験計画を策定する データ準備: エージェントがPythonコードを自動生成して、データの前処理を行う 実験実行:mle-solverというモジュールを使用して、機械学習コードの生成、テスト、改良を自律的に行う レポート作成 • paper-solverモジュールを使用して、LaTeX形式で学術論文を自動生成する • o1-previewを使うと学術論文の規範に忠実であり、会議提出用フォーマットに適合した 実験結果 o1-preview, o1-mini, gpt-4oで実験比較 • 実験の質はo1-miniがベスト • レポートの質はo1-previewがベスト • 最終的にはo1-previewが最も良い結果に Research Agents 1月13日 更新分

Slide 56

Slide 56 text

研究の自動化に向けたサーベイ論文 LLM4SR: A Survey on Large Language Models for Scientific Research 科学的仮説の発見 • LLMは科学的知識やデータに基づき、新しい研究仮説を生成する可能性を持っている • LLMが関連文献でインスピレーションを受けて仮説を生成し、新規性や妥当性による評価フィードバックを受け改良する 実験の計画と実施 • 実験計画の最適化や自動化を通じて、研究者の労力を軽減し、効率を向上させる • LLMが複雑なタスクの分解、実験条件の決定、リソース判断、データ準備、実験の実行、データ解析をする 科学論文の執筆 • LLMは引用文生成、関連研究セクションの作成、ドラフトの執筆に役立つ • 正確性や一貫性の維持、盗用など学術的倫理問題に課題がある 査読 • 査読プロセスでLLMsを利用することで、効率性と一貫性を向上させる • 論文の要約、評価コメントの生成をするが、専門分野特有の概念や手法の理解が不十分 Research Agents 1月13日 更新分

Slide 57

Slide 57 text

1月13日 更新 • 論文 • プロダクト・ニュース

Slide 58

Slide 58 text

1月13日 更新 リリース • Introducing smolagents, a simple library to build agents ブログ • 3 Predictions for the Future of AI Agents in 2025 • AI Agents 2024 Rewind - A Year of Building and Learning • The Agentic AI Era: After the Dawn, Here’s What to Expect • Introducing Agentic Document Workflows • Integrating AI Agents into Companies

Slide 59

Slide 59 text

Introducing smolagents, a simple library to build agents HuggingFaceからsmolagentsというPythonライブラリが登場 いつエージェントが必要になるか • ワークフローをあらかじめ定義できる場面では、手続き的に実装した方が単純で信頼性が高い • しかし、柔軟性が求められるタスク(複雑な問い合わせや外部情報を組み合わせる必要がある場面)ではエージェントが有効 smolagentsの特徴 • CodeAgentを使うと、LLMが出力するコードをサンドボックス環境で実行できる • 従来の「JSON形式のツール呼び出しエージェント」もサポート • エージェントを作るには「ツール」と「モデル」が必要 • 既存のtransformers.agentsを置き換える予定 https://huggingface.co/blog/smolagents 1月13日 更新分

Slide 60

Slide 60 text

3 Predictions for the Future of AI Agents in 2025 マルチエージェントネットワークの台頭 • 単一エージェントが成熟したため、エージェントが他のエージェントを発見して協力できるエージェントのネッ トワーク/システムが重要になると予想 垂直型エージェントのSaaS時代 • 2025 年に初めて 10 億ドル規模の垂直統合型 AI エージェント企業が出現する年になると予想 • 例)情報の収集に関わるタスクを処理するAIエージェント • 例)デジタル出力(ドキュメント、電子メール、レポートなど)を生成できるエージェント • 例)一般的なソフトウェアツールとプラットフォームの使用方法を知っているエージェント • 例)これらのタスクを便利なワークフローにまとめることができるエージェント デジタルライフの一部を担うエージェント • AI エージェントが私たちのデジタル プロキシとなり、私たちの好みを理解すると予想 • 例)あなたの好みやパターンを理解するAIエージェント • 例)あなたに代わってウェブサイトやツールをナビゲートできるエージェント • 例)複雑で多段階のタスクを処理できるエージェント(常時監視なし) https://simple.ai/p/3-predictions-for-the-future-of-ai-agents-in-2025 1月13日 更新分

Slide 61

Slide 61 text

AI Agents 2024 Rewind - A Year of Building and Learning 2024 年の AI エージェントの構築と研究から得られた 5 つの事項 1. 多くの企業やスタートアップは製品に「エージェント」という用語を採用 • エージェントは、ユーザーの時間を節約し、面倒で忙しい作業を回避することを目指す • エージェントは自然言語リクエストを複数の API 呼び出しに変換する薄いオーケストレーション レイヤーとして機能 2. 研究チームは「エージェントネイティブ」な基盤モデルをゼロから構築している • エージェント機能が生成モデル自体に「組み込まれている」 • 既に計画部分はLarge Reasoning Modelに組み込まれている 3. インターフェース自動化エージェントが主役に • APIやコード操作からユーザーインターフェイス (Web、デスクトップ) を直接操作する 4. 複雑なタスクへの移行とフレームワークの台頭 • アプリ開発など、より複雑で自律的なユースケースさらには汎用への移行の年 • 重要な課題:タスクの選択(分岐ロジック、リフレクション、メタ認知など)を効果的に実装する方法 5. ベンチマークは進歩と限界の両方を明らかにする • 専門家エージェントは狭いドメインで優れた能力を発揮したが、汎用エージェントは複雑で制限のないタスクに苦戦 2024 年がエージェントが問題解決の実行可能なアプローチとして登場した年であったとすれば、2025 年はエージェ ントが特定の問題領域において事実上最高のパフォーマンスを発揮する https://www.zenml.io/blog/llm-agents-in-production-architectures-challenges-and-best-practices 1月13日 更新分

Slide 62

Slide 62 text

Integrating AI Agents into Companies 企業がAIエージェントを活用しようとする際のポイントをまとめた記事 AIは「高速」「大容量の情報処理」が強みの一方で、人間が当たり前に持っている社会的・組織的コンテクストを理解しづらい 文書化の徹底 • 組織の構造や手順を「wiki」などに大規模にまとめ、AIエージェントの参照可能な情報を整備する。 • 書面ベースにすることで、AIが人間に質問したり関係構築したりする必要を減らし、速度を活かせる。 レビューから「事前承認+監視」へ • 多数の担当者によるレビューは遅れの原因になるため、要件や単体テストをAIが自動生成し、合格すれば先に進める仕組みに移行する。 • その後、異常が発生した場合に監視システムが検知する形で品質を確保する。 「ストップワーク権限(Stop Work Authority)」の導入 • トヨタ生産方式のように、疑わしい不具合を検知したら即座に作業を止める仕組みをAIにも与える。 • 人間は迅速に原因を確認し、文書や手順・モデルを修正する。 「Design for AI」を意識した設計 • 工場などで「Design for Manufacturing(製造を意識した設計)」があるように、AIが得意とするタスク構成を前提に業務プロセスや製品設 計を見直す。 • 上流工程で十分検討し、後工程の手戻りを最小化する。 ヒトの関与を最小化し、会議文化を減らす • 作業フローを自動化し、人間が承認やレビューで待ち時間を生まないようにする。 • 情報共有や進行管理は文書化を基本とし、不要な定例会議を削減する。 https://www.austinvernon.site/blog/aimanagement.html 1月13日 更新分

Slide 63

Slide 63 text

Introducing Agentic Document Workflows 「Agentic Document Workflows (ADW)」は、ドキュメントを核とした複数ステップのビジネスプロセスをエン ドツーエンドで自動化・最適化する仕組み 代表的なユースケース 1. 契約書レビュー(コンプライアンス分析) • 規制要件との照合、リスク箇所の特定、提案の生成 • 法務部門を支援しながら最終判断は人が行う 2. 医療文書の患者ケース要約 • 多様な医療文書からの情報抽出・整理、診断支援 • 患者履歴や治療経過を一元的に把握し、ガイドラインと照合 3. 請求書処理 • 支払いタイミング最適化や価格検証を自動化 • 経理業務の効率化とキャッシュフロー最適化に貢献 4. 自動車保険のクレーム処理 • 申請フォームや保険証券情報を照合し、必要情報を整理 • 担当者が最終的に判断する情報を構造化して提示 https://www.llamaindex.ai/blog/introducing-agentic-document-workflows 1月13日 更新分

Slide 64

Slide 64 text

The Agentic AI Era: After the Dawn, Here’s What to Expect SalesforceのAIプラットフォーム「Agentforce」のローンチを起点として、これからのビジネス環境が「Agentic AI」の時代に突入すると主張している 企業向けAIエージェントの3つのステージ ステージ1: 「モノフォニック」AI(専門特化型) • 特定のタスクや業務領域で卓越した性能を発揮 • 例: 在庫管理や請求処理、予測分析、パーソナライズされた商品推奨など、明確なタスクを高速かつ正確に実行 ステージ2: 「ポリフォニック」AI(複数エージェントの協調) • 社内の複数の専門エージェントを「オーケストレーター」が束ね、共通のビジネスゴールを達成 • 例: カスタマーサービスで、在庫・配送・請求関連のエージェントが連携し、最終的に人間がチェックして顧客対応を行う • メリット: 信頼性・セキュリティが向上し、専門分野ごとにAIを拡張しやすい ステージ3: 「アンサンブル」AI(企業を超えたエージェント連携) • 社外の組織や個人のエージェント同士が自動的かつ安全にやり取りする新しいビジネスモデルを創出 • 例: 個人のAIエージェントと企業のAIエージェントが、価格交渉や契約締結を自動で行う • 要件: お互いの利害調整、リスク管理、ゲーム理論に基づく交渉など、高度なプロトコルやセキュリティ・規制が求められる https://www.salesforce.com/blog/the-agentic-ai-era-after-the-dawn-heres-what-to-expect/ 1月13日 更新分

Slide 65

Slide 65 text

No content