Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News!

masatoto
February 10, 2025

Weekly AI Agents News!

2025年2月10日更新済み。次回2月24日更新予定
AI エージェントに関する論文かニュースをシンプルにまとめます。

X : @ottamm_190

masatoto

February 10, 2025
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論文 2/3~2/7まで プロフィール • PsyPlay: Personality-Infused Role-Playing Conversational Agents 学習

    • Improving Vision-Language-Action Model with Online Reinforcement Learning • Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search 自己修正 • RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques • Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge 安全性 • Context is Key for Agent Security
  2. 論文 2/3~2/7まで Agent Framework • Multi-agent Architecture Search via Agentic

    Supernet Digital Agents • AI Agents for Computer Use: A Review of Instruction-based Computer Control, GUI Automation, and Operator Assistants Data Agents • Jupybara: Operationalizing a Design Space for Actionable Data Analysis and Storytelling with LLMs Multi Agent Systems • Position: Towards a Responsible LLM-empowered Multi-Agent Systems • ToM-agent: Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection • Multi-Agent Geospatial Copilots for Remote Sensing Workflows
  3. LLMを用いたロールプレイング型会話エージェント「PsyPlay」を提案 PsyPlay: Personality-Infused Role-Playing Conversational Agents 性格特性を一貫して反映する新たな手法 1. ロールカード作成: Big

    Five(5因子性格モデル)の特性を持つエージェントキャラクターを大量に生成 2. トピック抽出: 公開データセット(Human Stress Prediction)から現実的な対話トピックを抽出 3. 対話生成: 各エージェントが割り当てられた性格特性を維持しながら会話を展開 ポジティブな性格は、対話ターンが増えると性格がより強く反映される ネガティブな性格は、相手に影響されやすく、ターン数が増えると性格がブレやすい 2月10日 更新分 プロフィール
  4. オンライン強化学習によるVLAモデルの汎化と学習安定性の強化 Improving Vision-Language-Action Model with Online Reinforcement Learning ロボット制御のためのVLAモデルをRLによってさらに改善する方法を探求する VLAモデルへのオンラインRLの直接適用は、学習の不安定性や高い計算コストといった課題

    iRe-VLAは、RLとSFTを交互に繰り返すことで、探索の恩恵を受けつつ安定した学習を実現 教師あり学習(Stage 0) • ロボットの専門家データセットを用いてVLAモデル(BLIP-2 3B + Action head)をファインチューニング オンライン強化学習(Stage 1) • VLMのパラメータを固定し、アクションヘッドのみを更新することで学習の不安定性を軽減 教師あり学習の再適用(Stage 2) • 強化学習で得られた成功データと元の専門家データを統合し、モデル全体をファインチューニング Stage 1とStage 2を交互に繰り返す • 見たことのない物体のピック成功率を0.35→0.80に向上 • 未学習タスク(他の新しい物体)への成功率も向上(0.37→0.61) 2月10日 更新分 学習
  5. 強化学習を使い、LLMに自己探索と自己反省能力を付与 Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via

    Autoregressive Search 自己探索と自己反省を通じて、外部モデルの助けなしに高度な推論を行うモデルの学習方法の提案 Chain-of-Action-Thought (COAT) 通常のCoTにメタアクションを追加 • Continue Reasoning (<|continue|>):既存の推論を継続 • Reflect (<|reflect|>):途中で間違いを検証し修正 • Explore Alternative Solution (<|explore|>):新しいアプローチを試行 学習方法 フォーマット・チューニング(Format Tuning, FT) • 小規模なデータセット(10,000サンプル)を使用し、LLMにCOAT推論のフォーマットを学習させる • 特に「どのタイミングでReflect/Exploreを使うか」 を学習する 自己強化学習(Self-improvement via RL) Restart and Explore (RAE) 戦略 • 間違いを犯した場合、最初からではなく、誤った途中の状態から再開し、学習効率を向上 • 報酬は、最終的な解答が正解なら+1, 不正解なら-1、自己修正ボーナス、人間の好む推論ボーナスもある 2月10日 更新分 学習
  6. LLMの批評能力を評価するベンチマーク「RealCritic」を提案 RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques ①

    自己批評の評価 • o1-mini は、自己批評タスクで他のLLMよりも高い自己改善能力を発揮 ② 他モデル批評の評価 • ほとんどのモデルが他モデルの解答を批評することで精度を向上させた ③ 反復批評の評価 • 複数回の批評を繰り返すと、ほとんどのモデルが精度を向上 批評タイプ 概要 自己批評(Self-Critique) モデルが自身の出力を批評し、修正する能力を評価 他モデル批評(Cross-Critique) 別のモデルが生成した解答を批評し、修正する能力を評価 反復批評(Iterative-Critique) 複数回の批評と修正を繰り返し、より良い解答を生み出す能力を評価 2月10日 更新分 自己修正
  7. LLM-as-a-Judgeの評価計画と実行を分離したモデルの提案 Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge

    LLMを評価者(LLM-as-a-Judge)として利用する際、以下の課題が存在していた 1. 人間が設計した評価基準に依存(例: 手作業で作成された評価ルール) 2. 評価の基準と推論が一体化しており、曖昧(計画なしに直接評価するため、基準の一貫性が低い) 3. 人間のアノテーションデータが不足(学習データの収集コストが高い) 提案するEvalPlanner はCoTを用いたPlan and Execution型の評価を行い、評価の精度と透明性を向上させる EvalPlannerの学習方法 • 評価の合成データを作成し、モデルを学習 • 学習したモデルを使って、新たな評価計画・評価推論を生成 • これを繰り返し、徐々に精度を向上 2月10日 更新分 自己修正
  8. コンテキストに基づく動的なポリシーを作成し、エージェントのセキュリティを強化 Context is Key for Agent Security 従来のセキュリティシステムでは、事前に定義された静的なポリシーやユーザー確認が必要だったが、エージェ ントが多様なタスクを遂行する現代では、このアプローチは拡張性に欠ける AIエージェントのセキュリティを強化するフレームワークConseca

    を提案 1. 信頼できるコンテキストの識別 • 開発者がエージェントの動作において信頼できるデータを明確に定義する 2. コンテキストに基づく動的セキュリティポリシーの生成 • 大規模言語モデル(LLM)を活用し、タスクごとに適切なポリシーを作成 • send_email: メール送信が許可される条件(例: ユーザーがアリスであり、受信者が会社のドメイン内で、件名に 「urgent」が含まれる場合) 3. ポリシーの適用 • 生成されたポリシーを厳密に適用し、許可されないアクションをブロック 2月10日 更新分 安全性
  9. マルチエージェントシステム(MAS)の設計を自動化する手法の提案 Multi-agent Architecture Search via Agentic Supernet MaAS(Multi-agent Architecture Search)を提案

    • 問い合わせの難易度やドメインに応じて動的なMASサンプリングを実現 • 問い合わせが単純な場合、不必要なエージェントの呼び出しを避け、計算コストを削減 2月10日 更新分 Agent Framework
  10. GUIエージェントの学習と推論エージェントの比較しているサーベイ論文 AI Agents for Computer Use: A Review of Instruction-based

    Computer Control, GUI Automation, and Operator Assistants 基盤と特化エージェントの比較が図でわかりやすい エージェントの課題 • 環境適応の効率化:LLMが環境ごとに学習・適応する方法の確立が必要 • 計画能力の向上:タスクの長期的なステップ管理や論理的思考の発展が求められる • 観察と行動の最適化:画像とテキストの融合、UIとの最適な相互作用設計の研究 2月10日 更新分 Digital Agents
  11. データ分析とストーリーテリング支援ができるJupyter Notebookの拡張機能を開発 Jupybara: Operationalizing a Design Space for Actionable Data

    Analysis and Storytelling with LLMs CHI’ 25に採択された論文 専門家による評価を実施し、Jupybaraの操作性・制御性・説明性・修正可能性が高いことが示された 左パネル:EDA支援 右パネル:EDA・ストーリーテリング支援 解析計画 コード生成 結果の説明や補足情報 解析の設定 特定のセルに関する質問 各分析ステップの可視化 データストーリーテリング 2月10日 更新分 Data Agents
  12. 責任のあるマルチエージェントシステムに向けて Position: Towards a Responsible LLM-empowered Multi-Agent Systems LLMの恩恵でMASは知識と推論能力を得たが課題がある LLM-MASの課題

    (1) 知識ドリフトと誤情報の伝播 • LLM-MASは、明示的にプログラムされたゴールを持たず、知識の不安定性が高い • 「認知バイアス拡張」により、誤った情報が補強され、集合的な推論エラーが増加する (2)エージェント間の相互理解の難しさ(合意の衝突) • エージェント間の知識の非対称性により、合意形成が困難になる • LLMの曖昧な自然言語表現が誤解を生み、MAS内での衝突が発生する (3) LLM-MASの評価 • 既存の評価手法は単一エージェント向けのものが多く、MASに適用するには課題がある • 時系列的な相互作用や動的変化を考慮した評価基準が求められる 「人間中心のモデレーション」と「確率論的な合意形成・不確実性管理」の導入が必要 2月10日 更新分 Multi Agent Systems
  13. 自分の予想と実際の結果の違いを内省すると対話の質が向上 ToM-agent: Large Language Models as Theory of Mind Aware

    Generative Agents with Counterfactual Reflection ToM-agent は、会話における相手の信念(Beliefs)、欲求(Desires)、意図(Intentions)BDIを推測し、その 信頼度を調整する機能を持つ さらに反事実的介入(Counterfactual Reflection)を導入し、予測した応答と実際の発話のズレを分析することで、 エージェントの自己反省能力を向上させる 共感対話(Empathetic Dialogue)および説得対話(Persuasion Dialogue)で評価 ToMを導入することでエージェントの対話能力が向上 ToM + CR を導入すると全体的にスコアが向上 2月10日 更新分 Multi Agent Systems
  14. リモートセンシングに関する広範囲なタスクをこなすマルチエージェントを開発 Multi-Agent Geospatial Copilots for Remote Sensing Workflows エージェントのオーケストレーションにより、地理空間タスク処理を分離し、各タスクを専門的なサブエージェ ントに委任する

    都市監視、森林保護、気候分析、農業研究などの多様なアプリケーションを統合できる 合計521のAPI関数が実装され、単一エージェントの約3倍の規模となった 都市計画、農業、エネルギー、環境、保険、防衛、不動産、物流、金融、通信 の業界で応用可能 2月10日 更新分 Multi Agent Systems
  15. Deep ResearchがOpenAIからも登場 アカウント調査・キャリア相談 • SNSのアカウントレポートを作成、SNSでバズった投稿を抽出しテーマを分析 • 経歴書を入力してキャリア相談 学術論文サーベイ • ある研究分野の最新動向を網羅的にリサーチ(専門家が見ても重要な論文を網羅)

    ビジネス領域(市場調査・競合分析) • 事業成長戦略の提案、業界分析、競合調査 プライベート利用 • プレゼントの選定、家族旅行のプラン作成、子育て計画 仮想通貨・株関連 • ビットコインのレポート作成、仮想通貨トレード戦略の策定 ドキュメント作成 • Tipsのまとめ、ブログ記事の作成、書籍の執筆 ITエンジニア向け活用 • 技術調査、開発レポートの作成 Deep Researchのプロンプト構成例 https://note.com/currypurin/n/nda17942144f4
  16. GitHub Copilot:エージェント GitHub Copilotの新機能としてエージェントモードの導入 • コードの自己修正、ターミナルコマンドの提案・実行、ランタイムエラーの自己修復 • OpenAI: GPT-4o •

    Anthropic: Claude 3.5 Sonnet • Google: Gemini 2.0 Flash Copilot Editsの一般提供(GA) • 複数ファイルの編集、自然言語での変更リクエスト、編集結果をインラインで確認・調整 • OpenAI: GPT-4o, o1, o3-mini • Anthropic: Claude 3.5 Sonnet • Google: Gemini 2.0 Flash GitHubと紐づくSWEエージェント • AI駆動の自律型エージェントがソフトウェア開発を支援・代行 • コードの生成・レビュー • コードベースのリファクタリング・最適化 • テストやCI/CDパイプラインの自動化 • エラーのトラブルシューティング • ベストプラクティスの提案 https://github.blog/jp/2025-02-07-github-copilot-the-agent-awakens/
  17. LangGraphでAIエージェントアプリケーションを設計する際のポイント Algomaticから「自然言語によるデータウェアハウス(DWH)への問い合わせと可視化 」の解説記事 1. ユーザーがWeb UIに自然言語で分析したい内容を入力 例:「商品Xと商品Yの過去一年における月次の売上推移を折れ線グラフで示して」 2. 自然言語からSQLへ変換し、DWHに問い合わせを実行 •

    SQL実行結果をUI上に表示 3. ユーザーが表示されたSQL実行結果を確認し、次の行動を決定 • A:SQLの実行結果が想定と異なる → 2へ戻る • B:実行結果が想定どおり → 次のフェーズへ移行 4. SQL実行結果に合わせてグラフを生成 • 最適なグラフ(折れ線・棒グラフなど)を作成し、UIに表示 5. ユーザーがグラフ表示結果を確認 • C:グラフの表示形式について修正を依頼 → 4へ戻る • D:グラフのデータ内容自体を修正したい → 2へ戻る https://forest.watch.impress.co.jp/docs/serial/aidev/1657337.html
  18. Cline: A context window is like RAM for your AI

    coding assistant コンテキストウィンドウに詰め込む情報 • どんなファイルを見たか、会話の履歴、プロジェクトの要件 、過去の決定 コンテキストウィンドウを監視する 以下の場合、コンテキストの使用状況を注意深く監視する • 大規模なリファクタリングタスク • コードベース分析セッション • 複雑なデバッグ操作 重要な閾値で行動を起こす コンテキスト容量の 70 ~ 80% に近づくと 1. 新たなスタートを検討する 2. タスクを小さな塊に分割する 3. 特定のコンポーネントにクエリを集中する 4. 重要な決定事項を文書化する コンテキストの詰め込み量を確認 https://cline.bot/blog/understanding-the-new-context-window-progress-bar-in-cline
  19. 論文 1/13~1/24まで ツール利用 • ACEBench: Who Wins the Match Point

    in Tool Learning? (紹介しない) 学習 • 自己修正能力を獲得する学習フレームワーク「Agent-R」を提案 • Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training • エージェントが新しい環境に自律的に適応できるよう、軌跡データ生成するフレームワーク • Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments メモリ • 動的な自己更新型ライブラリを持つChem Agentの提案 • ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning 自己進化 • 学び続けるエージェントの実現に向けて生涯学習を知っておこう • Lifelong Learning of Large Language Model based Agents: A Roadmap
  20. 論文 1/13~1/24まで Agent Framework • 計画や思考、行動を方策が選ぶエージェント • PoAct: Policy and

    Action Dual-Control Agent for Generalized Applications • モジュールを組み合わせ計画と実行を完遂するエージェント • A Multimodal Social Agent • 標準操作手順をもとに行動するエージェント • SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs • エージェントの認証、行動範囲と参照範囲の認可 • Authenticated Delegation and Authorized AI Agents Agentic AI Systems • クラウド運用やITシステムの管理をエージェントで自動化 • AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds • 個別教育プラットフォームのユーザー行動をシミュレーション • Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems
  21. 論文 1/13~1/24まで Agentic RAG • Agentic RAGの種類を網羅したサーベイ論文 • Agentic Retrieval-Augmented

    Generation: A Survey on Agentic RAG • 情報密度の高い文章コンテンツを生成させる方法を提案 • OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking Software Agents • LLMベースのコード生成プロセスを体系的に整理 • Towards Advancing Code Generation with Large Language Models: A Research Roadmap API Agents • 小型無人航空システム(sUAS)のシミュレーションテストプロセスを自動化 • LLM-Agents Driven Automated Simulation Testing and Analysis of small Uncrewed Aerial Systems Digital Agents • 自己データ収集によるGUIエージェントモデル「UI-TARS」を提案 • UI-TARS: Pioneering Automated GUI Interaction with Native Agents • アリババから階層型の自己進化モバイルエージェントの提案 • Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
  22. 論文 1/13~1/24まで Data Agents • データ品質や前処理の自動化をおこなうデータ中心なエージェント • Towards Human-Guided, Data-Centric

    LLM Co-Pilots Research Agents • 文献調査エージェントをいつ使う? • PaSa: An LLM Agent for Comprehensive Academic Paper Search Embodied Agents • EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents(紹介しない) Multi Agent Systems • マルチエージェント協調を俯瞰する • Multi-Agent Collaboration Mechanisms: A Survey of LLMs
  23. 自己修正能力を獲得する学習フレームワーク「Agent-R」を提案 Agent-R: Training Language Model Agents to Reflect via Iterative

    Self-Training Agent-Rは以下の2つのフェーズで構成 1. モデル主導型の修正軌跡の生成 • モデルがMCTSを用いて軌跡を探索し、エラー箇所を特定 • 悪い軌跡を途中で切断し、正しい軌跡に接続して修正軌跡を生成 2. 修正軌跡を用いた反復学習 • 修正軌跡と良い軌跡、一般的な軌跡を使用してモデルを訓練する • 学習したモデルで軌跡を集める • 再学習を重ねることで、より早期にエラーを検出し、修正できる 実験結果 理想的な軌跡だけで学習するより修正軌跡で反復学習すると良かった • エラー検出の早期化: 軌跡内でのエラー箇所を迅速に特定可能 • ループ回避能力: 同じ行動を繰り返す「デッドループ」に陥りにくい • タスク成功率の向上: 他の手法を用いたモデルよりも高いタスク達成した 学習で比較する軌跡 • 理想的な軌跡: 完全な軌跡で、エラーは一切含まれない • 良い軌跡: 高い成果を上げたが、エラーや無駄な行動が含まれる軌跡 • 直接修正軌跡:軌跡の終端でエラーを修正した軌跡 1月27日 更新分 Agent Capabilities: 学習
  24. エージェントが新しい環境に自律的に適応できるよう、軌跡データ生成するフレームワーク Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic

    Environments エージェントが相互作用する環境から得られる高品質なデータ不足が性能向上の妨げになっている 人間によるラベル付けを必要とせず、新しい環境にエージェントを迅速に適応させる仕組みを提案 Learn-by-interact フレームワーク • 環境のドキュメントやチュートリアルを参照してタスク指示を生成し、LLMが実行して軌跡データを収集 • 生成された軌跡データを要約・抽象化し、新たなタスク指示を生成(サブタスクで量増し) • 低品質なデータを除外するための自動フィルタリング • タスク意図に基づく検索と現在と同じ状態の検索を組み合わせたエージェント専用の履歴検索を設計 1月27日 更新分 Agent Capabilities: 学習
  25. 動的な自己更新型ライブラリを持つChem Agentの提案 ChemAgent: Self-updating Library in Large Language Models Improves

    Chemical Reasoning 1. タスク分解:化学タスクを細分化し、それぞれを解決可能な単位に分割 2. ライブラリの構築:分解されたサブタスクとその解法をライブラリに保存し、将来のタスクで参照可能に 3. ライブラリに含まれる三種類のメモリ構成 • 計画メモリ(Planning Memory):高レベルの戦略や方法論を記録 • 実行メモリ(Execution Memory):特定タスクの解法を記録 • 知識メモリ(Knowledge Memory):化学の基本原理や公式を保持 メモリの内容 ライブラリを使った推論 1月27日 更新分 Agent Capabilities: メモリ
  26. 学び続けるエージェントの実現に向けて生涯学習を知っておこう Lifelong Learning of Large Language Model based Agents: A

    Roadmap • 生涯学習(Lifelong Learning)では、新しい知識やスキルを継続的に学習しながら、過去に学んだ情報を保持 し、新たなタスクにも適応する • エージェントでは知識管理、動的タスク適応、ツール統合で生涯学習をする • LLM登場以前から転移学習の文脈で議論されていた • 知識の安定性(既存の知識を保持する能力)と可塑性(新しい情報を学ぶ能力)がトレードオフになる • 過去の知見を活かすか、新しく学ぶかの境目が難しい 1月27日 更新分 Agent Capabilities: 自己進化
  27. 計画や思考、行動を方策が選ぶエージェント PoAct: Policy and Action Dual-Control Agent for Generalized Applications

    PoActは以下2つのコントローラーを活用し、より高品質な推論とアクションを実現する 1. Policy Controller:推論過程の異なるステップ(計画、思考、コード生成)に応じて推論ポリシーを動的に切り替え 2. Action Controller:行動空間を動的に調整し、推論パスをレビューすることで、正確で効率的なタスク実行 PoActは、ReActに比べて最大20%以上の成功率向上を達成し、トークン消費を削減 1月27日 更新分 Agent Framework
  28. 標準操作手順をもとに行動するエージェント SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs

    自然言語で記述された擬似コード形式のSOPを使用し、エージェントの行動を制御 SOPを 「決定グラフ」 として表現し、エージェントのタスク遂行をガイド 深さ優先探索(DFS)を用いて決定グラフを探索して問題解決する タスク: サービス中断対応(SOPの例) - 顧客の認証を行う - 行動: 顧客IDを確認 (`authenticate_customer()`) - 認証失敗の場合、再認証のガイドを提供 - サービスステータスを確認 - 行動: 地域のサービス中断状況を確認 (`check_area_outages()`) - 中断があれば、顧客に通知し、復旧予定時間を伝える (`provide_resolution_time()`) - 中断がなければ、接続状況を確認 (`assess_line_connection_status()`) - 顧客問題が解決しない場合、技術サポートチームにエスカレーション - 行動: 問題を記録し、技術チームに転送 (`escalate_to_tech_support()`) タスク: 質問応答(SOPの例) - 質問文を読み、回答に必要な情報を特定する - 行動: キーワード検索 (`search(entity)`) - 検索結果に基づいて、次の文書を調べる - 必要な情報を集めたら、質問に答える - 行動: 回答を短い形式(例: "はい"、"いいえ"、具体的なエンティティ名)で出力 (`answer(question)`) - もし情報が不十分であれば、別のキーワードを検索 タスク: データクレンジング - データを読み込む (`read(data.csv)`) - 数値形式でない列を特定し、数値に変換する - 行動: ラベルエンコーディングを適用 (`convert_to_numerical(columns)`) - 欠損値を補完する - 行動: ランダムフォレスト手法で欠損値を埋める (`fill_missing_values(method=random_forest)`) - 外れ値を検出して除去する - 行動: Local Outlier Factor(LOF)法を適用 (`remove_outliers(method=LOF)`) - 重複行を削除する - 行動: データセットをクリーンアップ (`remove_duplicates()`) 1月27日 更新分 Agent Framework
  29. エージェントの認証、行動範囲と参照範囲の認可 Authenticated Delegation and Authorized AI Agents AIエージェントがデジタル空間で安全かつ責任を持って行動できるようにするための重要な一歩となる研究 OAuth 2.0を拡張し、認証とアイデンティティ情報の提供を追加

    • エージェントIDトークン: エージェントのユニークIDや属性(例: システム能力、制限)を含む • 委任トークン: ユーザーがAIエージェントに特定のタスクを許可するためのトークン 「タスクスコーピング」と「リソーススコーピング」の二重の仕組みで安全性を確保 自然言語による指示をXMLやJSON形式に変換し、AIエージェントの行動を制限できる仕組みがある 欧州のAI法律との整合性を考慮 AIエージェントの識別と追跡ができる • 各エージェントが一意のIDを持つため、操作や責任の所在を明確化 誤った操作やリスクの軽減ができる • スコーピングによりエージェントが許可されていない操作を防止 Agent Framework
  30. クラウド運用やITシステムの管理をエージェントで自動化 AIOpsLab: A Holistic Framework to Evaluate AI Agents for

    Enabling Autonomous Clouds AIOpsAgents(AI for IT Operations Agents)は、クラウド運用やITシステムの管理に特化したAIエージェント 問題検出(Detection) • システムのメトリクスやログデータを解析し、異常や問題をリアルタイムで検出 • 例:CPU使用率の急上昇やメモリ不足、ネットワーク遅延の検知 問題の位置特定(Localization) • 検出した問題がどこで発生しているのか、具体的な箇所を特定 原因分析(Root Cause Analysis, RCA) • 問題の根本原因を特定し、システムエラーや設定ミスなどの根源的な要因を明らかにする 問題解決(Mitigation) • 自動的に修正を実行し、システムの正常状態への復旧を図る 課題:複雑なタスクの処理、データ過多による混乱、誤判定や誤操作のリスク 応用例:クラウドサービスプロバイダ、大規模ITシステムの運用管理、自律型の「セルフヒーリング」クラウド運用 1月27日 更新分 Agentic AI Systems
  31. 個別教育プラットフォームのユーザー行動をシミュレーション Agent4Edu: Generating Learner Response Data by Generative Agents for

    Intelligent Education Systems LeetCodeやCourseraのようなパーソナライズ教育プラットフォームでは個別データを用いて以下を実現する • 個別最適化: 学習者ごとに適切な難易度や分野の練習問題を提案する • 知識追跡: 学習者の現在の知識レベルを推定し、その進化を追跡する • コンピュータ適応テスト(CAT): 少ない問題数で学習者の能力を正確に評価する しかし、個別最適の学習に必要なデータが足りないため、学習者をシミュレートするAgent4Eduを提案 1月27日 更新分 Agentic AI Systems
  32. Agentic RAGの種類を網羅したサーベイ論文 Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

    種類 ワークフロー メリット ユースケース Agentic RAG Router シングルエージェントがクエリを処 理し、外部データをルーティングし て応答を生成 シンプルな設計 リソース効率 基本的なカスタマーサポート 配送状況確認 Multi-Agent RAG 複数のエージェントが特定の役割を 持ち、タスクを分担し並列処理を実 施 高いスケーラビリティ タスク特化型で精度向上 マルチドメイン研究支援 複雑なクエリ処理 Hierarchical Agentic RAG 階層構造で上位エージェントが下位 エージェントを指揮し、戦略的にタ スクを処理 戦略的意思決定 柔軟なタスク管理 財務分析 法律文書レビュー Corrective RAG 結果を評価し、不足や誤りを修正す るための再検索やクエリ再構築を実 施 応答精度向上 不正確な情報の修正 医学研究の要約 複雑な情報統合 Adaptive RAG クエリの複雑さに基づき、シンプル な処理からマルチステップ推論まで 動的に対応 効率的なリソース使用 柔軟な適応 パーソナライズ教育支援 顧客サポート Graph RAG グラフ構造を用いてデータ間の関係 性を考慮した高度な推論を実施 高度な関係性推論 構造化データの利用 医療診断 法的研究 Agentic Document Workflows ドキュメント処理に特化し、文書解 析、情報抽出、応答生成を自動化 エンドツーエンドのプロセス自動化 ドメイン特化型 契約書レビュー 請求書処理 保険クレーム管理 1月27日 更新分 Agentic RAG
  33. 情報密度の高い文章コンテンツを生成させる方法を提案 OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

    OmniThinkは、情報収集と文章生成のプロセスに「反復的な拡張(Expansion)」と「反省(Reflection)」を 導入し、情報密度を高めることに注力したフレームワーク 情報を階層的に整理しながら、取得した情報を再評価して最適化する 情報密度が高い文章は、読者にとって「少ない努力で多くの知識を得られる」ため、読みやすく、有益性が高い 提案手法プロセス 1. 情報収集(Information Acquisition) • 拡張(Expansion) • テーマに関連する情報を検索エンジンやデータベースを使って収集 • 検索された情報は階層構造で整理され、「情報ツリー(Information Tree)」に格納 • 各ノード(情報単位)について、必要であればさらに深掘りして詳細な情報を取得 • 反省(Reflection) • 新たに収集した情報を評価・分析し、冗長性を取り除き、意味のある知識を抽出 • これらの知識は「概念プール(Conceptual Pool)」に統合され、次の情報収集ステップをガイド 2. アウトライン構築(Outline Structuring) • 概念プールを活用して、テーマに基づいた論理的で一貫性のあるアウトラインを作成 3. 文章生成(Article Composition) • 各アウトラインセクションごとに、情報ツリーから関連情報を検索して文章を生成。 1月27日 更新分 Agentic RAG
  34. LLMベースのコード生成プロセスを体系的に整理 Towards Advancing Code Generation with Large Language Models: A

    Research Roadmap 6層構造のコード生成のフレームワークを提案 1. Input Phase: ユーザーの要件やタスクの記述を多モーダルで扱い、曖昧さを減らす 2. Orchestration Phase: 複数のエージェント間のタスク調整を行い、動的タスク生成やシステム全体の理解を向上 3. Development Phase: 開発チームとモデル間の頻繁なインタラクションを通じたインクリメンタルなコード生成 4. Validation Phase: 自動化されたテストと人間の検証を通じて、コードの安定性と現実世界の要件への適合性を確認 5. Refinement & Debug Layer: モデルの反復的なデバッグとユーザーからの明確化を含む 6. Execution, Verification & Validation: コード実行および統合テスト 1月27日 更新分 Software Agents
  35. 小型無人航空システム(sUAS)のシミュレーションテストプロセスを自動化 LLM-Agents Driven Automated Simulation Testing and Analysis of small

    Uncrewed Aerial Systems sUASのシミュレーションテストの課題 • 複雑な環境やミッション条件を反映したテストシナリオの設計が手動で行われ、時間がかかる • テスト環境の設定やシミュレーションツールの構成が煩雑でエラーを引き起こしやすい AUTOSIMTESTというマルチエージェントフレームワークを提案 シナリオ設計 • LLMエージェントが過去の事故データを活用し、環境設定、ミッション内容、テスト項目を含むシナリオを生成 シナリオ実行スクリプトの生成 • Env-Agentが環境構成ファイルを作成、M-Agentがミッションスクリプトを生成 シナリオ分析 • Analytics-Agentがフライトログを解析し、インタラクティブな分析レポートを出力 1月27日 更新分 API Agents
  36. 自己データ収集によるGUIエージェントモデル「UI-TARS」を提案 UI-TARS: Pioneering Automated GUI Interaction with Native Agents オンラインブートストラップによる思考も含めた学習

    • エージェント自身がインタラクションデータを収集し、学習する仕組み 1. 人間やモデルが共同でタスク目標を生成 2. 仮想環境でタスクを実行し、ステップバイステップで操作データを記録 3. ヒューリスティックルールやVLMの評価によりデータフィルタリング 1月27日 更新分 Digital Agents
  37. アリババから階層型の自己進化モバイルエージェントの提案 Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks 現在のモバイルエージェントの課題 •

    高度な推論や長期的な計画を必要とするタスクに対応できない • 過去の経験から学ぶ仕組みがないため、同じエラーを繰り返す Mobile-Agent-E • Managerがタスクを小目標に分割し、全体計画を立てる。Perceptor(視覚認識)、Operator(具体的行動の実行)、 Action Reflector(エラー確認)、Notetaker(情報集約)というサブエージェントが細かい作業を担当 • 自己進化モジュールにより、長期記憶として「Tips」(一般的なガイドライン)と「Shortcuts」(再利用可能な操作 シーケンス)を保持し、過去の経験から継続的に改善する 自己進化を有効化すると • 満足度スコアが75.1%→86.9%に向上 • 行動の正確性が85.9% → 90.4%に改善 • 中断エラー率が32% → 12%に改善 1月27日 更新分 Digital Agents
  38. データ品質や前処理の自動化をおこなうデータ中心なエージェント Towards Human-Guided, Data-Centric LLM Co-Pilots エージェントが機械学習モデリングする研究が多い中でエージェントがデータ改善をおこなう • 欠損値補完、ノイズデータの処理、ラベルリーク対策、データドリフト対応など、現実のデータ課題に対応 •

    非技術的なドメイン専門家を対象にデータ改善つき機械学習ワークフローを提供できるフレームワーク マルチエージェント推論 • コーディネータエージェントは、データ処理全体の流れを計画・監視し、ユーザーのフィードバックや自動的な評価指標 に基づいてプロセスを調整する • ワーカーエージェントは、計画されたタスクを実行し、具体的なデータ処理コードを生成・実行する 人間参加型プロセス • データの問題が発見された際に、専門家にフィードバックを求めることで、ドメイン固有の知識を統合する 1月27日 更新分 Data Agents
  39. 文献調査エージェントをいつ使う? PaSa: An LLM Agent for Comprehensive Academic Paper Search

    PaSa (Paper Search Agent) という新しい学術論文検索エージェントを提案 • Crawler: ユーザークエリに基づき論文を検索し、引用ネットワークを探索して関連論文を収集 • Selector: 検索された論文を評価し、クエリ要件を満たすかどうかを判断 実験結果 • 文献レビューや調査の初期段階で、漏れを防ぐことが重視される場合、Recallを重視する • 具体的な研究課題に絞った検索の場合、Precisionを重視する • Precisionが低い場合、不要な論文が多く含まれ、ユーザーが手動でフィルタリングする負担が残る • Recall@100は69.29%、Precisionは51.46%だった。若干、文献収集の初期段階の利用向けか 1月27日 更新分 Research Agents
  40. 1月13日 更新 リリース • Introducing Operator • Computer-Using Agent •

    Scheduled tasks in ChatGPT • Introducing Citations on the Anthropic API • Perplexity now has a mobile assistant on Android • Perplexity launches Sonar, an API for AI search
  41. Introducing Operator OpenAIから明示的にエージェントと称される「Operator」の登場(research preview) ブラウザの操作をしてくれるエージェントでUSのProライセンスの方限定で使える Operator を動かすモデルをAPI で近日中に公開し、独自ブラウザ操作エージェントが開発できる すべてのサイトまたは特定のサイトに対してカスタム指示を追加すること(Booking.com で航空会社の好みを

    設定するなど)で、Operator のワークフローをパーソナライズできる。 安全性の配慮 • Operator は、ログイン、支払いの詳細、または CAPTCHA の解決が必要なタスクは、ユーザーに依頼する • Takeover mode:Operator はユーザーがログイン認証情報や支払い情報などの機密情報入力するときに情報の収集や スクショを撮らない • 注文の送信やメールの送信など、重要なアクションを完了する前に、オペレーターは承認を求める • 銀行取引や、求人応募の決定など、重大な決定を必要とする特定の機密タスクを拒否する • プロンプトインジェクション対策をしている 研究から実利用のギャップとなる安全性の配慮からパーソナライズまでを学習を通してLLMに能力を与えてい るのが素晴らしい 1月27日 更新分 https://openai.com/index/introducing-operator/
  42. Computer-Using Agent • GPT-4o の視覚機能と強化学習による高度な推論機能を組み合わせたモデル • 人間と同じように画面に表示されるボタン、メニュー、テキスト フィールドなどのGUIを操作するように訓練 されている •

    OSWorld の成功率 38.1%、Web ベースのタスクでは WebArena で 58.1%、WebVoyager で 87% を達成 行動のたびに スクショの理解が必要 そのため長くなってしまう https://openai.com/index/computer-using-agent/
  43. Introducing Citations on the Anthropic API Claude がソースに基づいて回答する新しい API Citations

    をリリース Citations は、Anthropic API および Google Cloud の Vertex AI で一般公開 画像の引用は不可 1月27日 更新分 https://www.anthropic.com/news/introducing-citations-api https://docs.anthropic.com/en/docs/build-with-claude/citations#example-pdf-citation 各ドキュメントに設定 引用対象 PDFを渡す場合 分割文書を渡す場合 pdfの場合ページ単位で引用
  44. Scheduled tasks in ChatGPT • OpenAIからタスクスケジュール機能がベータ版で登場 • タスクは、特定の時間 (1 回限りまたは定期的)

    または UI でトリガー • ユーザーがオフライン環境でも動く • タスクが完了すると、ユーザーにプッシュ通知またはメールが送信 • ChatGPT のタスクは GPT-4o を使用する • アクティブ タスクは常時 10 個までに制限 • サポート対象外:Voice chats、File Uploads、GPTs 1月27日 更新分 https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt
  45. Perplexity launches an assistant for Android • Perplexity Assistantをリリース •

    スマホ画面かカメラで外界を観測し質問応答する • 行動もできる • 自分の地域のレストランを調べさせて、自動的に予約させることもできる • 15の言語(日本語含む)で無料で利用可能 1月27日 更新分 https://techcrunch.com/2025/01/23/perplexity-launches-an-assistant-for-android/
  46. Perplexity launches Sonar, an API for AI search https://www.perplexity.ai/ja/hub/blog/introducing-the-sonar-pro-api https://techcrunch.com/2025/01/21/perplexity-launches-sonar-an-api-for-ai-search/

    • Sonarと呼ばれるAPIサービスをリリース • 生成AI検索ツールを自社に組み込める • 安価で高速な基本の Sonar • 難しい質問に適した高価な Sonar Pro 価格 • 1,000回の検索ごとに5ドル • 約100万の入力トークンで1ドル(Pro 3ドル) • 約100万の出力トークンで1ドル (Pro 15ドル)