Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News!

masatoto
February 22, 2025

Weekly AI Agents News!

2025年2月24日更新済み。次回3月10日更新予定
AI エージェントに関する論文かニュースをシンプルにまとめます。

X : @ottamm_190

masatoto

February 22, 2025
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論文 2/10~2/21まで 計画 • PlanGenLLMs: A Modern Survey of LLM

    Planning Capabilities ツール • SMART: Self-Aware Agent for Tool Overuse Mitigation • OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning • LLM Agents Making Agent Tools メモリ • Position: Episodic Memory is the Missing Piece for Long-Term LLM Agents • A-MEM: Agentic Memory for LLM Agents
  2. 論文 2/10~2/21まで Agent Framework • EvoFlow: Evolving Diverse Agentic Workflows

    On The Fly • EvoAgent: Agent Autonomous Evolution with Continual World Model for Long-Horizon Tasks • Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research • Agency Is Frame-Dependent Agentic AI Systems • A Survey on LLM-powered Agents for Recommender Systems Research Agents • Towards an AI co-scientist Multi Agent Systems • AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society • Flow-of-Action: SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis
  3. LLMによる計画能力を包括的に調査し、主要な評価基準を提案 PlanGenLLMs: A Modern Survey of LLM Planning Capabilities LLMは、初期状態から目標状態へと変換する計画の生成能力を持つ

    LLMプランニングの評価基準 • Completeness(完全性): LLMが適切な計画を生成できるか、または解決不可能な問題を正しく識別できるか • Executability(実行可能性): 生成された計画が実際の環境で適用可能か • Optimality(最適性): 目標に対する最適な経路を見つけられるか • Representation(表現): LLMが適切な計画の表現を学習できるか(例: PDDL, Python) • Generalization(一般化能力): 訓練データにない新しいタスクにも適用可能か • Efficiency(効率性): LLMの計算コストやトークン使用量が最適化されているか 評価方法 シミュレーション環境での検証 • LLMが生成した計画を、シミュレータ上で実行し、事前定義された基準に基づいて評価する方法 ヒトによる評価(Human Evaluation) • LLMが生成した計画の品質を、人間の専門家や一般ユーザーが主観的に評価する • 自動検証が難しい場合(計画が柔軟に解釈できるオープンエンドのタスク)に利用する LLMによる自動評価(LLM-as-a-Judge) • 別のLLMを用いて、計画の品質を評価する方法 • 事前定義したチェックリストと照らし合わせる場合に利用する 2月24日 更新分 計画
  4. 研究の自動化を支援するツール自動作成手法を提案 LLM Agents Making Agent Tools ツールは人間の開発者が事前に実装する必要があり、手作業によるツール開発がボトルネックとなっている 研究の自動化を支援するツール自動作成手法のTOOLMAKERを提案 LLMが自律的に研究論文に付随するコードリポジトリを利用してツールを生成 1.

    タスク定義とコードリポジトリの指定:ユーザーが簡単なタスク説明とリポジトリのURLを入力 2. 環境セットアップ:必要な依存関係をインストールし、環境を整備 3. コード生成と実装:与えられたコードを解析し、タスクに応じたPython関数を生成 4. 自己修正ループ:エラーを診断し、ツールの精度を向上させるための繰り返し修正 人間が手作業でツールを設計する必要がなくなり、科学研究を支援する自律型エージェントの開発が加速される 2月24日 更新分 ツール
  5. ツールカードを用いたエージェントフレームワークの提案 OctoTools: An Agentic Framework with Extensible Tools for Complex

    Reasoning 追加の学習を必要とせず、拡張性が高いOSSエージェントフレームワーク「OctoTools」を提案 OctoToolsは、ツールを標準化された「ツールカード」として用いて、複雑な推論タスクを解決する ツールカードには、ツール名、説明、入力仕様、出力仕様、デモコマンド、メタデータを記述する ツールカードによるツールの標準化が、新しいツールの追加や異なるドメインへの適応を容易にしている • Planner(計画モジュール): 問題の全体的な計画を策定し、サブゴールを生成 • Executor(実行モジュール): LLMが出力したコマンドを実行し、結果を保存 • Tool Cards(ツールカード): Python計算機、ウェブ検索API、専門的なドメインツールなどの機能を統合 2月24日 更新分 ツール
  6. 人間のメタ認知に着想を得たツール利用の最適化方法を提案 SMART: Self-Aware Agent for Tool Overuse Mitigation 自己認識の欠如により、適切にツール利用を制御できないことが問題視されている LLMがメタ認知を獲得するためには、自身の知識の限界を理解する訓練が必要となる

    SMART-ERデータセットを構築し、知識で解決可能な部分とツールが必要な部分を明示的に分離した データセットの内訳 • 各ステップごとに「ツールが必要か否か」を明示的に分類し、モデルに判断基準を学習させる • 人間のメタ認知を模倣した「正当化(Rationale)」を付与し、なぜツールを使うべきか・使わないべきかを言語化 • モデルが implicit(暗黙的)に行っていた判断を explicit(明示的)なラベルとして学習 このデータセットを用いることで、SMARTAgentは「どの状況でツールを使うべきか?」「どの状況では自分の 知識で解決できるか?」という判断基準を獲得した 2月24日 更新分 ツール
  7. エピソード記憶をどのように効果的に実装し、統合するか Position: Episodic Memory is the Missing Piece for Long-Term

    LLM Agents LLMエージェントが「長期的な記憶を持ち、過去の情報を適切に活用できる」ようになるにはどうあるべきか? 以下の能力を全て備えることが必要 • 長期記憶(Long-term Storage)継続的な対話や長期間のタスクにおいて、過去の経験を記憶し続ける能力 • 明示的推論(Explicit Reasoning)記憶を意識的に検索し、それを用いて推論できる能力 • シングルショット学習(Single-shot Learning)一度の経験から新しい知識を学習できる能力 • 個別事象の記憶(Instance-specific Memories)具体的なイベントを詳細に保存し、再利用できる能力 • コンテキスト記憶(Contextualized Memories)いつ、どこで、なぜ特定のイベントが起こったのかを記憶し、それを適切に関連付ける能力 現在のアプローチと課題 インコンテキストメモリ • KVキャッシュ圧縮や長いシーケンスの処理能力向上が進められている • ただし、メモリのサイズには依然として制約があり、長期的な記憶保持は困難 外部メモリ • RAGやGraphRAGなどの手法が開発されている • しかし、エピソード記憶に必要な「文脈情報の関連付け」が不足している パラメトリックメモリ • 微調整や知識編集によって、モデルの内部パラメータを変更する手法 • ただし、個別のイベントを記憶し、適切な文脈で活用する能力は限定的 2月24日 更新分 メモリ 研究ロードマップ • エピソードの保存方法 • 連続する入力データのエピソード単位の分割方法 • 過去のエピソードの検索と再利用性 • 検索の最適化 • エピソードをパラメトリックメモリへ統合する方法 • エピソード記憶を評価する方法
  8. LLMエージェントが自己組織化しながらメモリを蓄積・進化できるA-MEMを提案 A-MEM: Agentic Memory for LLM Agents A-MEM は Zettelkasten法(メモを小さな単位に分け、相互に関連づける手法)を参考にしている

    1. メモの構造化(Note Construction) • 新しいメモが追加される際、コンテキスト・キーワード・タグを自動生成する 2. リンク生成(Link Generation) • 新しいメモが追加されると、過去のメモと関連付けを行い、動的にリンクを生成 • 事前定義されたルールではなく、類似度計算と LLM の分析によって関連性を判断 3. メモリ進化(Memory Evolution) • 既存のメモが新しい知識と統合され、文脈やタグが更新される 4. 関連メモリ検索(Retrieve Relative Memory) • クエリに対して、最も関連するメモを検索し、LLMエージェントの推論プロセスを補助 2月24日 更新分 メモリ
  9. EvoAgent – 長期タスクに対応する自律進化型エージェント EvoAgent: Agent Autonomous Evolution with Continual World

    Model for Long-Horizon Tasks 物流ロボットや災害救助ロボットのようなEmbodied Agents のオープンワールド環境での課題 1. 既存のエージェントは人間が作成したデータやカリキュラムに依存し、新たな経験を自律的に蓄積できない 2. 既存のエージェントは過去に学習した知識を失うことがある 継続的な世界モデルを備えた自律進化型エージェント • 自己計画(Self-Planning):LLMと世界モデル、相互作用メモリを活用して LHタスクを実行可能なサブタスクへ分解 • 自己制御(Self-Control):ワールドモデルを活用し、低レベルのアクションを生成し、自己検証機構でタスクの評価 • 自己反省(Self-Reflection) :2段階のカリキュラム学習を用い、タスクに適応した経験を選択し、ワールドモデルを更新 2月24日 更新分 Agent Framework
  10. タスクの複雑さに適応できる「エージェントワークフロー」を進化計算を用いて自動探索 EvoFlow: Evolving Diverse Agentic Workflows On The Fly ステップ1:

    ワークフロー集団の初期化 • CoT,Debate, Self-Refine, Ensembleをノードとし、ランダムに組み合わせて初期個体とする ステップ2: タグベースのワークフロー検索 • タスクのクエリと既存ワークフローの目的タグとの埋め込みベクトルを比較し、最も適したK個のワークフローを選択 • 最も関連性の高いワークフローを親とし、次の交叉・突然変異の対象とする ステップ3: 交叉と突然変異 • 交叉: 2つ以上の親ワークフローを組み合わせて、新しいワークフローを生成 ステップ4: ニッチング選択 • 似たワークフロー同士で競争させ、多様性を維持する仕組み • 高度なワークフローの乱用を防ぐことができる 2月24日 更新分 Agent Framework 突然変異の種類 内容 具体例 LLM Mutation LLMモデルの入れ替え GPT-4o → LLaMA-3.1 Prompt Mutation プロンプトの変更・最適化 "Solve this equation" → "Use CoT to solve this equation step by step" Operator Mutation オペレーターの追加・削除・接続変更 Self-Refine ノードの追加
  11. Agentic Reasoningによる外部情報を活用した深い調査や多段階の論理的推論 Agentic Reasoning: Reasoning LLMs with Tools for the

    Deep Research Agentic Reasoningの推論プロセスは以下のように進行する 1. タスク定義:モデルに与えられたタスクの目的を明確化する(e.g., 質問応答、推論、計算) 2. エージェントとの動的インタラクション:推論中に必要に応じてWeb検索、コード実行、Mind Mapを活用する 3. 情報の統合と推論:外部ツールから得た情報を元に、段階的に推論を展開する 4. 最終的な解の生成:取得した情報と推論を統合し、最終的な解答を生成する LLMが動的に以下の3つのエージェントを利用し、複雑な問題解決を行う • Web-search Agent:インターネット検索を通じてリアルタイムで情報を取得し、モデルの知識を補完する • Coding Agent:計算処理やコードの実行を担当し、数学的・定量的な推論を補助する • Mind Map Agent:知識グラフを構築し、論理関係を整理することで、長期的な推論を支援する 実行結果の知見 • Web検索とコーディングの2つのエージェントが最も有用 • エージェントのタスク分担が性能向上に寄与 • テスト時のスケーリング戦略(Test-time Scaling) 2月24日 更新分 Agent Framework
  12. システムがエージェンシーを持つかどうかは参照フレームが不可欠 Agency Is Frame-Dependent エージェンシーの概念が観測者のフレームに依存することを哲学的・強化学習の観点から論じる フレーム依存的だとエージェントの定義が観測者依存になる 以下の4つのエージェンシーの基本要素すべてがフレーム依存的である 1. 個体性(Individuality) •

    システムがエージェントであるためには、まず環境から独立した個体である必要がある。しかし、その境界をどこに設定する かは恣意的である。例えば、強化学習エージェントにおいて、ニューラルネットワーク全体をエージェントとみなすのか、そ れとも特定の層のみをエージェントとみなすのかは観測者の選択に依存する。→ 個体性はフレーム依存的である。 2. 行動の源泉(Source of Action) • システムがエージェンシーを持つためには、その行動の原因がシステム自体にある必要がある。しかし、因果関係をどのよう に定義するかによって、行動の源泉をどこに求めるかが変わる。例えば、壁が鉄球によって倒れる場合、壁が「行動した」と 言えるかどうかは因果モデルの設定次第である。→ 行動の源泉はフレーム依存的である。 3. 目標指向性(Normativity) • エージェンシーには目標を持ち、それに基づいて行動を調整する能力が求められる。しかし、すべての入力-出力システムは 「目標を持つ」と解釈することが可能である。例えば、壊れたサーモスタットが常に室温を20℃に設定する場合、その「目 標」は20℃に保つことだとみなすことができる。このように、目標の有無を判断するには、外部からの追加の原則が必要とな る。→ 目標指向性はフレーム依存的である。 4. 適応性(Adaptivity) • エージェンシーは、環境の変化に応じて適応する能力を含む。しかし、「適応的である」と判断する基準は、参照する枠組み によって異なる。例えば、あるポリシー(方策)が変化することを適応とみなすかどうかは、選択する基準次第である。→ 適 応性はフレーム依存的である。 2月24日 更新分 Agent Framework
  13. 推薦システムのためのLLMエージェントのサーベイ A Survey on LLM-powered Agents for Recommender Systems LLMエージェントの3つの主要なアプローチの整理

    • 推薦指向: ユーザーの過去の行動データを活用し、直接的な推薦を生成する方法 • 対話指向: 対話を通じてユーザーの好みを深く理解し、説明可能な推薦を行う方法 • シミュレーション指向: LLMがユーザーの行動や嗜好をシミュレートし、リアルなユーザーインタラクションを模倣する方法 LLMエージェントの統一アーキテクチャの提案 • プロファイル構築: ユーザーの嗜好をモデル化し、動的に更新 • メモリ管理: 過去のインタラクションを記録し、コンテキストを保持 • 戦略的計画: 推薦戦略を設計し、長期的なエンゲージメントを向上 • アクション実行: 推薦を具体的な形で実行し、フィードバックを収集 2月24日 更新分 Agentic AI Systems
  14. 研究者の仮説生成を支援するマルチエージェントシステム Towards an AI co-scientist 以下の順番で処理する 仮説を広げて、質を高めて、絞り込んで、更に尖らせて、似たものを統合して、最終版を作る ① 生成エージェント •

    文献探索(Web検索)を行い、既存研究を要約・統合して新たな仮説を提案 • 「科学的議論のシミュレーション」を通じて、仮説の洗練を行う ② リフレクションエージェント • 生成された仮説の質を評価 • 外部データベースやWeb検索を活用し、仮説が既存研究と矛盾しないか検証 ③ ランキングエージェント • 仮説をEloレーティングでスコアリングし、ランキング付け • トーナメント形式で仮説同士を比較し、勝ち残った仮説を上位にランクイン ④ 進化エージェント • ランキング上位の仮説を改善 • 既存の仮説を改良し、新たな仮説を生み出す ⑤ 近接エージェント • 既存の仮説と類似するアイデアをクラスタリング • 類似仮説を統合し、研究の重複を防ぐ ⑥ メタレビューエージェント • 過去の議論やフィードバックを統合 • 反映エージェントや進化エージェントが見逃した点を補完 2月24日 更新分 Research Agents
  15. 人間の社会活動を模倣するマルチエージェントシミュレーション AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding

    of Human Behaviors and Society シミュレーション用のLLMエージェントには認知、感情、欲求機能を持つ • 記憶、計画、意思決定機能を備え、状況に応じた社会的行動を行う 応用分野 • 日常行動、意見の極化、扇動的メッセージの拡散による炎上の再現 • ベーシックインカム(UBI)による消費増加、貧困層の精神的健康の向上、ハリケーンによる住民の移動変化 • 各種政策(税制改革、環境政策、社会福祉)の影響をシミュレーション • パンデミックや災害時の人間行動をシミュレーション • AIと人間の共存社会をシミュレーション 2月24日 更新分 Multi-Agent System
  16. SOPを活用した根本原因分析向けマルチエージェントシステム Flow-of-Action: SOP Enhanced LLM-Based Multi-Agent System for Root Cause

    Analysis マルチエージェントシステム設計 • JudgeAgent:根本原因が特定されたかを判断 • ObAgent:大量のデータから異常の特徴を抽出 • ActionAgent:MainAgentの行動選択を支援 • CodeAgent:SOPをコードに変換し、実行可能な形にする ActionAgent を支援するSOPを管理するSOP Flowを設計し、以下の機能を持たせる • 既存のSOPの検索、新しいSOPの自動生成、SOPをコード化(自動実行可能な形式に変換) 2月24日 更新分 Multi-Agent System
  17. 従業員エクスペリエンス向上をサポートするAIエージェントを発表 従業員の生産性を最適化 オラクル オラクルは「Oracle Fusion Cloud Human Capital Management(Oracle Cloud

    HCM)」に、新たなロール・ベースの AIエージェントを導入すると発表した。 このAIエージェントは、従業員のキャリアサポートや管理業務の自動化を通じて、従業員エクスペリエンス(EX)と生産 性の向上を支援する。 AIエージェントの主な機能 1. キャリアおよび能力開発 • 従業員プロファイルをもとにキャリア目標を提案し、スキル開発プログラムを案内 • 目標設定のサポートやパフォーマンス評価の準備を支援 • 過去の学習履歴やキャリア目標に基づき、適切なトレーニング機会を推薦 2. 報酬および福利厚生管理 • 勤務時間の記録を自動化し、正確なタイムカード提出を支援 • 税務申告(例:米国のW-4フォーム)をサポート • 昇給や新規採用時の報酬決定に関する市場動向や企業方針を提供 • 休暇・欠勤ポリシーの理解を支援し、申請プロセスを簡素化 3. 従業員ライフサイクル管理 • 企業文化やポリシーに関する情報提供を通じて、新入社員のスムーズな適応を支援 • 社内異動やキャリアアップに向けた履歴書作成、面接対策を支援 • 利用可能な福利厚生や受賞資格のある表彰プログラムを従業員・マネージャーに通知 • プロファイルの更新や昇進・異動などのライフサイクルイベントの管理を支援 • 雇用契約の内容をレビューし、条項を要約 https://hrzine.jp/article/detail/6422
  18. 10 Lessons to Get Started Building AI Agents • Microsft/ai-agents-for-beginners

    • Aiエージェントの説明や様々なデザインパターンの説明あり • 実装例も一部あり https://github.com/microsoft/ai-agents-for-beginners/tree/main
  19. Google Cloud 主催 AI Agent Summit ’25 Spring 本イベントでは、AI エージェントを活用して生産性を向上する方法や、独自の

    AI エージェントを構築するためのヒ ント、そして Google Cloud の最新の生成 AI 製品のアップデート、多くのお客様のユースケースをお届け 2025年、従来のチャットボットから、より高度な「AI エージェント」へと進化しつつある AIエージェントはユーザーのコンテキストを理解し、人間のように振る舞いながら複雑なタスクを実行するシステム https://cloudonair.withgoogle.com/events/gcai-agent-summit-25-spring 開催日 : 2025 年 3 月 13 日(木) 10:30 - 18:30(予定) 開催方法:ハイブリッド(ベルサール渋谷ガーデン / オンライン配信) 会場定員:1,000 名
  20. 2025年 生成AIの新たな波「AI エージェント」の可能性(オラクル) イベント登壇内容のQiita記事 これまでの生成AIアプリが「LLMに回答させる」ものだったのに対し、AIエージェントはLLMを「働かせる」仕 組みを持つ • エージェント・システムは、ユーザーの指示に応じて検索・分析・調査などを自律的に実行する • 重要なのがFunction

    Calling で、外部ツール(API、スクレイピング、OSコマンドなど)と連携可能に • マルチエージェントは、Function Calling の選択ミスや推論ミスを防ぐために、複数のエージェントに役割を 分ける手法 https://qiita.com/ksonoda/items/08bdfadfb760043f2183
  21. 論文 2/3~2/7まで プロフィール • PsyPlay: Personality-Infused Role-Playing Conversational Agents 学習

    • Improving Vision-Language-Action Model with Online Reinforcement Learning • Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search 自己修正 • RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques • Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge 安全性 • Context is Key for Agent Security
  22. 論文 2/3~2/7まで Agent Framework • Multi-agent Architecture Search via Agentic

    Supernet Digital Agents • AI Agents for Computer Use: A Review of Instruction-based Computer Control, GUI Automation, and Operator Assistants Data Agents • Jupybara: Operationalizing a Design Space for Actionable Data Analysis and Storytelling with LLMs Multi Agent Systems • Position: Towards a Responsible LLM-empowered Multi-Agent Systems • ToM-agent: Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection • Multi-Agent Geospatial Copilots for Remote Sensing Workflows
  23. LLMを用いたロールプレイング型会話エージェント「PsyPlay」を提案 PsyPlay: Personality-Infused Role-Playing Conversational Agents 性格特性を一貫して反映する新たな手法 1. ロールカード作成: Big

    Five(5因子性格モデル)の特性を持つエージェントキャラクターを大量に生成 2. トピック抽出: 公開データセット(Human Stress Prediction)から現実的な対話トピックを抽出 3. 対話生成: 各エージェントが割り当てられた性格特性を維持しながら会話を展開 ポジティブな性格は、対話ターンが増えると性格がより強く反映される ネガティブな性格は、相手に影響されやすく、ターン数が増えると性格がブレやすい 2月10日 更新分 プロフィール
  24. オンライン強化学習によるVLAモデルの汎化と学習安定性の強化 Improving Vision-Language-Action Model with Online Reinforcement Learning ロボット制御のためのVLAモデルをRLによってさらに改善する方法を探求する VLAモデルへのオンラインRLの直接適用は、学習の不安定性や高い計算コストといった課題

    iRe-VLAは、RLとSFTを交互に繰り返すことで、探索の恩恵を受けつつ安定した学習を実現 教師あり学習(Stage 0) • ロボットの専門家データセットを用いてVLAモデル(BLIP-2 3B + Action head)をファインチューニング オンライン強化学習(Stage 1) • VLMのパラメータを固定し、アクションヘッドのみを更新することで学習の不安定性を軽減 教師あり学習の再適用(Stage 2) • 強化学習で得られた成功データと元の専門家データを統合し、モデル全体をファインチューニング Stage 1とStage 2を交互に繰り返す • 見たことのない物体のピック成功率を0.35→0.80に向上 • 未学習タスク(他の新しい物体)への成功率も向上(0.37→0.61) 2月10日 更新分 学習
  25. 強化学習を使い、LLMに自己探索と自己反省能力を付与 Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via

    Autoregressive Search 自己探索と自己反省を通じて、外部モデルの助けなしに高度な推論を行うモデルの学習方法の提案 Chain-of-Action-Thought (COAT) 通常のCoTにメタアクションを追加 • Continue Reasoning (<|continue|>):既存の推論を継続 • Reflect (<|reflect|>):途中で間違いを検証し修正 • Explore Alternative Solution (<|explore|>):新しいアプローチを試行 学習方法 フォーマット・チューニング(Format Tuning, FT) • 小規模なデータセット(10,000サンプル)を使用し、LLMにCOAT推論のフォーマットを学習させる • 特に「どのタイミングでReflect/Exploreを使うか」 を学習する 自己強化学習(Self-improvement via RL) Restart and Explore (RAE) 戦略 • 間違いを犯した場合、最初からではなく、誤った途中の状態から再開し、学習効率を向上 • 報酬は、最終的な解答が正解なら+1, 不正解なら-1、自己修正ボーナス、人間の好む推論ボーナスもある 2月10日 更新分 学習
  26. LLMの批評能力を評価するベンチマーク「RealCritic」を提案 RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques ①

    自己批評の評価 • o1-mini は、自己批評タスクで他のLLMよりも高い自己改善能力を発揮 ② 他モデル批評の評価 • ほとんどのモデルが他モデルの解答を批評することで精度を向上させた ③ 反復批評の評価 • 複数回の批評を繰り返すと、ほとんどのモデルが精度を向上 批評タイプ 概要 自己批評(Self-Critique) モデルが自身の出力を批評し、修正する能力を評価 他モデル批評(Cross-Critique) 別のモデルが生成した解答を批評し、修正する能力を評価 反復批評(Iterative-Critique) 複数回の批評と修正を繰り返し、より良い解答を生み出す能力を評価 2月10日 更新分 自己修正
  27. LLM-as-a-Judgeの評価計画と実行を分離したモデルの提案 Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge

    LLMを評価者(LLM-as-a-Judge)として利用する際、以下の課題が存在していた 1. 人間が設計した評価基準に依存(例: 手作業で作成された評価ルール) 2. 評価の基準と推論が一体化しており、曖昧(計画なしに直接評価するため、基準の一貫性が低い) 3. 人間のアノテーションデータが不足(学習データの収集コストが高い) 提案するEvalPlanner はCoTを用いたPlan and Execution型の評価を行い、評価の精度と透明性を向上させる EvalPlannerの学習方法 • 評価の合成データを作成し、モデルを学習 • 学習したモデルを使って、新たな評価計画・評価推論を生成 • これを繰り返し、徐々に精度を向上 2月10日 更新分 自己修正
  28. コンテキストに基づく動的なポリシーを作成し、エージェントのセキュリティを強化 Context is Key for Agent Security 従来のセキュリティシステムでは、事前に定義された静的なポリシーやユーザー確認が必要だったが、エージェ ントが多様なタスクを遂行する現代では、このアプローチは拡張性に欠ける AIエージェントのセキュリティを強化するフレームワークConseca

    を提案 1. 信頼できるコンテキストの識別 • 開発者がエージェントの動作において信頼できるデータを明確に定義する 2. コンテキストに基づく動的セキュリティポリシーの生成 • 大規模言語モデル(LLM)を活用し、タスクごとに適切なポリシーを作成 • send_email: メール送信が許可される条件(例: ユーザーがアリスであり、受信者が会社のドメイン内で、件名に 「urgent」が含まれる場合) 3. ポリシーの適用 • 生成されたポリシーを厳密に適用し、許可されないアクションをブロック 2月10日 更新分 安全性
  29. マルチエージェントシステム(MAS)の設計を自動化する手法の提案 Multi-agent Architecture Search via Agentic Supernet MaAS(Multi-agent Architecture Search)を提案

    • 問い合わせの難易度やドメインに応じて動的なMASサンプリングを実現 • 問い合わせが単純な場合、不必要なエージェントの呼び出しを避け、計算コストを削減 2月10日 更新分 Agent Framework
  30. GUIエージェントの学習と推論エージェントの比較しているサーベイ論文 AI Agents for Computer Use: A Review of Instruction-based

    Computer Control, GUI Automation, and Operator Assistants 基盤と特化エージェントの比較が図でわかりやすい エージェントの課題 • 環境適応の効率化:LLMが環境ごとに学習・適応する方法の確立が必要 • 計画能力の向上:タスクの長期的なステップ管理や論理的思考の発展が求められる • 観察と行動の最適化:画像とテキストの融合、UIとの最適な相互作用設計の研究 2月10日 更新分 Digital Agents
  31. データ分析とストーリーテリング支援ができるJupyter Notebookの拡張機能を開発 Jupybara: Operationalizing a Design Space for Actionable Data

    Analysis and Storytelling with LLMs CHI’ 25に採択された論文 専門家による評価を実施し、Jupybaraの操作性・制御性・説明性・修正可能性が高いことが示された 左パネル:EDA支援 右パネル:EDA・ストーリーテリング支援 解析計画 コード生成 結果の説明や補足情報 解析の設定 特定のセルに関する質問 各分析ステップの可視化 データストーリーテリング 2月10日 更新分 Data Agents
  32. 責任のあるマルチエージェントシステムに向けて Position: Towards a Responsible LLM-empowered Multi-Agent Systems LLMの恩恵でMASは知識と推論能力を得たが課題がある LLM-MASの課題

    (1) 知識ドリフトと誤情報の伝播 • LLM-MASは、明示的にプログラムされたゴールを持たず、知識の不安定性が高い • 「認知バイアス拡張」により、誤った情報が補強され、集合的な推論エラーが増加する (2)エージェント間の相互理解の難しさ(合意の衝突) • エージェント間の知識の非対称性により、合意形成が困難になる • LLMの曖昧な自然言語表現が誤解を生み、MAS内での衝突が発生する (3) LLM-MASの評価 • 既存の評価手法は単一エージェント向けのものが多く、MASに適用するには課題がある • 時系列的な相互作用や動的変化を考慮した評価基準が求められる 「人間中心のモデレーション」と「確率論的な合意形成・不確実性管理」の導入が必要 2月10日 更新分 Multi Agent Systems
  33. 自分の予想と実際の結果の違いを内省すると対話の質が向上 ToM-agent: Large Language Models as Theory of Mind Aware

    Generative Agents with Counterfactual Reflection ToM-agent は、会話における相手の信念(Beliefs)、欲求(Desires)、意図(Intentions)BDIを推測し、その 信頼度を調整する機能を持つ さらに反事実的介入(Counterfactual Reflection)を導入し、予測した応答と実際の発話のズレを分析することで、 エージェントの自己反省能力を向上させる 共感対話(Empathetic Dialogue)および説得対話(Persuasion Dialogue)で評価 ToMを導入することでエージェントの対話能力が向上 ToM + CR を導入すると全体的にスコアが向上 2月10日 更新分 Multi Agent Systems
  34. リモートセンシングに関する広範囲なタスクをこなすマルチエージェントを開発 Multi-Agent Geospatial Copilots for Remote Sensing Workflows エージェントのオーケストレーションにより、地理空間タスク処理を分離し、各タスクを専門的なサブエージェ ントに委任する

    都市監視、森林保護、気候分析、農業研究などの多様なアプリケーションを統合できる 合計521のAPI関数が実装され、単一エージェントの約3倍の規模となった 都市計画、農業、エネルギー、環境、保険、防衛、不動産、物流、金融、通信 の業界で応用可能 2月10日 更新分 Multi Agent Systems
  35. Deep ResearchがOpenAIからも登場 アカウント調査・キャリア相談 • SNSのアカウントレポートを作成、SNSでバズった投稿を抽出しテーマを分析 • 経歴書を入力してキャリア相談 学術論文サーベイ • ある研究分野の最新動向を網羅的にリサーチ(専門家が見ても重要な論文を網羅)

    ビジネス領域(市場調査・競合分析) • 事業成長戦略の提案、業界分析、競合調査 プライベート利用 • プレゼントの選定、家族旅行のプラン作成、子育て計画 仮想通貨・株関連 • ビットコインのレポート作成、仮想通貨トレード戦略の策定 ドキュメント作成 • Tipsのまとめ、ブログ記事の作成、書籍の執筆 ITエンジニア向け活用 • 技術調査、開発レポートの作成 Deep Researchのプロンプト構成例 https://note.com/currypurin/n/nda17942144f4
  36. GitHub Copilot:エージェント GitHub Copilotの新機能としてエージェントモードの導入 • コードの自己修正、ターミナルコマンドの提案・実行、ランタイムエラーの自己修復 • OpenAI: GPT-4o •

    Anthropic: Claude 3.5 Sonnet • Google: Gemini 2.0 Flash Copilot Editsの一般提供(GA) • 複数ファイルの編集、自然言語での変更リクエスト、編集結果をインラインで確認・調整 • OpenAI: GPT-4o, o1, o3-mini • Anthropic: Claude 3.5 Sonnet • Google: Gemini 2.0 Flash GitHubと紐づくSWEエージェント • AI駆動の自律型エージェントがソフトウェア開発を支援・代行 • コードの生成・レビュー • コードベースのリファクタリング・最適化 • テストやCI/CDパイプラインの自動化 • エラーのトラブルシューティング • ベストプラクティスの提案 https://github.blog/jp/2025-02-07-github-copilot-the-agent-awakens/
  37. LangGraphでAIエージェントアプリケーションを設計する際のポイント Algomaticから「自然言語によるデータウェアハウス(DWH)への問い合わせと可視化 」の解説記事 1. ユーザーがWeb UIに自然言語で分析したい内容を入力 例:「商品Xと商品Yの過去一年における月次の売上推移を折れ線グラフで示して」 2. 自然言語からSQLへ変換し、DWHに問い合わせを実行 •

    SQL実行結果をUI上に表示 3. ユーザーが表示されたSQL実行結果を確認し、次の行動を決定 • A:SQLの実行結果が想定と異なる → 2へ戻る • B:実行結果が想定どおり → 次のフェーズへ移行 4. SQL実行結果に合わせてグラフを生成 • 最適なグラフ(折れ線・棒グラフなど)を作成し、UIに表示 5. ユーザーがグラフ表示結果を確認 • C:グラフの表示形式について修正を依頼 → 4へ戻る • D:グラフのデータ内容自体を修正したい → 2へ戻る https://forest.watch.impress.co.jp/docs/serial/aidev/1657337.html
  38. Cline: A context window is like RAM for your AI

    coding assistant コンテキストウィンドウに詰め込む情報 • どんなファイルを見たか、会話の履歴、プロジェクトの要件 、過去の決定 コンテキストウィンドウを監視する 以下の場合、コンテキストの使用状況を注意深く監視する • 大規模なリファクタリングタスク • コードベース分析セッション • 複雑なデバッグ操作 重要な閾値で行動を起こす コンテキスト容量の 70 ~ 80% に近づくと 1. 新たなスタートを検討する 2. タスクを小さな塊に分割する 3. 特定のコンポーネントにクエリを集中する 4. 重要な決定事項を文書化する コンテキストの詰め込み量を確認 https://cline.bot/blog/understanding-the-new-context-window-progress-bar-in-cline
  39. 論文 1/13~1/24まで ツール利用 • ACEBench: Who Wins the Match Point

    in Tool Learning? (紹介しない) 学習 • 自己修正能力を獲得する学習フレームワーク「Agent-R」を提案 • Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training • エージェントが新しい環境に自律的に適応できるよう、軌跡データ生成するフレームワーク • Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments メモリ • 動的な自己更新型ライブラリを持つChem Agentの提案 • ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning 自己進化 • 学び続けるエージェントの実現に向けて生涯学習を知っておこう • Lifelong Learning of Large Language Model based Agents: A Roadmap
  40. 論文 1/13~1/24まで Agent Framework • 計画や思考、行動を方策が選ぶエージェント • PoAct: Policy and

    Action Dual-Control Agent for Generalized Applications • モジュールを組み合わせ計画と実行を完遂するエージェント • A Multimodal Social Agent • 標準操作手順をもとに行動するエージェント • SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs • エージェントの認証、行動範囲と参照範囲の認可 • Authenticated Delegation and Authorized AI Agents Agentic AI Systems • クラウド運用やITシステムの管理をエージェントで自動化 • AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds • 個別教育プラットフォームのユーザー行動をシミュレーション • Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems
  41. 論文 1/13~1/24まで Agentic RAG • Agentic RAGの種類を網羅したサーベイ論文 • Agentic Retrieval-Augmented

    Generation: A Survey on Agentic RAG • 情報密度の高い文章コンテンツを生成させる方法を提案 • OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking Software Agents • LLMベースのコード生成プロセスを体系的に整理 • Towards Advancing Code Generation with Large Language Models: A Research Roadmap API Agents • 小型無人航空システム(sUAS)のシミュレーションテストプロセスを自動化 • LLM-Agents Driven Automated Simulation Testing and Analysis of small Uncrewed Aerial Systems Digital Agents • 自己データ収集によるGUIエージェントモデル「UI-TARS」を提案 • UI-TARS: Pioneering Automated GUI Interaction with Native Agents • アリババから階層型の自己進化モバイルエージェントの提案 • Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
  42. 論文 1/13~1/24まで Data Agents • データ品質や前処理の自動化をおこなうデータ中心なエージェント • Towards Human-Guided, Data-Centric

    LLM Co-Pilots Research Agents • 文献調査エージェントをいつ使う? • PaSa: An LLM Agent for Comprehensive Academic Paper Search Embodied Agents • EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents(紹介しない) Multi Agent Systems • マルチエージェント協調を俯瞰する • Multi-Agent Collaboration Mechanisms: A Survey of LLMs
  43. 自己修正能力を獲得する学習フレームワーク「Agent-R」を提案 Agent-R: Training Language Model Agents to Reflect via Iterative

    Self-Training Agent-Rは以下の2つのフェーズで構成 1. モデル主導型の修正軌跡の生成 • モデルがMCTSを用いて軌跡を探索し、エラー箇所を特定 • 悪い軌跡を途中で切断し、正しい軌跡に接続して修正軌跡を生成 2. 修正軌跡を用いた反復学習 • 修正軌跡と良い軌跡、一般的な軌跡を使用してモデルを訓練する • 学習したモデルで軌跡を集める • 再学習を重ねることで、より早期にエラーを検出し、修正できる 実験結果 理想的な軌跡だけで学習するより修正軌跡で反復学習すると良かった • エラー検出の早期化: 軌跡内でのエラー箇所を迅速に特定可能 • ループ回避能力: 同じ行動を繰り返す「デッドループ」に陥りにくい • タスク成功率の向上: 他の手法を用いたモデルよりも高いタスク達成した 学習で比較する軌跡 • 理想的な軌跡: 完全な軌跡で、エラーは一切含まれない • 良い軌跡: 高い成果を上げたが、エラーや無駄な行動が含まれる軌跡 • 直接修正軌跡:軌跡の終端でエラーを修正した軌跡 1月27日 更新分 Agent Capabilities: 学習
  44. エージェントが新しい環境に自律的に適応できるよう、軌跡データ生成するフレームワーク Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic

    Environments エージェントが相互作用する環境から得られる高品質なデータ不足が性能向上の妨げになっている 人間によるラベル付けを必要とせず、新しい環境にエージェントを迅速に適応させる仕組みを提案 Learn-by-interact フレームワーク • 環境のドキュメントやチュートリアルを参照してタスク指示を生成し、LLMが実行して軌跡データを収集 • 生成された軌跡データを要約・抽象化し、新たなタスク指示を生成(サブタスクで量増し) • 低品質なデータを除外するための自動フィルタリング • タスク意図に基づく検索と現在と同じ状態の検索を組み合わせたエージェント専用の履歴検索を設計 1月27日 更新分 Agent Capabilities: 学習
  45. 動的な自己更新型ライブラリを持つChem Agentの提案 ChemAgent: Self-updating Library in Large Language Models Improves

    Chemical Reasoning 1. タスク分解:化学タスクを細分化し、それぞれを解決可能な単位に分割 2. ライブラリの構築:分解されたサブタスクとその解法をライブラリに保存し、将来のタスクで参照可能に 3. ライブラリに含まれる三種類のメモリ構成 • 計画メモリ(Planning Memory):高レベルの戦略や方法論を記録 • 実行メモリ(Execution Memory):特定タスクの解法を記録 • 知識メモリ(Knowledge Memory):化学の基本原理や公式を保持 メモリの内容 ライブラリを使った推論 1月27日 更新分 Agent Capabilities: メモリ
  46. 学び続けるエージェントの実現に向けて生涯学習を知っておこう Lifelong Learning of Large Language Model based Agents: A

    Roadmap • 生涯学習(Lifelong Learning)では、新しい知識やスキルを継続的に学習しながら、過去に学んだ情報を保持 し、新たなタスクにも適応する • エージェントでは知識管理、動的タスク適応、ツール統合で生涯学習をする • LLM登場以前から転移学習の文脈で議論されていた • 知識の安定性(既存の知識を保持する能力)と可塑性(新しい情報を学ぶ能力)がトレードオフになる • 過去の知見を活かすか、新しく学ぶかの境目が難しい 1月27日 更新分 Agent Capabilities: 自己進化
  47. 計画や思考、行動を方策が選ぶエージェント PoAct: Policy and Action Dual-Control Agent for Generalized Applications

    PoActは以下2つのコントローラーを活用し、より高品質な推論とアクションを実現する 1. Policy Controller:推論過程の異なるステップ(計画、思考、コード生成)に応じて推論ポリシーを動的に切り替え 2. Action Controller:行動空間を動的に調整し、推論パスをレビューすることで、正確で効率的なタスク実行 PoActは、ReActに比べて最大20%以上の成功率向上を達成し、トークン消費を削減 1月27日 更新分 Agent Framework
  48. 標準操作手順をもとに行動するエージェント SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs

    自然言語で記述された擬似コード形式のSOPを使用し、エージェントの行動を制御 SOPを 「決定グラフ」 として表現し、エージェントのタスク遂行をガイド 深さ優先探索(DFS)を用いて決定グラフを探索して問題解決する タスク: サービス中断対応(SOPの例) - 顧客の認証を行う - 行動: 顧客IDを確認 (`authenticate_customer()`) - 認証失敗の場合、再認証のガイドを提供 - サービスステータスを確認 - 行動: 地域のサービス中断状況を確認 (`check_area_outages()`) - 中断があれば、顧客に通知し、復旧予定時間を伝える (`provide_resolution_time()`) - 中断がなければ、接続状況を確認 (`assess_line_connection_status()`) - 顧客問題が解決しない場合、技術サポートチームにエスカレーション - 行動: 問題を記録し、技術チームに転送 (`escalate_to_tech_support()`) タスク: 質問応答(SOPの例) - 質問文を読み、回答に必要な情報を特定する - 行動: キーワード検索 (`search(entity)`) - 検索結果に基づいて、次の文書を調べる - 必要な情報を集めたら、質問に答える - 行動: 回答を短い形式(例: "はい"、"いいえ"、具体的なエンティティ名)で出力 (`answer(question)`) - もし情報が不十分であれば、別のキーワードを検索 タスク: データクレンジング - データを読み込む (`read(data.csv)`) - 数値形式でない列を特定し、数値に変換する - 行動: ラベルエンコーディングを適用 (`convert_to_numerical(columns)`) - 欠損値を補完する - 行動: ランダムフォレスト手法で欠損値を埋める (`fill_missing_values(method=random_forest)`) - 外れ値を検出して除去する - 行動: Local Outlier Factor(LOF)法を適用 (`remove_outliers(method=LOF)`) - 重複行を削除する - 行動: データセットをクリーンアップ (`remove_duplicates()`) 1月27日 更新分 Agent Framework
  49. エージェントの認証、行動範囲と参照範囲の認可 Authenticated Delegation and Authorized AI Agents AIエージェントがデジタル空間で安全かつ責任を持って行動できるようにするための重要な一歩となる研究 OAuth 2.0を拡張し、認証とアイデンティティ情報の提供を追加

    • エージェントIDトークン: エージェントのユニークIDや属性(例: システム能力、制限)を含む • 委任トークン: ユーザーがAIエージェントに特定のタスクを許可するためのトークン 「タスクスコーピング」と「リソーススコーピング」の二重の仕組みで安全性を確保 自然言語による指示をXMLやJSON形式に変換し、AIエージェントの行動を制限できる仕組みがある 欧州のAI法律との整合性を考慮 AIエージェントの識別と追跡ができる • 各エージェントが一意のIDを持つため、操作や責任の所在を明確化 誤った操作やリスクの軽減ができる • スコーピングによりエージェントが許可されていない操作を防止 Agent Framework
  50. クラウド運用やITシステムの管理をエージェントで自動化 AIOpsLab: A Holistic Framework to Evaluate AI Agents for

    Enabling Autonomous Clouds AIOpsAgents(AI for IT Operations Agents)は、クラウド運用やITシステムの管理に特化したAIエージェント 問題検出(Detection) • システムのメトリクスやログデータを解析し、異常や問題をリアルタイムで検出 • 例:CPU使用率の急上昇やメモリ不足、ネットワーク遅延の検知 問題の位置特定(Localization) • 検出した問題がどこで発生しているのか、具体的な箇所を特定 原因分析(Root Cause Analysis, RCA) • 問題の根本原因を特定し、システムエラーや設定ミスなどの根源的な要因を明らかにする 問題解決(Mitigation) • 自動的に修正を実行し、システムの正常状態への復旧を図る 課題:複雑なタスクの処理、データ過多による混乱、誤判定や誤操作のリスク 応用例:クラウドサービスプロバイダ、大規模ITシステムの運用管理、自律型の「セルフヒーリング」クラウド運用 1月27日 更新分 Agentic AI Systems
  51. 個別教育プラットフォームのユーザー行動をシミュレーション Agent4Edu: Generating Learner Response Data by Generative Agents for

    Intelligent Education Systems LeetCodeやCourseraのようなパーソナライズ教育プラットフォームでは個別データを用いて以下を実現する • 個別最適化: 学習者ごとに適切な難易度や分野の練習問題を提案する • 知識追跡: 学習者の現在の知識レベルを推定し、その進化を追跡する • コンピュータ適応テスト(CAT): 少ない問題数で学習者の能力を正確に評価する しかし、個別最適の学習に必要なデータが足りないため、学習者をシミュレートするAgent4Eduを提案 1月27日 更新分 Agentic AI Systems
  52. Agentic RAGの種類を網羅したサーベイ論文 Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

    種類 ワークフロー メリット ユースケース Agentic RAG Router シングルエージェントがクエリを処 理し、外部データをルーティングし て応答を生成 シンプルな設計 リソース効率 基本的なカスタマーサポート 配送状況確認 Multi-Agent RAG 複数のエージェントが特定の役割を 持ち、タスクを分担し並列処理を実 施 高いスケーラビリティ タスク特化型で精度向上 マルチドメイン研究支援 複雑なクエリ処理 Hierarchical Agentic RAG 階層構造で上位エージェントが下位 エージェントを指揮し、戦略的にタ スクを処理 戦略的意思決定 柔軟なタスク管理 財務分析 法律文書レビュー Corrective RAG 結果を評価し、不足や誤りを修正す るための再検索やクエリ再構築を実 施 応答精度向上 不正確な情報の修正 医学研究の要約 複雑な情報統合 Adaptive RAG クエリの複雑さに基づき、シンプル な処理からマルチステップ推論まで 動的に対応 効率的なリソース使用 柔軟な適応 パーソナライズ教育支援 顧客サポート Graph RAG グラフ構造を用いてデータ間の関係 性を考慮した高度な推論を実施 高度な関係性推論 構造化データの利用 医療診断 法的研究 Agentic Document Workflows ドキュメント処理に特化し、文書解 析、情報抽出、応答生成を自動化 エンドツーエンドのプロセス自動化 ドメイン特化型 契約書レビュー 請求書処理 保険クレーム管理 1月27日 更新分 Agentic RAG
  53. 情報密度の高い文章コンテンツを生成させる方法を提案 OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

    OmniThinkは、情報収集と文章生成のプロセスに「反復的な拡張(Expansion)」と「反省(Reflection)」を 導入し、情報密度を高めることに注力したフレームワーク 情報を階層的に整理しながら、取得した情報を再評価して最適化する 情報密度が高い文章は、読者にとって「少ない努力で多くの知識を得られる」ため、読みやすく、有益性が高い 提案手法プロセス 1. 情報収集(Information Acquisition) • 拡張(Expansion) • テーマに関連する情報を検索エンジンやデータベースを使って収集 • 検索された情報は階層構造で整理され、「情報ツリー(Information Tree)」に格納 • 各ノード(情報単位)について、必要であればさらに深掘りして詳細な情報を取得 • 反省(Reflection) • 新たに収集した情報を評価・分析し、冗長性を取り除き、意味のある知識を抽出 • これらの知識は「概念プール(Conceptual Pool)」に統合され、次の情報収集ステップをガイド 2. アウトライン構築(Outline Structuring) • 概念プールを活用して、テーマに基づいた論理的で一貫性のあるアウトラインを作成 3. 文章生成(Article Composition) • 各アウトラインセクションごとに、情報ツリーから関連情報を検索して文章を生成。 1月27日 更新分 Agentic RAG
  54. LLMベースのコード生成プロセスを体系的に整理 Towards Advancing Code Generation with Large Language Models: A

    Research Roadmap 6層構造のコード生成のフレームワークを提案 1. Input Phase: ユーザーの要件やタスクの記述を多モーダルで扱い、曖昧さを減らす 2. Orchestration Phase: 複数のエージェント間のタスク調整を行い、動的タスク生成やシステム全体の理解を向上 3. Development Phase: 開発チームとモデル間の頻繁なインタラクションを通じたインクリメンタルなコード生成 4. Validation Phase: 自動化されたテストと人間の検証を通じて、コードの安定性と現実世界の要件への適合性を確認 5. Refinement & Debug Layer: モデルの反復的なデバッグとユーザーからの明確化を含む 6. Execution, Verification & Validation: コード実行および統合テスト 1月27日 更新分 Software Agents
  55. 小型無人航空システム(sUAS)のシミュレーションテストプロセスを自動化 LLM-Agents Driven Automated Simulation Testing and Analysis of small

    Uncrewed Aerial Systems sUASのシミュレーションテストの課題 • 複雑な環境やミッション条件を反映したテストシナリオの設計が手動で行われ、時間がかかる • テスト環境の設定やシミュレーションツールの構成が煩雑でエラーを引き起こしやすい AUTOSIMTESTというマルチエージェントフレームワークを提案 シナリオ設計 • LLMエージェントが過去の事故データを活用し、環境設定、ミッション内容、テスト項目を含むシナリオを生成 シナリオ実行スクリプトの生成 • Env-Agentが環境構成ファイルを作成、M-Agentがミッションスクリプトを生成 シナリオ分析 • Analytics-Agentがフライトログを解析し、インタラクティブな分析レポートを出力 1月27日 更新分 API Agents
  56. 自己データ収集によるGUIエージェントモデル「UI-TARS」を提案 UI-TARS: Pioneering Automated GUI Interaction with Native Agents オンラインブートストラップによる思考も含めた学習

    • エージェント自身がインタラクションデータを収集し、学習する仕組み 1. 人間やモデルが共同でタスク目標を生成 2. 仮想環境でタスクを実行し、ステップバイステップで操作データを記録 3. ヒューリスティックルールやVLMの評価によりデータフィルタリング 1月27日 更新分 Digital Agents
  57. アリババから階層型の自己進化モバイルエージェントの提案 Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks 現在のモバイルエージェントの課題 •

    高度な推論や長期的な計画を必要とするタスクに対応できない • 過去の経験から学ぶ仕組みがないため、同じエラーを繰り返す Mobile-Agent-E • Managerがタスクを小目標に分割し、全体計画を立てる。Perceptor(視覚認識)、Operator(具体的行動の実行)、 Action Reflector(エラー確認)、Notetaker(情報集約)というサブエージェントが細かい作業を担当 • 自己進化モジュールにより、長期記憶として「Tips」(一般的なガイドライン)と「Shortcuts」(再利用可能な操作 シーケンス)を保持し、過去の経験から継続的に改善する 自己進化を有効化すると • 満足度スコアが75.1%→86.9%に向上 • 行動の正確性が85.9% → 90.4%に改善 • 中断エラー率が32% → 12%に改善 1月27日 更新分 Digital Agents
  58. データ品質や前処理の自動化をおこなうデータ中心なエージェント Towards Human-Guided, Data-Centric LLM Co-Pilots エージェントが機械学習モデリングする研究が多い中でエージェントがデータ改善をおこなう • 欠損値補完、ノイズデータの処理、ラベルリーク対策、データドリフト対応など、現実のデータ課題に対応 •

    非技術的なドメイン専門家を対象にデータ改善つき機械学習ワークフローを提供できるフレームワーク マルチエージェント推論 • コーディネータエージェントは、データ処理全体の流れを計画・監視し、ユーザーのフィードバックや自動的な評価指標 に基づいてプロセスを調整する • ワーカーエージェントは、計画されたタスクを実行し、具体的なデータ処理コードを生成・実行する 人間参加型プロセス • データの問題が発見された際に、専門家にフィードバックを求めることで、ドメイン固有の知識を統合する 1月27日 更新分 Data Agents
  59. 文献調査エージェントをいつ使う? PaSa: An LLM Agent for Comprehensive Academic Paper Search

    PaSa (Paper Search Agent) という新しい学術論文検索エージェントを提案 • Crawler: ユーザークエリに基づき論文を検索し、引用ネットワークを探索して関連論文を収集 • Selector: 検索された論文を評価し、クエリ要件を満たすかどうかを判断 実験結果 • 文献レビューや調査の初期段階で、漏れを防ぐことが重視される場合、Recallを重視する • 具体的な研究課題に絞った検索の場合、Precisionを重視する • Precisionが低い場合、不要な論文が多く含まれ、ユーザーが手動でフィルタリングする負担が残る • Recall@100は69.29%、Precisionは51.46%だった。若干、文献収集の初期段階の利用向けか 1月27日 更新分 Research Agents
  60. 1月13日 更新 リリース • Introducing Operator • Computer-Using Agent •

    Scheduled tasks in ChatGPT • Introducing Citations on the Anthropic API • Perplexity now has a mobile assistant on Android • Perplexity launches Sonar, an API for AI search
  61. Introducing Operator OpenAIから明示的にエージェントと称される「Operator」の登場(research preview) ブラウザの操作をしてくれるエージェントでUSのProライセンスの方限定で使える Operator を動かすモデルをAPI で近日中に公開し、独自ブラウザ操作エージェントが開発できる すべてのサイトまたは特定のサイトに対してカスタム指示を追加すること(Booking.com で航空会社の好みを

    設定するなど)で、Operator のワークフローをパーソナライズできる。 安全性の配慮 • Operator は、ログイン、支払いの詳細、または CAPTCHA の解決が必要なタスクは、ユーザーに依頼する • Takeover mode:Operator はユーザーがログイン認証情報や支払い情報などの機密情報入力するときに情報の収集や スクショを撮らない • 注文の送信やメールの送信など、重要なアクションを完了する前に、オペレーターは承認を求める • 銀行取引や、求人応募の決定など、重大な決定を必要とする特定の機密タスクを拒否する • プロンプトインジェクション対策をしている 研究から実利用のギャップとなる安全性の配慮からパーソナライズまでを学習を通してLLMに能力を与えてい るのが素晴らしい 1月27日 更新分 https://openai.com/index/introducing-operator/
  62. Computer-Using Agent • GPT-4o の視覚機能と強化学習による高度な推論機能を組み合わせたモデル • 人間と同じように画面に表示されるボタン、メニュー、テキスト フィールドなどのGUIを操作するように訓練 されている •

    OSWorld の成功率 38.1%、Web ベースのタスクでは WebArena で 58.1%、WebVoyager で 87% を達成 行動のたびに スクショの理解が必要 そのため長くなってしまう https://openai.com/index/computer-using-agent/
  63. Introducing Citations on the Anthropic API Claude がソースに基づいて回答する新しい API Citations

    をリリース Citations は、Anthropic API および Google Cloud の Vertex AI で一般公開 画像の引用は不可 1月27日 更新分 https://www.anthropic.com/news/introducing-citations-api https://docs.anthropic.com/en/docs/build-with-claude/citations#example-pdf-citation 各ドキュメントに設定 引用対象 PDFを渡す場合 分割文書を渡す場合 pdfの場合ページ単位で引用
  64. Scheduled tasks in ChatGPT • OpenAIからタスクスケジュール機能がベータ版で登場 • タスクは、特定の時間 (1 回限りまたは定期的)

    または UI でトリガー • ユーザーがオフライン環境でも動く • タスクが完了すると、ユーザーにプッシュ通知またはメールが送信 • ChatGPT のタスクは GPT-4o を使用する • アクティブ タスクは常時 10 個までに制限 • サポート対象外:Voice chats、File Uploads、GPTs 1月27日 更新分 https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt
  65. Perplexity launches an assistant for Android • Perplexity Assistantをリリース •

    スマホ画面かカメラで外界を観測し質問応答する • 行動もできる • 自分の地域のレストランを調べさせて、自動的に予約させることもできる • 15の言語(日本語含む)で無料で利用可能 1月27日 更新分 https://techcrunch.com/2025/01/23/perplexity-launches-an-assistant-for-android/
  66. Perplexity launches Sonar, an API for AI search https://www.perplexity.ai/ja/hub/blog/introducing-the-sonar-pro-api https://techcrunch.com/2025/01/21/perplexity-launches-sonar-an-api-for-ai-search/

    • Sonarと呼ばれるAPIサービスをリリース • 生成AI検索ツールを自社に組み込める • 安価で高速な基本の Sonar • 難しい質問に適した高価な Sonar Pro 価格 • 1,000回の検索ごとに5ドル • 約100万の入力トークンで1ドル(Pro 3ドル) • 約100万の出力トークンで1ドル (Pro 15ドル)