Weekly AI Agents News! 6月号論文のアーカイブ

Weekly AI Agents News @ottamm_190 ݄̒߸ 論⽂編

はじめに • こちらはアーカイブです。更新⽇付をつけてジャンルごとに並び替えています。 • LLMエージェントに関するニュースや論⽂をほぼ毎週更新しています。 • 論⽂、プロダクトの順番でまとめています。 • 個⼈の備忘録で取り組んでおり、誤りがある場合もあります。 •
⽂字サイズ16ptで⼩さいのでPCで⾒ることをおすすめします。

論⽂ 6⽉分計画 • Octo-planner: On-device Language Model for Planner-Action
Agents • FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents • Ask-before-Plan: Proactive Language Agents for Real-World Planning • CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration • SELFGOAL: Your Language Agents Already Know How to Achieve High-level Goals • NATURAL PLAN: Benchmarking LLMs on Natural Language Planning • Graph-enhanced Large Language Models in Asynchronous Plan Reasoning • A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models • Meta-Task Planning for Language Agents ⻑いコンテキスト理解 • Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA • LLM In-Context Recall is Prompt Dependent • Needle In A Multimodal Haystack • Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models • BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack • DrVideo: Document Retrieval Based Long Video Understanding • Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? • Chain of Agents: Large Language Models Collaborating on Long-Context Tasks • Are Long-LLMs A Necessity For Long-Context Tasks?

論⽂ 6⽉分推論 • Test of Time: A Benchmark for
Evaluating LLMs on Temporal Reasoning • Faithful Logical Reasoning via Symbolic Chain-of-Thought • Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization • From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step ⾃⼰修正 • When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs • Devilʼs Advocate: Anticipatory Reflection for LLM Agents • Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification プロンプト最適化 • 計画向け：REPROMPT: Planning by Automatic Prompt Engineering for Large Language Models Agents • ツール利⽤向け：AVATAR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval • ⾃⼰修正向け：MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL 学習 • SELF-TUNING: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching • HUSKY: A Unified, Open-Source Language Agent for Multi-Step Reasoning • RE-Adapt: Reverse Engineered Adaptation of Large Language Models

論⽂ 6⽉分メモリ • AI-native Memory: A Pathway from LLMs
Towards AGI • Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models ツール利⽤ • igCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions • Tool Learning with Large Language Models: A Survey マルチモーダル理解 • CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs • Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis 評価 • The BIGGEN BENCH: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models • A Survey of Useful LLM Evaluation アライメント：Towards Scalable Automated Alignment of LLMs: A Survey キャッシュ：LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching 予測：Can Language Models Serve as Text-Based World Simulators? ⻑期対話：Hello Again! LLM-powered Personalized Agent for Long-term Dialogue ⾃⼰進化：AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments

論⽂ 6⽉分 Agent Framework • Symbolic Learning Enables Self-Evolving Agents
• The Prompt Report: A Systematic Survey of Prompting Techniques • Open-Endedness is Essential for Artificial Superhuman Intelligence • Position: Foundation Agents as the Paradigm Shift for Decision Making • AGILE: A Novel Framework of LLM Agents • LLMs Meet Multimodal Generation and Editing: A Survey Multi Agent Systems • Autonomous Agents for Collaborative Task under Information Asymmetry • EVOAGENT: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms • MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate • Scaling Large-Language-Model-based Multi-Agent Collaboration • Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey • LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins • LLM-Based Cooperative Agents using Information Relevance and Plan Validation • Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting • A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor

論⽂ 6⽉分 Agentic AI Systems • LLMs Assist NLP Researchers:
Critique Paper (Meta-)Reviewing • GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning Embodied Agents • A Survey on Vision-Language-Action Models for Embodied AI Computer Controlled Agents • CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only • Large Language Models Can Self-Improve At Web Agent Tasks

Octo-planner: On-device Language Model for Planner-Action Agents • デバイス上で動くエージェントのため、計画と⾏動を別のモデルを採⽤し、この論⽂では計画モデルを提案 •
⾏動は従来のOctopus-v2を利⽤する。計画部分をphi-3 miniを微調整させたOcto-plannerを使う • 今は静的な計画のため、今後はアクションの観察に基づくリアルタイム計画更新を検討する最初の計画を間違うと観察に基づき振り返れない Agent Capabilities：計画 7⽉1⽇更新分

FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM- based Agents
• LLMエージェントは、専⾨知識が必要なタスクにおいて計画的な幻覚を起こしやすい • 課題解決に外部知識をテキスト、コード、フローチャート形式で与えるが、有効性の⽐較評価がされていない • 初めてワークフローガイド計画を含むベンチマークを作成しタスクの評価をしフローの有効性を検証 • ワークフローで解けるタスクが多く載っておりオススメ評価タスクフローチャート形式をMarkdownのMermaid記法で与える他形式に⽐べ、ステップの⽋落や順序の誤り、ツールの使⽤に関するミスが減少ツール呼び出し性能 Agent Capabilities：計画 7⽉1⽇更新分

Ask-before-Plan: Proactive Language Agents for Real-World Planning • 旅⾏計画を⽴てる前に曖昧なユーザー指⽰に対して明確化のため再質問をするエージェントの提案 •
提案⼿法CEPは、ユーザー指⽰の明確化の有無を予測し、ユーザーや環境から情報を集め、旅⾏計画を⽣成 • 明確化、実⾏、計画エージェントを⽤いるマルチエージェント⼿法 • 質問の明確化⽅法 • 対話履歴と環境の観測結果から明確化が必要かLLM分類 • 必要ならば質問⽂を⽣成実験⽅法に疑問 GPT-3.5のCEPが気になる Agent Capabilities：計画 6⽉24⽇更新分

CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration • TencentからLLMsの性能を向上させるための新しい階層的計画フレームワークの提案
• グローバル計画エージェントは、問題の範囲を理解し、マクロレベルの計画を⽴てる • ローカル実⾏エージェントは、マクロ計画から詳細なサブタスクの説明を受け、実⾏レベルの計画を⽴てる • プロンプトが論⽂にあるので参考になる • 精度を⾒るとあまり改善していないがWebエージェント以外だと役⽴つフレームワークかもしれない Agent Capabilities：計画 6⽉24⽇更新分

SELFGOAL: Your Language Agents Already Know How to Achieve High-level
Goals • ⾼レベルの⽬標を達成するためにサブゴールをノードとするGoalTreeによる⾏動計画⼿法を提案 • エージェントはサブゴールを選び⾏動し、結果からサブゴールを新たに⽣成するか、別のサブゴールを選ぶのかを繰り返す • 公的財ゲーム、平均の2/3を当てるゲーム、第⼀価格オークション、交渉ゲームで評価 • ReAct, ADAPT, Reflextion, CLINと⽐べて最も⾼い精度を達成 GoalTreeの例ずっと深く広く展開される Agent Capabilities：計画 6⽉17⽇更新分

NATURAL PLAN: Benchmarking LLMs on Natural Language Planning • ⾃然⾔語での計画能⼒を評価するベンチマーク「NATURAL
PLAN」の提案 • NATURAL PLANは、旅⾏計画、会議計画、カレンダーのスケジューリングの3つを含む • Google Flights、Google Maps、Google Calendarなどのツールの出⼒をもとに計画能⼒を評価 • 旅⾏計画：都市数、滞在⽇数などから具体的な⽇程と訪問順序を計画 • 都市の数が6都市以上で40%を切る。3都市だと80%の精度 • 会議計画：各友⼈の会える時間帯と移動時間を考慮し多くの友⼈と会う時間を計画 • 会う⼈数が4⼈〜10⼈だと50〜10%で、1〜3⼈だと90~70%の精度 • カレンダー予定合わせ：全員が参加可能な会議の時間を⾒つける • 参加者が少なく、予定候補⽇が少ない場合、60%の精度（参加者が2⼈で、1⽇のうちに会議を設定する） • 参加者が多く、予定候補⽇が多い場合、30%（例えば、参加者が7⼈で、5⽇間のうちに会議を設定する） Agent Capabilities：計画 6⽉17⽇更新分

Graph-enhanced Large Language Models in Asynchronous Plan Reasoning • ⾮同期計画タスクに向けたグラフベースな推論アルゴリズムPlan
Like a Graph（PLaG）の提案 • ⾮同期計画とは、順序付き⾏動および並列可能な⾏動を含む複雑な計画タスク • 時間の合計、時間の⽐較、制約付き推論を正確に⾏う必要がある • PLaGは、プロンプトにグラフを仕込むか、⽣成時にグラフを作るか（Build a Graph）の２種類ある • PLaG(BaG)形式がタスクごとに新しいグラフを明⽰的に仕込む必要がなく最も精度が良い CoTよりも精度が⾼いノードとエッジ数が増えると悪化中央：BaG形式のプロンプト右：明⽰的なグラフプロンプトお料理の⾮同期計画の例 Agent Capabilities：計画 6⽉10⽇更新分

• 旅⾏計画という多段階の計画問題に焦点を当て、⼈間のような計画フレームワークを開発 • アウトライン⽣成（Outline Generation）: 初期に⼤まかな計画を⽴てることでプロセスをガイドする • 情報収集（Information Collection）: 詳細な計画を作成するために必要なデータを収集する
• 計画作成（Plan Making）: 収集した情報に基づいて詳細な計画を作成する A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models いきなり詳細化せず、⼤枠から詳細化するのは良い筋かも Agent Capabilities：計画 6⽉3⽇更新分

• マルチエージェントシステムのためのゼロショット計画⼿法Meta-Task Planning (MTP)を提案 • MTPは複雑なタスクを下位タスク（メタタスク）の階層に分解し、各メタタスクを実⾏可能なアクションにマッピングする • TravelPlannerで平均約40%の成功率を達成し、API-Bankでは既存の最先端⼿法を14%上回った Meta-Task
Planning for Language Agents Agent Capabilities：計画⼤枠から実⾏可能なアクションに⼤枠の依存関係もグラフ化 6⽉3⽇更新分

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc
QA • 複数のドキュメントにわたる質問応答（QA）を通じて評価をおこなう⻑い⽂脈ベンチマークLoong を提案 • タスクは精度が良い順にスポットライトロケーティング7割、推論の連鎖6割、⽐較5割、クラスタリング4割 • 複数のドキュメントを丸ごと渡してどんな推論タスクがどの程度できるのか理解できるのでオススメ⾦額や会社の⽐較分析ある条件でカテゴライズ時系列表⽰引⽤リンク理解証拠を⼀つ抽出 Agent Capabilities：⻑いコンテキスト理解 7⽉1⽇更新分

LLM In-Context Recall is Prompt Dependent • ⻑いプロンプト（⼲し草）の中から回答に関する事実（針）を⾒つける⻑⽂理解タスク(needle-in-a-haystack) の評価 •
プロンプトはsystem message, long text, questionで構成される • GPT-4-turbo-0125はプロンプト内に学習データと⽭盾する事実を⾒つけようとすると性能が低下する(San Francisco) • ただ同じ質問を事実の位置やコンテキスト⻑を変えながら評価しているため、必ずしも精度が⾼いから安⼼とは⾔えない。異なる複数の事実を様々な位置で⾒つけられるかが重要架空の事実の評価⽭盾する事実架空の事実通常の事実 Agent Capabilities：⻑いコンテキスト理解 6⽉24⽇更新分

Needle In A Multimodal Haystack • ⻑いマルチモーダル⽂書を理解する能⼒を体系的に評価するベンチマーク（MM-NIAH）の提案 • Multimodal Needle
：⻑い⽂書に含まれるテキストと画像それぞれの事実（針）をもとに回答するタスク • 事実を1つ⾒つけて回答する検索、事実を列挙するカウント、複数の事実を繋げて答える推論を含む • 画像ニードルの性能はテキストニードルよりも難しくランダム選択以下 • Gemini 1.5 proでも難しく、画像の枚数が増えると性能が低下（性能結果は論⽂を⾒てください） Agent Capabilities：⻑いコンテキスト理解タスクの例 6⽉24⽇更新分

Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal
Large Language Models • MLLMの⻑⽂脈理解能⼒を評価するためのベンチマーク • 1つの画像を2*2,8*8のサブ画像の繋ぎで表す。実験はM:画像数、N:分割数、K:針の数で⽐較 • タスクは、キャプションに該当する画像の座標（画像のインデックス、⾏、列）を答える • 精度は、ターゲット画像の存在有無、インデックスの正確さ、座標の正確さで評価 • GPT-4oやGPT-4Vは、針が存在しない場合でも誤って存在すると認識することが多い • M=10のとき、Gemini 1.5 proよりGPT-4oの⽅が全体的に5%ほど精度が⾼い • K>1のとき、GPT-4oよりGemini 1.5 proの⽅が全体的に10%ほど精度が⾼い Agent Capabilities：⻑いコンテキスト理解 Multimodal Needle in a Haystack タスク 6⽉24⽇更新分

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
• ⻑い⽂書に分散された事実に基づいて推論する能⼒を評価するベンチマーク • ⼀連の関連する事実を結びつける能⼒、個々の事実から⼀般的な結論を導く能⼒などを評価する • GPT-4のロングコンテキストの利⽤率の低さが⽰された Agent Capabilities：⻑いコンテキスト理解事実の位置が中央にあるとタスクの精度が下がる 6⽉24⽇更新分

DrVideo: Document Retrieval Based Long Video Understanding • ⻑尺動画理解の問題を⻑⽂理解のタスクに変換するDrVideoを提案 •
⻑い動画をテキストベースの⻑⽂に変換し、初期の段階で重要なフレームを取得をおこなう • エージェントベースの反復ループを使⽤して、不⾜している情報を検索し、関連データを増強し、最終的な回答を⾏う • EgoSchema(3分), MovieChat-1K(10分), LLama-Vid QA(60分以上)で、既存⼿法を上回る Agent Capabilities：⻑いコンテキスト理解 6⽉24⽇更新分

Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
• DeepMindからロングコンテキスト⾔語モデルが現実世界のアプリ（ドキュメント検索、RAG、SQL、Many shot ICL）で役⽴つか評価するベンチマーク • ベンチマークは既存のデータセットを利⽤し、⻑⽂になるよう⼯夫をしている • RAGなら参照数を増やす、SQLならテーブルデータをそのまま⼊れるなど • Gemini 1.5 Proは専⽤モデルと⽐較し、検索とRAGで均衡か優勢 • SQLの構造化データの処理には専⽤モデルの⽅が優勢 Agent Capabilities：⻑いコンテキスト理解 6⽉24⽇更新分

Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
• Corpus-in-Context Prompting (CiC)の提案もしている • プロンプト内に参照コンテンツ全体を挿⼊し、各参照コンテンツ（例：パッセージ、画像、⾳声）に⼀意の識別⼦（ID）を付ける。Few-shotの解答例でも識別⼦を付与しておく。 Agent Capabilities：⻑いコンテキスト理解 6⽉24⽇更新分

• LC-Boost (Long-Context Bootstrapper) はコンテキスト⻑が短いLLMを使ってロングコンテキスト問題に対応するフレームワーク • ⼊⼒の⻑いコンテキストを⼀度に処理するのではなく、部分的にアクセスし、効率的にタスクを解決する • 前⽅から各チャンクに対して処理をするため、推論が⻑くなる可能性はあるが精度は通常より⾼い
Are Long-LLMs A Necessity For Long-Context Tasks? LC-Boostのアルゴリズム LC-Boostのフロー図 Agent Capabilities：ロングコンテキスト理解 6⽉3⽇更新分

Chain of Agents: Large Language Models Collaborating on Long-Context Tasks
• Google Cloud AI Researchから⻑い⽂脈タスクのための新しい⼿法「Chain of Agents」の提案 • 提案⼿法は、⻑⽂をチャンクに区切り、先頭から順番に会話メモリCUに回答に必要な情報を追記していき、⾛査したあと、蓄積された会話メモリと質問から最終回答を⾏う • マルチホップな質問応答、要約、コード⽣成でRAGやFull-Contextベースラインに対してclaudeシリーズは最⼤で10%の性能向上 🟦が会話メモリで情報を付け⾜す後から過去を遡って、情報を付け⾜せない Agent Capabilities：⻑いコンテキスト理解 6⽉10⽇更新分

Test of Time: A Benchmark for Evaluating LLMs on Temporal
Reasoning • 時間的推論能⼒を評価するベンチマークTest of Time の提案 • GPT-4が多くのタスクで⾼い精度を⽰す⼀⽅、特定のタスクではGemini 1.5 Proが優れている • DurationやScheduleなどの複雑なタスクでは、全体的にモデルの精度が低い Agent Capabilities：推論 6⽉17⽇更新分

• LLMは論理的推論能⼒を得る必要があるが、現在は外部の推論システムに依存している • シンボリックCoT（SymbCoT）は、外部の推論システムに依存せず、シンボリック表現と⾃然⾔語表現を組み合わせることで、厳密な論理計算と豊かな⽂脈情報の両⽅を活⽤できる Faithful Logical Reasoning via Symbolic
Chain-of-Thought Agent Capabilities：推論 6⽉3⽇更新分

• Transformer モデルは、知識に基づく推論をプロンプトで指⽰せずに暗黙的に⾏う能⼒があるのか、そしてその能⼒をどのように獲得するのかを理解するための実験研究 • 実験からgrokking（過学習を超えてさらに⻑時間の訓練によって⼀般化を獲得する現象）を通じてモデルは単なる記憶から脱却し、抽象的な規則を学習し、新しいデータに対する推論能⼒を向上させる • ただし推論も種類により異なり、複数の事実を組み合わせて新しい情報を導き出す組成タスクにおいては⼀般化が難しい⼀⽅、エンティティの属性を⽐較する⽐較タスクにおいては成功する
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization Grokkingスタート OODでも急激に精度向上組成タスクではOODは精度が上がらず⼀般化しなかった Agent Capabilities：推論 6⽉3⽇更新分

• CoTによって⽣成される複数ステップをモデルの内部状態に内在させる学習⽅法を提案 • 明⽰的なCoT向けモデルから始め、徐々に中間ステップを削除し、モデルを微調整させる（Stepwise Internalization） • この⼿法により推論プロセスを簡素化しつつ⾼い性能を維持できる（Speed と Accのトレードオフはある） From
Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step ⽣成範囲 • 掛け算の桁数を増やすと通常のCoTであれば精度は良いが遅い • 提案⼿法のICoT-SIは精度を維持しつつ、⾼速化できている徐々に推論過程をモデルに学習していき、最終的には問題から直接答えを⽣成できるようにする Agent Capabilities：推論 6⽉3⽇更新分

When Can LLMs Actually Correct Their Own Mistakes? A Critical
Survey of Self-Correction of LLMs • ⾃⼰修正（Self-correction）に関してサーベイし、LLMの⾃⼰修正が上⼿くいく条件を調査した論⽂ • 既存研究では、研究課題が明確に定義されておらず、実験デザインが不適切（正解例を使うなど）なことが多い • ⾃⼰修正が⼀般的なタスクで成功する結果はほとんどない • 信頼できる外部フィードバックを使⽤するタスクでは⾃⼰修正が効果的である • ファインチューニングは特定のタスクで⾃⼰修正を可能にする Agent Capabilities：⾃⼰修正 6⽉10⽇更新分

• DeepMindから複雑なタスクを解決する際の⼀貫性と適応性を向上させる新たな内省⽅法を提案 • 複雑なタスクは実⾏途中で計画変更を強いられるが、その頻度が多いとエージェントの効率性が低下する課題 • ３つの内省メカニズムを提案し、Webタスクで試⾏回数や計画の修正回数を45%削減 • 予期的内省（Anticipatory Reflection）：エージェントの⾏動の前に失敗の可能性を予測し、代替⾏動を考える •
⾏動後の評価とバックトラッキング：⾏動後に結果を評価し、必要に応じて戻って代替⾏動を実⾏する • 計画の改訂（Plan Revision）：計画完了後に包括的なレビューを⾏い、次回の試⾏のための戦略を改善する Devilʼs Advocate: Anticipatory Reflection for LLM Agents ② 初期⾏動が失敗した場合の⾏動を事前に内省する ① 計画の初期⾏動 ③ 初期⾏動の結果を得て失敗なら戻る ④ 代替案を実⾏する Agent Capabilities：⾃⼰修正 6⽉3⽇更新分

• Minecraftのクリエイティブなタスクには明確な成功基準がなく、⾃⼰改善のフィードバックが得られず困難 • 外観や3D構造の視覚的検証と機能要件を満たすかの実⽤性の検証から⾃⼰改善をおこなう • CADプログラムを⽣成し、3Dモデルを設計。マルチビュー画像を作成し、VLMで視覚的検証 • 3DモデルをMinecraftのブロック配置情報に変換しMinecraft内で建物を構築。プレイヤーの⾏動をシミュレートし、建物の実⽤性を検証 Luban:
Building Open-Ended Creative Agents via Autonomous Embodied Verification 実⽤性の検証を除くと渡れない視覚的検証を除くとタワーにならない Agent Capabilities：⾃⼰修正 6⽉3⽇更新分

REPROMPT: Planning by Automatic Prompt Engineering for Large Language Models
Agents • エージェントの試⾏履歴を⽤いた⾃動プロンプトエンジニアリング⼿法を提案 • ReAct、Reflextionで訓練⽤の試⾏履歴を貯めて、特定の外れ値に依存させないため、⼀括で失敗原因の要約をする • 補⾜：理想は教師軌跡を使って差分をLoss計算に使⽤したいが、⽤意が難しいので上記⽅法をとっている • 最適化のときは要約から解決策を複数⽣成し、最も有望な解決策を選び、元のプロンプトにどう差し込むか⽣成させる 5回修正した後のプロンプト（⻘が追加分） 5回修正すると精度は確かに向上している疑似コード Agent Capabilities：プロンプト最適化 6⽉24⽇更新分

AVATAR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval • エージェント開発におけるプロンプトは多くの⼿作業と試⾏錯誤が必要で部分最適な恐れがある
• ツール利⽤に関するプロンプト最適化⼿法を提案。その後は同じプロンプトを継続利⽤する 1. 最適化ではバッチ単位でQAペアを現在のプロンプトを使って⾏動⽣成 2. 実⾏結果の性能の閾値からPos/Negのラベルを付与 3. Pos/Negを10サンプルずつLLMの推論により⽐較分析とプロンプトの改善案を⽣成 4. 改善後のプロンプトをもとにまたバッチ単位で最適化プロンプト改善のイテレーションと性能提案⼿法 Agent Capabilities：プロンプト最適化 6⽉24⽇更新分

MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL • MicrosoftからText-to-SQLの⾃⼰修正のためのガイドラインを⾃動⽣成するマルチエージェント⼿法の提案 •
提案⼿法はマネージャー、修正、フィードバックの3つのエージェントを⽤いる • 専⾨家の作成したガイドラインを上回る性能を⽰し、⾃⼰修正の解釈可能性を向上 Agent Capabilities：プロンプト最適化 6⽉24⽇更新分

SELF-TUNING: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching
• SELF-TUNINGは、モデルのファインチューニングの⼀環で、新しい知識を効率的に取得し、既存の知識を保持するための⼿法 • 3ステージあり、stage1で知識の獲得⽅法をself-teachingで学習し、stage2から新しい知識の獲得と古い知識の忘却を防ぐ学習が始まり、stage3では最新のドキュメントについて知識をより深める学習をおこなう • 新しい情報に対しては特に知識の暗記、抽出、推論能⼒が向上し、古い情報に対しても安定して⾼いパフォーマンスを維持している知識の獲得⽅法以下のタスクを学習する暗記⽂書の次トークン予測理解タイトル要約、重要ハイライト、NLI ⾃⼰反省レクチャー、キーワードの説明、⽳埋め、多肢選択、⽂の完成 Agent Capabilities：学習 6⽉17⽇更新分

HUSKY: A Unified, Open-Source Language Agent for Multi-Step Reasoning •
数値、表形式、知識含むMulti-Step Reasoningを解決するためのオープンソースのLLMエージェントの提案 • ツール選択とサブタスクを⽣成するGeneraterモデルとツール実⾏のActionモデルを異なるモデルで学習させて実現 • 学習ステップ • 教師モデルを⽤いてFSLで複数のツールを利⽤する軌跡を作成し、各モジュールの教師データ⽤に加⼯ • 各ツールモデルと⾏動選択モデルをLlama3-8Bなど異なるモデルで微調整利⽤可能なツールステップごとに⾏動選択とツール実⾏をぐるぐる回すマルチステップのステップ2とステップ3の詳細結果 6⽉17⽇更新分 Agent Capabilities：学習

• 指⽰チューニングされたモデルを新しいドメインに適応させると、既存の指⽰チューニング能⼒が劣化する可能性がある • 既存の指⽰チューニング能⼒を維持しながら、新しいドメインの適応⼿法を提案 • RE-Adapt (Reverse Engineered Adaptation)は事前学習済モデルと指⽰チューニング済モデルの重み差分を保
持し、事前学習済モデルに別ドメインで指⽰チューニングした後、先の重み差分を付け⾜す RE-Adapt: Reverse Engineered Adaptation of Large Language Models Agent Capabilities：学習 6⽉3⽇更新分

AI-native Memory: A Pathway from LLMs Towards AGI • LLMに⻑いコンテキストから関連情報を⾒つけ出し、同時に複雑な推論を⾏うことが⾮常に難しい
• LLMをプロセッサ、コンテキストをRAM、そしてメモリをディスクとして機能させるシステムの構築を提案 • LLMが⽣データから得られる重要な結論をメモリに保存し、クエリ時に活⽤することで、効率的かつ効果的な情報処理と推論を可能にする • L1（⾃然⾔語メモリ）：ユーザーに関する情報を⾃然⾔語形式（嗜好や所属、タグ、要約）で保存 • L2（AIネイティブメモリ）：個⼈の興味⾏動などの予測につながる個⼈⾔語モデルをメモリとする • AGIには⾃然語形式のメモリではなく、個⼈⾔語モデルが必要だという主張 • ユーザーごとにパーソナライズされたメモリ（LPM：Large Personal Model）を持つことで、ユーザーの過去の⾏動や好みに基づいた個別化された体験やサービスを提供できるらしい Large Personal Model Agent ⾃然⾔語メモリ趣味、嗜好、関係性、過去の会話彼はXXがしたいと思う Agent Capabilities：メモリ 7⽉1⽇更新分

Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models •
Buffer of Thoughts (BoT)：過去の問題解決で得た⾼次の思考テンプレをバッファから取得し活⽤する推論⽅法 • 類似テンプレがない場合、新規タスクとしてデフォルト思考テンプレが利⽤される • 新規タスクの場合、蒸留プロンプトによりテンプレに変換され、過去のテンプレと類似してなければメタバッファに追加⾼次の思考テンプレートの例類似テンプレがなくともバッファにテンプレを追加することで精度が徐々によくなる仕組み Agent Capabilities：メモリ 6⽉10⽇更新分

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex
Instructions • Pythonのライブラリの関数を正しく呼び出し使えるか評価するプログラミングタスクのベンチマークを提案 • タスクはdocstringsが提供され、コード⽣成し、 5つ程度のテストケースの合格数で評価 • LLMsはまだライブラリの関数を正確に使⽤する能⼒に⽋けており、⼈間の性能97%に対して最⼤60%のスコアしか達成できなかった 77 44 31 30 10 8 5 281 128 63 60 20 16 10 Agent Capabilities：ツール利⽤ 7⽉1⽇更新分

• ツール学習のサーベイ論⽂ • ツール学習とは、LLMが外部ツールを使⽤して複雑な問題を解決する能⼒を強化する⽅法 • なぜツール学習が必要なのか • 知識獲得の向上（検索エンジン、DB） • 専⾨知識の強化（計算、プログラミング）
• ⾃動化と効率化（タスク管理、プロジェクト管理） • インタラクションの向上（⾳声認識や画像認識、多⾔語翻訳） • 解釈性とユーザー信頼の向上（意思決定プロセスの透明性） • 堅牢性と適応性の向上（ユーザー⼊⼒の変動に対する安定性） • どのようにツール学習をおこなうのか • ツール学習⽅法は、主に以下の4つのステージに分けられる • タスク計画 (Task Planning) • ツール選択 (Tool Selection) • ツール呼び出し (Tool Calling) • 応答⽣成 (Response Generation) Tool Learning with Large Language Models: A Survey Agent Capabilities：ツール利⽤ 6⽉3⽇更新分

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in
Video Analysis • マルチモーダル⾔語モデルの動画分析タスクのベンチマーク • 合計900本の動画、713の字幕、869の⾳声ファイル、6ジャンル • 動画の尺：Shortは平均80秒、 Mediumは平均520秒、Longは平均2471秒 • Gemini 1.5 proが最も精度⾼い。字幕があると更に精度向上。⾳声があると精度が下がる。 Agent Capabilities：動画理解 6⽉10⽇更新分

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
• MLLMの性能のうち科学論⽂や財務報告書の図表の理解に注⽬し、arXiv論⽂から収集したデータセットを作成 • 既存のデータセットは、過度に単純化された図表とテンプレートベースの質問だった • GPT-4oは推論的質問に対して47.1%、記述的質問に対して84.5%の精度記述的質問：基本的な情報抽出例「サブプロットの⾏2列1において、線は交差していますか？」推論的質問：図表内の複数の要素を関連付けて分析例「4⽉の直後に咳、発熱、病気に関するGoogle検索の急増が⾒られる国の名前は何ですか？」 Agent Capabilities：マルチモーダル理解 7⽉1⽇更新分

The BIGGEN BENCH: A Principled Benchmark for Fine-grained Evaluation of
Language Models with Language Models • ⾔語モデルの9つの主要能⼒を77のタスクにわたって詳細に評価するベンチマーク • 103のLLMを5つの評価⽤LLMを使⽤して評価 Easy Hard Agent Capabilities：評価 6⽉17⽇更新分

A Survey of Useful LLM Evaluation • LLMの評価ベンチマークを紹介する論⽂ • LLMの評価を2つのステージ「コア能⼒」と「エージェント」に分けている
• エージェントはタスク成功率の評価が多く、ステップごとの詳細な評価が⽋けている • ベンチマークが知りたくなったらリポジトリを⾒ると良さそう Agent Capabilities：評価 6⽉10⽇更新分

Towards Scalable Automated Alignment of LLMs: A Survey • LLMのスケーラブルな⾃動アライメントに関するサーベイ
• アライメントの代表データ形式である指⽰-応答ペアおよび選好データの構築プロセスは、⾮常に⾼価で注意深い⼈間のアノテーションを必要とし、スケーラビリティの要求を満たせない • ⾃動アライメントの既存⼿法をアライメント信号に基づいて4つのカテゴリに分類 1. 帰納バイアス（Inductive Bias） 2. ⾏動模倣（Behavior Imitation） 3. モデルフィードバック（Model Feedback） 4. 環境フィードバック（Environment Feedback） Agent Capabilities：アライメント 6⽉10⽇更新分

Towards Scalable Automated Alignment of LLMs: A Survey 1. 帰納バイアスを活⽤したアライメント
• LLMの帰納バイアスを活⽤ • ⼤規模データで学習したTransformerには内在的な特徴がある 1. 出⼒の不確実性を定量化する能⼒ 2. ⾃⾝の出⼒を評価、批評、改善する能⼒ 3. ⽂脈内学習する能⼒ • これらを活⽤することで追加の監督信号なしにスケーラブルなアライメントが実現できる • 複数のLLMの構成や組織化から⽣じるバイアスを活⽤ 1. 複雑な問題に対処するためのタスク分解（Task Decomposition） 2. LLMが⾃分⾃⾝と対戦することで⾃⼰改善する（Self-play） • モデルが⾃⼰改善を⾏い、より⾼精度なアライメントを達成するために利⽤する • エージェントとしてのアライメントはチャットボットより難しい • ⾏動、環境のダイナミクス、⾃⼰制約を考慮するため Agent Capabilities：アライメント 6⽉10⽇更新分

Towards Scalable Automated Alignment of LLMs: A Survey 2. ⾏動模倣を活⽤したアライメント
• 既にアライメントされたモデルの⾏動を模倣することでターゲットモデルをアライメントする • 模倣先と模倣元の関係で２分類される • 強から弱への蒸留（Strong-to-Weak Distillation） • 既に⾼いアライメントが達成されている強⼒なモデルを教師モデルとして使⽤する • レスポンスガイド蒸留：ターゲットモデルが教師モデルの指⽰に対する応答を直接学習する • 選好ガイド蒸留：教師モデルが⽣成した選好データを⽤いてターゲットモデルをアライメントする • 弱から強へのアライメント（Weak-to-Strong Alignment） • AIの能⼒が⼈間を徐々に超えていく中で、強から弱が難しい場合に弱いモデルを教師モデルにする • 簡単なタスクから学んだ⾏動を基に、より難しいタスクでの性能を向上させるなど • まだ研究は理論含め初期段階 Agent Capabilities：アライメント 6⽉10⽇更新分

Towards Scalable Automated Alignment of LLMs: A Survey 3. モデルフィードバックを活⽤したアライメント
• 他のモデルからのフィードバックを利⽤してターゲットモデルのアライメントをする • フィードバックの形式は3種類 • スカラー信号 • スカラー信号は、強化学習で利⽤され、LLMの応答を⼊⼒として評価スコアを⽣成する報酬モデルから⽣成する • バイナリ信号 • バイナリ信号は、数学的推論タスクで使⽤され、結果の正誤を判定する • テキスト信号 • テキスト信号は、他のLLMによるフィードバックや⾃⼰批評に利⽤される Agent Capabilities：アライメント 6⽉10⽇更新分

Towards Scalable Automated Alignment of LLMs: A Survey 4. 環境フィードバックを活⽤したアライメント
• 既存環境から⾃動的にアライメント信号やフィードバックを取得し、ターゲットモデルのアライメントを⾏う • 社会的相互作⽤ • SNSのユーザーの反応から社会的規範、⼈間からの対話評価などの信号 • ⼈間の集団知能 • 多数決の結果、原則やガイドライン、クラウドソーシングによるタスクの正確性や有⽤性の信号 • ツールの実⾏フィードバック • 外部ツールの実⾏結果、評価、外部ツールがタスクを成功または失敗した際の信号 • 具現化された環境 • 物理的または仮想的な環境内でのエージェントの⾏動とその結果、⾏動に応じた環境の状態遷移に関するデータ Agent Capabilities：アライメント 6⽉10⽇更新分

LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching •
キャッシュ操作をツールとして定義し、LLMが直接管理することでデータアクセスを効率化する⽅法の提案 • ⼤規模な地理空間プラットフォームで評価を⾏い、タスク完了時間を平均で1.24倍⾼速化し、出⼒の品質やエージェントの性能には影響がない • キャッシュ管理⽅法による性能差はある。データの再利⽤率が低いと速度改善は限定的キャッシュ管理⽅法による性能差キャッシュによる速度改善と精度⽐較 Agent Capabilities：キャッシュ 6⽉17⽇更新分

Can Language Models Serve as Text-Based World Simulators? • ⾔語モデルが世界の状態を正確にシミュレートできるか検証
• テキストベースのゲームシミュレータとしてGPT-4をテストし、その性能を評価 • ユーザーが取る⾏動による直接的な状態変化の予測は得意（77.1%） • 環境による状態変化は苦⼿（49.7%） • 環境の⾃然な変化や時間経過に伴う変化を正確にモデル化するのが難しい • ゲーム進⾏（スコア、ゲームオーバーの状態、ゲームの勝敗）の予測は得意（92.1%） • ルールの有無が精度に⼤きく影響 • ⼈間が記述したルールやLLMが⽣成したルールが存在する場合、予測精度が向上する • 全体の状態予測と差分予測 • 全体予測は全てのオブジェクトで、差分予測は⾏動や環境の変化で⽣まれた差分のみ予測する • 動的な状態変化においては全体の状態予測が優れており、静的な状態変化においては差分予測が効果的アクションによって直接変化する次の状態予測環境要因によって変化する次の状態予測次の報酬とゲームの完了状態予測 Agent Capabilities：予測 6⽉17⽇更新分

Hello Again! LLM-powered Personalized Agent for Long-term Dialogue • ユーザーとの⻑期的な対話やパーソナライズされた対話のニーズを満たす⼿法を提案
• イベントモジュール：⻑期および短期のメモリバンクを⽤いて、過去のセッションのイベントを要約し記憶 • ペルソナモジュール：ユーザーとエージェントのペルソナを動的に抽出し、⻑期的に維持 • 応答⽣成モジュール：取得されたメモリとペルソナ情報を統合して、適切な応答を⽣成 • 最⼤５つのセッションを含む50ターンに及ぶ⽇常対話で検証し良い性能を⽰したイベントとペルソナを管理し、過去の対話履歴から⼀貫した対話を提供する Agent Capabilities：⻑期対話提案フレームワーク 6⽉17⽇更新分

AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments •
多様な環境で⾃⼰進化するLLMエージェントを構築するためのフレームワーク「AGENTGYM」を提案 • LLMを⽅策とし、事前データで模倣学習する。その後、様々な環境（マルチタスク）で⽅策に従い軌跡を集め、報酬に基づき⽅策の教師あり学習をおこなう。そしてまた環境で軌跡を集めることを繰り返し⾃⼰進化をする⾏動模倣と⾃⼰進化異なるタスク（⾊の違い）でイテレーションが増えると精度が改善している学習データを初期の軌跡から全て(実線)と直近のみ(破線)かで精度の上がり幅が違う Agent Capabilities：⾃⼰進化 6⽉10⽇更新分

Symbolic Learning Enables Self-Evolving Agents • ニューラルネットの学習アルゴリズムと対応づけてエージェントのフローを更新するフレームワークを提案 • PromptOptimizer: プロンプトの各コンポーネント（タスクの説明、少数ショットの例、原則、出⼒形式の制御）の最適化
• ToolOptimizer: ツールの編集、削除、新しいツールの実装を⾏う • PipelineOptimizer: ツールや各プロンプトとその接続を含むエージェントパイプライン全体の最適化 • 損失値はプロンプトでLLMに正解データとの近さをスカラー値とテキストで⽣成させる • 最適化なのかは謎だが、エージェント構築とNN構築の開発モチベは似ているのは分かる Agent Framework 7⽉1⽇更新分

The Prompt Report: A Systematic Survey of Prompting Techniques •
プロンプト技術の体系的な調査 • 4.1節エージェント技術とは、LLMが外部ツールや他のAIモデルと連携して動作する技術のこと • ツール使⽤エージェント (Tool Use Agents) • インターネットブラウジング、計算機使⽤ • コード⽣成エージェント (Code-Generation Agents) • コードの⾃動⽣成、補完 PAL、ToRA • 観察ベースのエージェント (Observation-Based Agents) • 環境の観察をプロンプトに⼊れる ReAct、Reflextion • 情報検索強化⽣成 (Retrieval Augmented Generation, RAG) • データベース検索、質問応答 Agent Framework 6⽉17⽇更新分

Open-Endedness is Essential for Artificial Superhuman Intelligence • ⼈⼯超⼈知能（ASI：Artificial Superhuman
Intelligence）の実現にはオープンエンド性（open-endedness）が求められることを主張 • ⼈⼯超⼈知能とは、⼈間の能⼒をはるかに超える知能を持つAIシステムのこと • オープンエンド性とは、システムが観察者に対して常に新規で学習可能な成果物を継続的に⽣成する能⼒ • オープンエンド基盤モデルは、強化学習や⾃⼰改善、タスク⽣成、進化アルゴリズムが必要になるかもしれないオープンエンド性の例様々な⾶⾏機の設計書を考える。観察者によって新規性があるか学習可能かは分かれる。⼈間が新規に感じても学習可能でないと、成果物を理解できず、⼿に追えない存在になる。 Agent Framework 6⽉10⽇更新分

Position: Foundation Agents as the Paradigm Shift for Decision Making
• 基盤エージェントの概念を提唱し、そのロードマップを⽰した論⽂基盤エージェントに期待する特徴 • 状態・⾏動空間、フィードバック信号（例：報酬や⽬標）、環境ダイナミクスを統⼀的に表現する • ロボティクスやゲームプレイから医療に⾄るまで、タスクやドメインを超えた統⼀的な⽅策の仕組みを持つ • ⻑期的な推論が必要なシナリオや部分観測可能な環境での計画能⼒を持つ実現⽅法：以下の図を段階的に達成することが求められる Agent Framework 6⽉3⽇更新分

AGILE: A Novel Framework of LLM Agents • 強化学習を⽤いてエンドツーエンドで最適化するAGILEエージェントの提案 •
AGILEエージェントは複雑な質問応答タスクを効果的に学習し、適応できる • 訓練データとしてセッションレベルの軌跡を⽣成し、各セッションの軌跡は、[GetUserQuestion]と [RetrieveMemory]から始まり、各QAタイプに応じた関数を続けて実⾏するメモリ、ツール結果、ユーザーの質問から LLM(⽅策) が⽣成する⾏動トークン⼀覧 Agent Framework 6⽉3⽇更新分

• 画像、動画、3D、⾳声を含む複数のモダリティに適⽤されたLLMsの体系的なレビュー • Tool-augmented multimodal agentsは、既存の⽣成モデルを活⽤し、⼈間とコンピュータのインタラクションを向上させるために設計されたエージェント • テキスト、画像、動画、3Dモデル、⾳声など、複数のモダリティにわたる情報を処理し、⽣成する能⼒を持つ •
⼈間の要求に基づいて適切なツールを選択し、それを使⽤して必要な⽣成タスクを実⾏する LLMs Meet Multimodal Generation and Editing: A Survey Agent Framework 6⽉3⽇更新分

LLMs Meet Multimodal Generation and Editing: A Survey • ここ2年で複数のモダリティの編集と
⽣成機能がエージェントに統合されている • 最近は指⽰チューニングが多い • 指⽰チューニングは特定のタスクやアプリケーションに最適化されるため、より⾼い精度を達成できる Agent Framework 6⽉3⽇更新分

Autonomous Agents for Collaborative Task under Information Asymmetry • 情報⾮対称性下での協調タスクを遂⾏するための⾃律エージェントシステム（iAgents）を提案
• 同じ情報が全員に共有される設定が多いが、現実世界ではビジネスの交渉、災害対応、SNSではありえない • iAgentsは、InfoNavという互いに計画し、情報収集し、不明確な部分をお互いに伝えて合意形成をすることで、エージェント間の効果的な情報交換を実現 • 全ての情報を⼀元的に管理するのではなく、エージェントが個別に情報を持ち、必要に応じて交換するのはプライバシーの保護に繋がる Multi Agent Systems 7⽉1⽇更新分

EVOAGENT: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms • Microsoft
から進化的アルゴリズムを⽤いて専⾨的なマルチエージェントを⽣成する⼿法を提案 • EVOAGENTは任意の既存のエージェントフレームワーク（MetaGPT、Camel、AutoGen、Generative Agents）に適⽤可能 • 複雑なタスクを解くために利⽤する以下をT世代まで繰り返す 1. 初期化スキルと役割のプロンプトを持つエージェントを⽤意する 2. 交叉＆突然変異初期エージェントの履歴からどのスキルや設定を改良すべきかチェックし、⼦エージェントプロンプトをN個⽣成 3. 淘汰⽣成された⼦エージェントプロンプトの中から、最適なエージェントを選ぶ。選択は、品質チェックプロンプトを⽤いる。 4. 結果の更新⼦エージェントプロンプトで⽣成された結果を前の世代の結果と統合するよう⽣成 EVOAGENTアルゴリズム Multi Agent Systems 7⽉1⽇更新分

MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model
Collaborations via Debate • 1つのエージェントが敵対者として設定され、他のエージェントを誤った回答に説得することを⽬的とする • 3つのエージェントを使⽤し、3ラウンドでディベートを実施 • 敵対者がいると多数決精度が10〜40%低下。エージェント数とラウンド数を増やしても精度低下を防げない • GPT-4oは他のモデルと⽐べて敵対者に対して最も耐性が⾼い。精度の悪化が⼩さく、敵対者との合意も少ない • GPT-3.5とLlamaは、敵対者の影響を強く受け、精度の悪化が⼤きく、敵対者との合意も増加 Multi Agent Systems 7⽉1⽇更新分

Scaling Large-Language-Model-based Multi-Agent Collaboration • 複数のエージェントが協⼒してタスクを解決するマルチエージェント協⼒ネットワーク（MACNET）を提案 • 全ノードがタスクの初期回答をもち、連結先に回答を共有し、フィードバックをもらいメモリに保存する • 全ての連結ノードからフィードバックを受け取ると⾃⾝の回答を更新する（ある種の同期をしていく）
• これをK回繰り返し、メモリにある情報から最終回答する • スモールワールド特性を持つトポロジーが優れた性能を⽰し、密度が⾼いほど性能が向上する傾向がある • エージェント数の増加に伴い、解決策の質がロジスティック成⻑パターンに従うことが確認された Multi Agent Systems 6⽉17⽇更新分

Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey • マルチモーダルおよびマルチエージェント
システムと合理性の関係を構築 • 論⽂では合理性は以下の4つの要件を満たすこと • 接地 (Grounding)：エージェントの意思決定が物理的および事実上の現実に基づいている必要がある • 選好の秩序付け (Orderability of Preferences) ：エージェントは選択肢を⽐較し、現在の状態に基づいて最も好ましい選択肢を選ぶ能⼒をもつ • 無関係な⽂脈からの独⽴性 (Independence from Irrelevant Context)：エージェントは無関係な情報を識別し、それを無視する能⼒を持つ • 不変性 (Invariance)：エージェントの選好は、決定問題の同等な表現間で⼀貫している必要がある Multi Agent Systems 6⽉10⽇更新分

LLM experiments with simulation: Large Language Model Multi-Agent System for
Process Simulation Parametrization in Digital Twins • デジタルツインのシミュレーションパラメータを⾃動決定するLLMマルチエージェントシステムの設計 • 観察、推論、決定エージェントは、デジタルツインからリアルタイムデータを収集し、重要な観察データを識別、データを解析し、パラメータを⽣成 • 専⾨知識が少ないユーザーでも効果的にデジタルツインシステムを操作できるようになり、システムのアクセシビリティと効率が向上 MAS経由でシミュレーションを実⾏ Multi Agent Systems 6⽉3⽇更新分

• 部分的に観察可能な環境で分散型マルチエージェントが協⼒して共通の⽬標を達成することを⽬指す • 以下２つのモジュールを組み込むことで精度の向上を実現 • 情報の関連性の評価：観察情報をメモリに保存するとき、何を優先してメモリに残すかを決める • 計画評価：⾃⾝の計画に他のエージェントが⼲渉したかをメモリから考える、複数の計画からベストを選ぶ LLM-Based Cooperative
Agents using Information Relevance and Plan Validation 提案⼿法は少ないステップで移動距離も短く通信回数も少なく効率的 Multi Agent Systems 6⽉3⽇更新分

• LLMのロールプレイを活⽤して、求職者と⾯接官の間で模擬⾯接と評価までおこなうフレームワークを提案 • 従来の履歴書と求⼈情報に基づく評価に加え、模擬⾯接の対話履歴を⽤いて、より正確な⼈材と職のマッチングを⽬指す • 提案⼿法のMockLLMが最⾼のマッチング精度を達成し、⾼品質な模擬⾯接を提供した • 将来のオンライン求⼈への応⽤に期待 Facilitating
Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting 模擬⾯接の受け答えのクオリティが重要 6⽉3⽇更新分 Multi Agent Systems

A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor
• LLMを活⽤したマルチエージェント製造システムを提案 • システムは製造現場のリアルタイムデータと⽣産タスク情報を受け取り、最適なスケジューリングと⽣産機の選択を出⼒する • リアルタイムに機械割り当ての交渉をおこなえるため、多品種少量⽣産の要求に対応しやすい • Thinking Agent (TA)は、現場の情報から最適な機械を選択する • Decision Agent (DA)はTAの分析結果を基に最終的な意思決定を⾏う各機械に分散させ 458stepの計画になる最も負荷が少ない機械を選択すると678stepになる 6⽉3⽇更新分 Multi Agent Systems

LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing • LLMが論⽂のレビューおよびメタレビューをどの程度効果的に⾏えるかを分析 •
LLMs as Reviewers：⼈間のレビューとLLMが⽣成したレビューの質を⽐較する • LLMは特に論⽂の範囲外の実験や分析を提案する傾向が強く、専⾨知識を要する批評はエラーが少ない • LLMs as Metareviewers：LLMが個々のレビュー内の問題を特定できるかどうかを評価する • 形式的な間違いや⼀般的な誤解を特定するのには効果的、多くのレビュワーの⽋陥を指摘できる • 表⾯的なレビューや、誤った専⾨知識に基づく指摘が多いレビューのエラー分析 Agentic AI Systems 7⽉1⽇更新分

GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled
Reasoning • GuardAgentが常にバックグラウンドで動作し、LLMエージェントの⼊⼒と出⼒を監視して、ユーザーが提供する安全性とプライバシーに関するガイドラインや規制を遵守しているか判定する • ヘルスケアの患者データやプライバシー保護、Webエージェントの未成年保護、⾦融の不正取引やアクセスの防⽌に利⽤する • コードベースな判定は、⾃然⾔語によるガードレールに⽐べて、より正確かつ具体的なルールを記述できる Agentic AI Systems 6⽉24⽇更新分

A Survey on Vision-Language-Action Models for Embodied AI • Vision-language-action
models (VLAs) は、⾔語指⽰に基づいて⾏動を予測し、環境でのタスクを実⾏する能⼒を持つ。ロボティクスの分野で重要な役割を果たす • VLAモデルは、低レベルの制御ポリシーとして動作し、環境に基づいて⾏動を⽣成するか、⾼レベルのタスクプランナーとして動作し、⻑期のタスクを実⾏可能なサブタスクに分解することができる視覚と⾔語をインプットし⾏動を⽣成する機構が増えている 6⽉3⽇更新分 Embodied Agents

CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with
Front-End UI Only • サムスンからHTML/DOMに依存せず、スクショのみからタスクを解決するエージェントの提案 • ウェブ環境外のアプリにも適⽤可能であり、より広範なRPAやデスクトップタスクに対応できる • Visual ObserverではYOLOv8モデルを微調整してUI要素を検出し、Pix2Structモデルを使⽤して詳細な属性を抽出する。⾔語モデルにクリックやマウス操作などの⾏動実⾏計画を⽣成させる。 CAAP Prompter ⾏動実⾏計画を⽣成させるプロンプトアーキテクチャの全体像 CAAP プロンプトのコンポーネント評価 Computer Controlled Agents 6⽉17⽇更新分

Large Language Models Can Self-Improve At Web Agent Tasks •
Webエージェントのタスクで⾃⼰改善する枠組みを提案 1. ベースモデルの実⾏: ベースモデルがタスクを実⾏し、初期データを収集 2. データのフィルタリング: ⾃⼰批評や環境のエラーチェックを通じて、低品質なデータを除外 3. 新しいタスクの⽣成: IDの例をもとに、OODの新しいタスクを⽣成 4. ファインチューニング: 構築したデータセットを使⽤してモデルをファインチューニング • モデルは⾃⾝の⽣成したデータを活⽤し、逐次的に学習と改善を繰り返すことで⾃⼰改善を実現 • モデルは反復的に⾃⼰改善できるか？ノー。先⾏研究と⼀致して2度⽬は1度⽬より精度が落ちる最も良いのはBタイプの学習 Computer Controlled Agents 6⽉3⽇更新分

Weekly AI Agents News! 6月号 論文のアーカイブ

Weekly AI Agents News! 6月号 論文のアーカイブ

More Decks by masatoto

Other Decks in Research

Featured

Transcript

Weekly AI Agents News! 6月号論文のアーカイブ

Weekly AI Agents News! 6月号論文のアーカイブ