AIエンジニア 4年⽬ 業務 ▍ PoC案件(需要予測、外観検査、質問応答、利⽤傾向分析など) ▍ LLMソリューション開発(Know Narratorシリーズ)やMVP開発 ▍ PoCやソリューションに役⽴つ実応⽤的な研究開発 好きなAI ▍ ⼈間とシステムとAI のインタラクション技術 l 予測の不確実性 l Human in the Loop l LLMに基づく⾃律型エージェント
Long text Understanding ×1本 l Planning ×6本 l Reasoning ×4本 l Self-Correction×2本 l Tool Usage ×5本 l Fine Tuning ×4本 l Benchmark ×8本 ▍ エージェントの応⽤編 ×42本 l Agentic AI Systems ×11本 l Multi Agent Systems ×15本 l Embodied Agents ×6本 l Computer Controlled Agents ×10本
l 先に精度の⾼いモデルでビジネス価値を⽰せれば、後で安価に、速く、安定して提供できるようにエンジニアリングできる ▍ 実サービスに近い設定だとServiceNowくらいで交渉ゲームや仮想環境の設定が多い l 実サービス特化型のエージェントや複数サービスを連携するようなエージェントはもちろんないので、ビジネス側の企業が発信しな ければならない l ⼀部の製造業のように環境認識を重視する場合は、空間推論や物理現象の理解がマルチモーダルLLMに求められる l 書類やコードを扱ったり、マネジメントな業務に関しては今のLLMエージェントで性能調査とリスク分析を進める必要ある ▍ 研究都合でエージェントの作り込みができていないように⾒える l ⽐較検証のためにプロンプトが汎⽤的で雛形には良いが、ロジックの制御もif-then含め丁寧にすれば精度出そうなのにと思う l プロンプトにドメイン知識の組み込みもできてないように感じる l エージェントの汎⽤性を評価しようとする傾向も強く、ビジネス側からすると勿体無い ▍ 論⽂のアイデアや課題の整理は勉強になるし、ビジネスマンと会話するベースにもなる l 論⽂で指摘する課題やエラー分析は、実務で精度検証する際に参考になる l エージェントワークフローや各種のプロンプトも参考になる l エージェント応⽤のアイデアは実務の⽅とのアイデアだしで参考になる
L3GO: Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects l OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models l Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-Temporal Reasoning l Selective Visual Representations Improve Convergence and Generalization for Embodied AI
Chain-of-3D-Thoughts for Generating Unconventional Objects l DALL-E3など2D画像⽣成は物体の3D構造や空間配置を正確に把握し、画像に反映させるのが困難 l LLMエージェントがBlenderをAPI越しに使い、所望の物体の各部品を構築しながら組み⽴てることで、2D画像⽣成モデルの持つ空間 理解⼒の課題を解決する⼿法を提案 実際にDALL-E 3で⽣成させられなかったです。 私の場合、6本⾜になりました。
be Good Path Planners? A Benchmark and Investigation on Spatial-Temporal Reasoning l グリッド環境で障害物を避けながら⽬標地点にナビゲートする経路計画でLLMの空間的・時間的推論能⼒の限界を評価 l 7*7の環境や6~11の障害物が存在する複雑な環境でもGPT-4はReActで9割の成功率を達成したが最適経路は8割程度だった 環境(環境の⼤きさ、⾃⼰位置と障害 物の位置と⽬標位置)をテキストベー スで与え、LLMの中で想像させる
Convergence and Generalization for Embodied AI l エージェントが環境認識のときにタスクに無関係なオブジェクトに釣られないようフィルタリングするモジュールを提案 l エージェントが環境をより効果的に探索し、⽬標オブジェクトを認識し、他のオブジェクトに関する情報を無視できることが⽰す ゴールに無関係なオブジェクトの認識を 除外することで、⾏動の軌跡が安定する
Gist Memory of Very Long Contexts l LLMに本のような⻑い⽂書を与えるには制約がある l ⻑い⽂書をページに分割し、各ページを要約メモリに変換したうえで、どのページを参照するかページ番号を⽣成し検索するエー ジェントの提案 ⻑い⽂章を要約にして渡し、ページ番 号を⽣成させる
Agent Tree Search Unifies Reasoning Acting and Planning in Language Models l Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models l REX: Rapid Exploration and eXploitation for AI Agents l Agent Lumos: Unified and Modular Training for Open-Source Language Agents l TravelPlanner: A Benchmark for Real-World Planning with Language Agents ICLR 2024 l LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents
Reasoning Acting and Planning in Language Models l 複雑な意思決定タスクで複数の推論パスを考慮した計画や⾏動が困難 l MCTSを⽤い複数の可能性を探索しながら解決策を⾒つける計画と⾏動と⾃⼰修正を統合した⼿法の提案 計算コストが⾼い シミュレーション回数と⼦ノードの数に依存
Enhances Information Seeking in Large Language Models l トラブル対応や医療診断のタスクで必要な情報が最初から与えられないとき、エージェントは積極的に情報を探求したり、効果的な 質問をするといった可能性の不確実性を考慮した振る舞いができないことが課題 l 複数の対話シミュレーションを⾏い、将来的に累積情報量が⾼くなる質問を選択し対話する⼿法を提案 どんな返答が来るかシミュレーション クローズド質問が肝かな
for AI Agents l エージェントが適切な⾏動をするには具体的な事前説明が必要で、試⾏錯誤のプロセスを体系的に活⽤できない l REXはモンテカルロ⽊探索(MCTS)とCoTを組み合わせた⼿法でエージェントの試⾏錯誤による適応を可能にする 1回の⽣成で中間ステップと 最終的な回答を⽣成 試⾏した全ての状態と⾏動の組に対 する期待報酬をプロンプトに与える ため、トークン消費が激しい
Training for Open-Source Language Agents l Closed LLMはAPI課⾦で⾼コスト、モデルが⾮公開で透明性がない。さらに⻑期的な計画と対話型の推論は難しい l オープンソースなモデルを使い、タスクをサブタスクに分割する機能、サブタスクの実⾏計画を⽴てる機能をそれぞれ別モジュール として微調整する⼿法の提案 オープンモデルで 役割ごとに微調整
Planning with Language Agents l LLMエージェントは、旅⾏計画においてユーザーのニーズ(予算、部屋タイプなど)と常識的な制約(都市移動経路、多様なレスト ランとアクティビティ、交通⼿段など)を考慮しながら計画を⽴てるのが難しい l 旅⾏計画に焦点を当てた新しい計画ベンチマークを提案。GPT-4はわずか0.6%の成功率で低い ユーザーのニーズに合う 旅⾏計画を⽴てられるのか
and Code for Language Agents (spotlight) ICLR 2024 Workshop on LLM Agents l If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents l LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models l Towards Unified Alignment Between Agents, Humans, and Environment
and Code for Language Agents (spotlight) l 既存のオープンソースモデルは、⾃然⾔語またはコード⽣成のどちらかに特化しており、両⽅のタスクで⾼性能を発揮できていない l Llama2-70Bをコード中⼼のコーパスで事前学習し、300Kの対話データで微調整したモデルをエージェントタスクで評価 エージェントの評価項⽬
Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents l コードの事前学習がLLMに与える影響と、それがエージェントに及ぼす効果が明らかでないため、様々な条件で分析 l 結果、LLMのコーディング⼒が強化され、複雑な推論能⼒が向上し、Program-of-thought(PoT)がCoTを上回り、構造化された知識を より効果的に捉え、APIやコード⽣成を通してツール利⽤可能になることを⽰した コードをLLMの学習に使う代表的なメリット3選
Library, and Analysis of Step-by-Step Reasoning with Large Language Models l 推論チェーンの効果的な評価⽅法の⽋如と、既存の推論アルゴリズムの体系的な分析の⽋如が課題 l 推論チェーンが論理的に正しいステップを踏んでいるか、計算ミスや情報の誤⽤がないかなど、中間ステップの正確性を評価する RICE(ReasonIng Chain Evaluation)メトリックを提案 推論チェーンの評価⼿続き LLMに間違いを指摘させ、次の評価に繋げる
Agents, Humans, and Environment l エージェントが複雑でリアルな環境で効果的に機能するためにエージェントのアライメントの原則を提案 l エージェントは⼈間の意図を正しく認識すること、エージェントは環境の動作法則に対する意識を⾼めること、時間や予算やバッテ リーなどエージェントの⾃⼰制約を管理すること 経験と推論から⼈間と調整 環境との接地 制約に対する適応戦略
for Multi-Step Reasoning LLM Agent l エージェントは複数の情報源から検索するだけでなく、それらの情報を組み合わせて新しい結論を導き出す能⼒が求められる l ReActのように思考と⾏動を交互におこない軌跡を作り、ReSTのように軌跡を評価し⾃⼰学習する枠組みを組み合わせた⼿法の提案 ⾃⼰改善を繰り返すと精度が改善する ただし、その分だけ推論と学習に時間とコストがかかる
Refinement: Ask, Refine, and Trust l LLMエージェントは⾃⾝の⽣成結果に対して、エラーを特定し修正するのが難しい l LLMが⾃⾝の出⼒を修正する過程を、修正が必要か⾃問⾃答し(Ask)、修正をおこない(Refine)、そして修正前後を評価する(Trust) 3ステップを実施する⼿法の提案
Agent for Mathematical Problem Solving ICLR 2024 Workshop on LLM Agents l Executable Code Actions Elicit Better LLM Agents (oral) l TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems l MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use l EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction
Agent for Mathematical Problem Solving l ⾃然⾔語による推論だけでは計算や記号操作、アルゴリズム処理などの数学的問題が難しい l 計画とツール利⽤を組み合わせて軌跡データを集め、⼩さなモデルで微調整しエージェント的に解決する⼿法を提案 推論とコーディングを繰り返す
Better LLM Agents (oral) l エージェントがJSONやテキスト形式で⾏動を⽣成する場合、複数のツールを組み合わせ⼀つの⾏動にする能⼒に制限がある l エージェントが実⾏可能なPythonコードを⽣成し実⾏することで、複数のツールをまとめられ、精度も優ることを⽰す text/JsonよりCodeの⽅が優れている点
and Tool Usage of Large Language Model-based Agents in Real-world Systems l 現実のシステムは多数のAPIがあり、プロンプトに全てのAPI説明⽂を与えることは不可能、正しいサブタスクの順序やAPI呼び出しの 順序を計画することが難しい、似た機能のAPI区別が困難 l Fine Tuningでタスク計画とAPI呼び出しを強化、⽂脈内学習のデモ選択を通して似たAPIの区別をつけるフレームワークを提案 タスクに関連のあるツール呼び出 しとデモ選択をプロンプトに与え、 計画からサブタスクの実⾏
Language Models: Deciding Whether to Use Tools and Which to Use l エージェントがツールの使⽤を判断し、利⽤可能なツールの中から最も適切なものを選択する能⼒があるのか l ツール利⽤に関するベンチマークを作成(似た道具からツール選択、特定のシナリオ、複数ツール選択、無理に選ばないを評価) ツール利⽤のパターンに対して、 何が⼀番難しいのか評価
and Training Pipeline for Effective Agent Learning l 様々なタスクや環境で集められたエージェントの軌跡はフローに統⼀性がなく、他組織の再利⽤が難しい l 異なる形式や構造を持つエージェントの軌跡データを⼀貫したフォーマットに変換し、LLM評価でフィルタリングをおこない、⾼品質 な訓練データを集めるワークフローを提案 様々な環境で集めた軌跡の標準化
from Scratch via Self-Planning l エージェントの計画と⾏動を特化型に学習するには軌跡データが⼤量に必要で、全てを1つのエージェントに強いる精度劣化が課題 l タスクの詳細とツールから軌跡データを⼈⼯的に作成し、計画、⾏動、振り返りの役割ごとにエージェントを学習させる⼿法の提案 3つのエージェントを使う 軌跡獲得が クローズドモデルに依存しない
Agents with an LM-Emulated Sandbox (spotlight) l SmartPlay : A Benchmark for LLMs as Intelligent Agents l AgentBench: Evaluating LLMs as Agents ICLR 2024 Workshop on LLM Agents l R-Judge: Benchmarking Safety Risk Awareness for LLM Agents l AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents l Large Language Model Evaluation Via Multi AI Agents: Preliminary results l LLF-Bench: Benchmark for Interactive Learning from Language Feedback l TaskBench: Benchmarking Large Language Models for Task Automation
LM Agents with an LM-Emulated Sandbox (spotlight) l エージェントが様々なシナリオに対してどのように動作するか、その過程で⽣じるリスクを評価するエミュレータとベンチマーク l ユーザー指⽰の不明瞭さを適切に処理できない場合、データの損失、システムの不安定化、⽣命に関わる危険など、重⼤な結果をも たらす可能性がある よくある失敗例 事実無根の仮定や捏造、指⽰の誤解、誤った 実⾏、リスクの無視 ⾚⾊:リスクのある⾏動
Awareness for LLM Agents l エージェントがインタラクティブな環境でリスク判断・評価の能⼒があるか測るベンチマーク l プライバシーの漏洩、セキュリティ、データ損失、財務損失、違法⾏為、健康、倫理と道徳、偏⾒と不快感のリスクタイプを含む エージェントの⾏動履歴からリスクを評価し、 教師データと⽐較
for LLMs as Intelligent Agents l 次世代の⾃動化に向けてエージェントに必要な9つの能⼒をさまざまなゲームを通じて評価するベンチマーク l 評価項⽬は、⻑いテキストの理解、複数ステップの論理的推論、指⽰/ルールの従順、⻑期計画、⼀般化、確率の理解、インタラク ションから環境の理解、エラー/ミスの処理、2D/3D環境の理解 実験設定とエージェントに必要な9つの能⼒の性能結果
Agents l 対話環境のエージェントとして推論能⼒と意思決定能⼒を評価するベンチマーク l ウェブショッピングタスクで特定の⽬標を達成する能⼒、ゲームタスクで、戦略的思考、指⽰に従う能⼒、⼀般的な常識⼒を評価し、 OS、データベース、KGに関するタスクで、コーディング能⼒とシステムとのインタラクション能⼒をそれぞれ評価 8つの環境で異なるモデルで性能を調査
Multi AI Agents: Preliminary results l エージェントが実際のソフトウェア開発タスクで効果的に機能するかを定量的に測定するベンチマーク l HumanEvalは、コード⽣成の正確性、計算効率などを評価し、MBPPのベンチマークでは広範なタスクを通じてモデルの汎⽤性を評 価 コード⽣成タスクではGPT-3.5 Turboが最も良い結果に
from Language Feedback l エージェントが⾃然⾔語フィードバックからインタラクティブに学習する能⼒を評価するベンチマーク l ⾃然⾔語指⽰の理解、様々なフィードバックからの改善能⼒、タスクに対するロバスト性や適応性を評価 RLと違い、報酬のスカラー値でなくテキスト フィードバックが返ってくる
for Task Automation l エージェントのタスク⾃動化能⼒を評価するベンチマーク l タスク分解、ツール呼び出し、ツールパラメータ⽣成能⼒をHugging Face、Multimedia、Daily Life APIsからタスクを作成し評価 ベンチマークなのに Tool利⽤予測グラフも作っている…
Programming for A Multi-Agent Collaborative Framework(oral) ICLR 2024 Workshop on LLM Agents l MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning l EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records l Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow (oral) l Agents: An Open-source Framework for Autonomous Language Agents l OpenAgents: An Open Platform for Language Agents in the Wild l WavCraft: Audio Editing and Generation with Natural Language Prompts l SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code l Chain-of-Experts: When LLMs Meet Complex Operations Research Problems l Empowering Autonomous Driving with Large Language Models: A Safety Perspective l Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science
Programming for A Multi-Agent Collaborative Framework(oral) l エージェント間の役割分担と標準運⽤⼿順(SOP)を定め、協調することでソフトウェア開発の代替を⽬指す l 複雑なタスクをサブタスクに分解し、順番に担当者エージェントが作業をこなし次に繋げて作業をする⼿法の提案
Large Language Models as Collaborators for Zero-shot Medical Reasoning l 医学とヘルスケアの分野において、 LLMに存在する医学的専⾨知識を掘り下げ、推論能⼒を向上させることが課題 l 複数の専⾨家エージェントが個々の分析をおこない、合意が得られるまで議論を繰り返し、最終的な回答をするマルチエージェント なフレームワークを提案 回答までのフレームワーク 繰り返し議論をおこなう
Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records l 臨床研究では、患者の医療履歴の電⼦健康記録(EHR)システムを利⽤するのにデータエンジニアの助けが必要だった l HERを扱う質問応答のためにコード⽣成とDB操作を駆使し計画を⽴てるエージェントを提案 回答までのワークフロー Pythonコード内でDBを駆使して 回答を計算
Bridging Billions of Data and Humans with Autonomous Workflow (oral) l どの業界でも毎⽇⼤量の異種データが⽣成され、効率的に管理、分析し、可視化することは難しい l Data-Copilotは、異なるデータソースを⼀元管理でき、分析・可視化の⾃動化をおこなう タスク⽤のインターフェー スをエージェントが作成
An Open-source Framework for Autonomous Language Agents l 計画、記憶、ツール使⽤、マルチエージェント通信などをサポートするオープンソースのライブラリAGENTSを開発 l 専⾨知識のないユーザーでも、少ないコーディングでエージェントを構築、テスト、デプロイができるようになる SOPは複数エージェントの 協調フローを定義するグラフ
An Open Platform for Language Agents in the Wild l 従来のエージェント開発がコンソール操作など⽞⼈向けで誰でもエージェントと対話できるようにする必要がある l データ分析、ツール利⽤、ウェブブラウジングの3つの典型的なアプリケーション⽤のエージェントを構築
Editing and Generation with Natural Language Prompts l 従来のLLMエージェントは⾳声クリップを与えて駆動することができなかった l ユーザーの指⽰と⼊⼒⾳声に基づいて、LLMがPythonスクリプトを⽣成し、⾳声コンテンツの編集をおこなう ツール⼀覧
LLM Agent for Synthesizing 3D Scene as Blender Code l これまで時間とコストがかかっていた3Dシーン作成のプロセス⾃動化と創造性の向上が求められる l ⾃然⾔語の指⽰をBlenderで実⾏可能なPythonスクリプトに変換し、最⼤100個の3Dアセットを含む複雑なシーンをレンダリングする エージェントを提案
Driving with Large Language Models: A Safety Perspective l ロングテールな運転シナリオにおける安全性の課題に対処するために、LLMの常識知識と推論能⼒を活⽤する l LLMを運転の意思決定者として利⽤し、⾏動のシミュレーション結果をLLMに返し意思決定の質を⾼めるフレームワークを提案 観測からLLMが⾏動を予測し、実際にシミュレー ションをおこない、検証項⽬をパスするか確認 する
Over Autonomy: Risks of LLM Agents for Science l 様々な科学分野での実験の⾃動化や科学的発⾒の促進をエージェントで取り組むには安全性の課題がある l 責任あるエージェント開発の提唱(特に⼈間とエージェントの規制、エージェントのアライメント、環境フィードバックに焦点を当 てる) 科学エージェントの構成と制限
▍ コミニケーション戦略によるタスク解決 タスク簡易化のため各エージェントに責務を分ける ・ソフトウェア開発 ・コンサルテーション ・質問応答 アンケートなどからプロフィールを模倣しシミュレーション 対話的推薦 雑談するか、情報引き出すか 推薦するかで異なる役割 A Multi-Agent Conversational Recommender System When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm
in Language Agents(spotlight) ICLR 2024 Workshop on LLM Agents l MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration l LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games l Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View (oral) l Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation l Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast l The Wisdom of Partisan Crowds: Comparing Collective Intelligence in Humans and LLM-based Agents
Intelligence in Language Agents(spotlight) l SOTOPIAは、エージェントが⽇常の社会的⽬標の達成能⼒を獲得しているか評価するために開発されたシミュレータ l エージェントは様々なシナリオでキャラを演じながら、交渉、取引、説得の社会的⽬標で、性能を⽬標達成、信憑性、知識獲得、秘 密の保持、関係性の維持、社会規則の遵守、財務・物の利益の観点で、⼈間の判断の代理が可能か評価
Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration l マルチエージェント環境で判断⼒、推論⼒、欺瞞、⾃⼰認識、協⼒、調整、合理性の7つの能⼒を定量的に評価するベンチマーク l 社会的推測ゲームやゲーム理論シナリオで評価し、ロール理解の⾃⼰認識、納得のいく解決策を提案する調整⼒、状況を論理的に分 析し結果を予測する推論⼒が低い シナリオごとに 評価項⽬が異なる
Multi-Agent Negotiation Games l 複数の議題(価格、納期、サービスなど)を含む交渉ゲームで妥協と交渉をおこなうマルチエージェントによるLLMの評価 l エージェントは3要素を評価。各提案のスコアを計算し受け⼊れるか算術⼒と推論⼒、⾃⾝と他者の利益を最⼤化する提案を⽣成す る探索と計画⼒、他者の⽬標を理解し、それに基づいて⾏動する共感と⼼の理論
Agents: A Social Psychology View (oral) l LLMエージェントの協⼒メカニズムを探ることにより、⼈間とAIの相互作⽤の可能性を探る l 個別の特性、思考パターン、協⼒戦略を統合したマルチエージェントがどのように協⼒し、社会⼼理学を反映した⼈間のような社会 ⾏動を⽰すかを評価 異なる性格とその 組み合わせで分析 討論と内省の組みで⽐較
via Monopolylogue-based Social Scene Simulation l アライメントは外部フィードバックが必要でコストが⾼く、⾃⼰アライメントもルールベースで柔軟性と適応性に課題がある l MATRIXというマルチエージェントシミュレータを⽤い、LLMが社会的規範を考慮しながら⾃⼰アライメントを⾏う⼿法を提案 提案⼿法のワークフロー 下が詳細化
Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast l エージェント同⼠が会話を通じて敵対的な画像やプロンプトによって感染し、不適切な振る舞いを⽰す感染性ジェイルブレイクを⽰す l 単⼀のエージェントに敵対的な画像を注⼊するだけで、感染が指数関数的に迅速に広がり、全エージェントが有害な振る舞いを⽰す ⼀体が感染すると会話したものから徐々に感染し 27~31ラウンドには100万体が感染
Comparing Collective Intelligence in Humans and LLM-based Agents l ⼈の集団が情報を共有し、議論する中で、個々⼈の偏⾒や先⼊観を超えたより正確な⾒解に収束していく「群衆の知恵」の現象がLLM エージェント達にも⾒られた l 論⽂では⺠主党員または共和党員の役割を演じるエージェント達が正確な信念に収束するか評価
Emergent Behaviors l ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate ICLR 2024 Workshop on LLM Agents l AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (oral) l Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration l BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents l EcoAssistant: Using LLM Assistant More Affordably and Accurately l Decision-Oriented Dialogue for Human-AI Collaboration l Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach
Exploring Emergent Behaviors l 単⼀エージェントの推論⼒、コーディング能⼒、ツール利⽤⼒の限界をマルチエージェント化することで性能向上を⽬指す l AgentVerseフレームワークは複数のエージェントが役割分担と議論を重ねることで、単⼀エージェントやCoTと⽐較して性能向上 ラウンドごと担当者が変わり、 仕上がっていく
through Multi-Agent Debate l ChatEvalは、複数のLLMエージェントが協⼒することで、⼈間の評価プロセスを模倣したテキスト⽣成の⾃動評価システム l 異なるエージェントの情報共有⽅法、議論の進め⽅と役割の違いがどのように評価の品質に影響を与えるか分析 複数⼈で議論して評価
Complex Reasoning through Multi-Model Collaboration l Corexは複数のエージェントが協⼒することで推論の質と効率を向上させる戦略を提案 l CorexはDiscuss、Review、Retrieveの3つのモードを⽤いて箱の外で考えることを促し、エージェント間の協⼒を通じて問題解決
Autonomous Agents l モデル違いでPlanReActなど様々なエージェントアーキテクチャの性能を評価するエージェントベンチマーク l 複数の労働エージェントを効果的にコントローラが統合し協調させるアーキテクチャBOLAAの提案 Average reward in the WebShop environment. モデルごとも異なるエージェントアーキテクチャで評価
Affordably and Accurately l LLMアシスタントが最初から正しいコードを⽣成することは稀であり、実⾏結果に基づいてコードを反復的に洗練させる必要がある l EcoAssistantは低コストと⾼コストのLLMを切り替えながら、過去の成功体験を検索し、GPT-4より成功率で上回り、GPT-4よりコ ストも50%未満で運⽤できることを実証 提案⼿法のワークフロー クエリとコードのペアを取得 モデルの切り替え
l AIアシスタントが⼈間と効果的に協⼒し、複雑な意思決定(業務割り当て、対話的に旅⾏計画、グループスケジューリング)をする ようになるには3つの課題があることを明らかにした l 課題は、意思決定に必要な情報を効果的に引き出すための⽬標指向の質問をする⾏動の⽋如、幻覚と根拠不⾜、リクエストを無視す る⾮協⼒的な振る舞いがある
for Large-Scale Decision-Making: An Actor-Critic Approach l LLM に基づくMulti-Agent Systems はエージェント数が増えるにつれて、幻覚が起き、トークン消費量も増え課題がある l RLのActer-Criticの考えからActerの同期コストを減らし、Critic側で同期し、複数エージェントが会話する枠組みを⼊れ計画⼒と推論 ⼒を⾼める
ゲーム応⽤ ・⽬的地までナビゲーション ・物の積み⽴てや建設 ・道具の利⽤ ▍ ロボット応⽤ ・協働で家事 ・⼈間とのインタラクション ⼈間や他のエージェントと協⼒して活動 A Survey on Large Language Model-Based Game Agents Building Cooperative Embodied Agents Modularly with Large Language Models
with Large Language Models l Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds ICLR 2024 Workshop on LLM Agents l HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory Augmented Language Models l S-Agents: Self-organizing Agents in Open-ended Environments l An Embodied Generalist Agent in 3D World l Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation
Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models l ドメインとタスクにわたって⼀貫した性能を提供する汎⽤的なマルチモーダルエージェントが求められる l ドメイン跨ぎのプロンプトテンプレートと類似サンプルを検索し、未知のドメインでもタスクの精度向上 異なるドメインの履歴を取得
with Large Language Models l ⾝体のあるエージェントの協調問題に取り組み、計画、コミニケーション、メモリモジュールを持つフレームワークを提案 l ⼈間とエージェントの協働に関する実験を⾏い、エージェントはより多くの信頼を獲得し、効果的に⼈間と協⼒できることを発⾒ ⽚⽅は⼈間でもAIでも可
in Open-ended Environments l エージェントが動的に協⼒し、⼈間の介⼊なしにタスクを遂⾏できる⾃⼰組織化エージェントシステム l Minecraft環境で複数のエージェントが異なる資源を同時に収集する資源収集タスクとリーダーエージェントが全体の計画を⽴て、実 ⾏エージェントが具体的な建築作業をする避難所建築タスク
for Open-Ended Multi-Agent Navigation l Minecraftのようなオープンワールド環境での複雑なナビゲーションにおけるMASのコミュニケーションとタスク分配が課題 l エージェントのグループをタスクごとに⾃動的に編成し、MARLのように中央計画の分散実⾏なフレームワークを提案 提案⼿法のワークフロー 階層構造になり、タスクごとにチームが組まれる
Webサイトのナビゲーション ・ECサイト ・予約・申請サイト ▍ アプリやソフトウェアを対話的に操作 ・Office製品 ・スマホのアプリ ・3D Blender, Photoshop WorkArena: How Capable are Web Agents at Solving Common Knowledge Work Tasks?
Long Context Understanding, and Program Synthesis (oral) l WebArena: A Realistic Web Environment for Building Autonomous Agents ICLR 2024 Workshop on LLM Agents l WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? l GPT-4V(ision) is a Generalist Web Agent, if Grounded l VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks l WebLINX: Real-World Website Navigation with Multi-Turn Dialogue l Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception l SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents l OS-Copilot: Towards Generalist Computer Agents with Self-Improvement l Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
with Planning, Long Context Understanding, and Program Synthesis (oral) l 現実世界のWebサイトの⾃動化は、オープンドメイン、HTMLドキュメントの⻑さ、 HTML特有の知識の⽋如の課題がある l HTML-T5を⽤いて、テキスト指⽰から計画し、 HTML⽂書を要約し、コード⽣成するWebAgentの提案 サイトごとのトークン数 現実とSimの⽐較
Are Web Agents at Solving Common Knowledge Work Tasks? l エンタープライズシステムは機能重視のため、UIが複雑になりがち、繰り返しタスクや複雑なプロセスがく効率化が急務 l ServiceNow 上の操作⾃動化タスクのベンチマークを作り、エージェントを評価
with Multi-Turn Dialogue l 視覚障害者のサポート、スマートスピーカーの機能として、Webサイトのナビゲーションを会話形式で⾏うエージェントが必要 l 2337件の専⾨家による会話形式のWebナビゲーションと155の実世界のWebサイトを含むWEBLINXというベンチマークを提案
Device Agent with Visual Perception l 既存のMLLMを利⽤したモバイルデバイスエージェントが、画⾯上の操作の正確な位置を特定する能⼒に⽋けている l Mobile-Agentは、画⾯上のテキストやアイコンを識別し、操作タスクを計画し、ステップバイステップでモバイルアプリを操作する アイコン検出
A Multimodal Agent for Red Dead Redemption II as a Case Study l 画⾯と⾳声を⼊⼒し、キーボードとマウス操作を出⼒とする、あらゆるコンピュータタスクをマスターできる基盤エージェント⼀般 コンピュータ制御(GCC)として提唱 l ⾃⼰反省、タスク推論、スキルキュレーションを活⽤して、⼀般化能⼒があり⾃⼰改善するエージェントを提案
l 顧客体験の変化を考えるか ▍ 複数サービスを統合利⽤するエージェントを考える l ⾃社アプリ・サービス以外にもアクセスできるエージェントが⽣まれるとどうなるか l ⽣産性は向上するか、顧客体験が向上するか、企業間の協⼒インセンティブはあるか ▍ 業務を代替するエージェントを考える l ⽇常業務は⼀つのサービスに依存することは少ない l 複数のサービスから情報を集める業務をどこまで達成できるか l 既に実証しているRAG検証からエージェントに⽅向転換し、精度検証を進めるべきか