ICLR2024 LLMエージェントの研究動向

ICLR2024 LLMエージェントの研究動向 2024年04⽉26⽇株式会社電通総研 AIトランスフォーメーションセンター太⽥真⼈

2 アジェンダ ▍ 調査概要と所感 ▍ エージェントの能⼒に関する論⽂紹介 l 空間推論⼒ l 指⽰追従⼒/⻑⽂理解⼒
l 計画⼒ l ⾃⼰修正⼒ l ツール利⽤⼒ l 微調整 l 評価とベンチマーク ▍ エージェントの応⽤に関する論⽂紹介 l 業務代替タスク l マルチエージェント l ⾝体のあるエージェント l コンピュータ制御型エージェント ▍ 電通総研の宣伝

⾃⼰紹介太⽥真⼈（Masato Ota） 3 所属 ▍ 株式会社電通総研 X(クロス)イノベーション本部 AIトランスフォーメンションセンター ▍
AIエンジニア 4年⽬業務 ▍ PoC案件（需要予測、外観検査、質問応答、利⽤傾向分析など） ▍ LLMソリューション開発（Know Narratorシリーズ）やMVP開発 ▍ PoCやソリューションに役⽴つ実応⽤的な研究開発好きなAI ▍ ⼈間とシステムとAI のインタラクション技術 l 予測の不確実性 l Human in the Loop l LLMに基づく⾃律型エージェント

はじめに 4 ▍ 本資料ではICLR2024とICLR2024 Workshop on LLM Agents の論⽂をまとめた調査資料です ▍
構成はLLMエージェントの能⼒部分と応⽤部分で分けています ▍ 論⽂は課題と解決策の2⾏で1ページにまとめています。詳細な実験結果は元論⽂をご覧ください ▍ 各論⽂の考察やエラー分析に関して、今回は省きました ▍ 各論⽂のリポジトリに参考になるプロンプトもありますが、全て省いています ▍ あくまで全体感を知ることに注視しています ▍ 各セクションの1ページ⽬に私の知⾒も含めたセクション技術のサマリーを作りました ▍ 毎⽇Xに流れる論⽂を体系的に理解すると仕事のアイデアに繋がるかもしれません ▍ 電通総研ではLLMエージェントがビジネス的に価値を出せそうか、研究動向を掴んで顧客と⼀緒に挑戦していきます

ICLR2024 5 ▍ ICLR（International Conference on Learning Representations） ▍ 機械学習分野において国際的に権威のあるトップカンファレンスの⼀つ
▍ 2024年は7,262件の投稿の中から2,261件(約31%) の論⽂が採択 ▍ 2024年5⽉7⽇〜5⽉11⽇オーストリア・ウィーンで開催 ▍ 2023年9⽉28⽇までに投稿された論⽂が査読対象 ▍ OpenReviewから論⽂を検索 l https://openreview.net/group?id=ICLR.cc/2024/Conference ▍ oral, spotlight, posterのセクションから「Agent」で検索 l LLM Agentに関するものだけ抽出 https://iclr.cc/から引⽤

ICLR2024でLLMエージェントのワークショップが開催 6 ▍ ワークショップでは、⾃然⾔語の指⽰から環境で複雑なタスクを実⾏する⾃律型エージェントに焦点を当てて採択されています。 ▍ 昨年から今年を賑わせたエージェント系の論⽂が揃っている印象があります。 ▍ 2024年2⽉11⽇までに投稿された論⽂が査読対象 ▍
Oral: 6本、Poster: 90本からLLM Agentsに関するものだけ抽出

ICLR 2024 Workshop on LLM Agents のトピック 7 ▍ トピックには、メモリ、ツール、計画、マルチモーダル、エージェントフレームワークが含まれています

紹介論⽂数 8 ▍ エージェントの基本能⼒編 ×32本 l Spatial Reasoning ×4本 l
Long text Understanding ×1本 l Planning ×6本 l Reasoning ×4本 l Self-Correction×2本 l Tool Usage ×5本 l Fine Tuning ×4本 l Benchmark ×8本 ▍ エージェントの応⽤編 ×42本 l Agentic AI Systems ×11本 l Multi Agent Systems ×15本 l Embodied Agents ×6本 l Computer Controlled Agents ×10本

全体を⾒渡した所感を雑多に 9 定量化しておらず、単なる個⼈の所感です。 ▍ GPT-4Vクラスが使われる論⽂が去年より増えた ▍ 同⽔準のLLM（Claude, Geminiなど）エージェント間の癖や⽐較はまだない ▍ エージェントの能⼒では、メモリ管理や⾃⼰修正の論⽂が少ない
▍ 微調整もオープンモデルが多く、gpt-4やgpt-35-turboで試したのはまだない ▍ 全体的にコード⽣成を駆使するエージェントものが多い ▍ エージェントの基本性能の課題感はどの論⽂も同じ部分を指摘している ▍ (マルチエージェント)強化学習とLLMエージェントでシナジーをだそうとする論⽂が⽬につく ▍ エージェントのベンチマークに関する論⽂が今年は多い ▍ マルチエージェントのコミニケーションワークフローが多く提案されている ▍ 複数の論⽂で提案されるエージェント原則やリスクからエージェントに期待することが⾔語化されている ▍ コンピュータ制御系はマルチモーダルLLMの基本性能向上するか、特化型にしないと現時点では使えない

研究論⽂とビジネス側とのギャップ 10 ▍ クローズモデル（API）やAssistants APIやTool Callingでできそうな論⽂が⼀定数ある l オープンモデルのエージェントがどれだけクローズモデルのそれと同等の性能に近づけられるかは興味のポイント l エージェントはトークン消費が多く、推論時間も⻑いので、モデルが軽くて維持と利⽤料が安いことが⼤事
l 先に精度の⾼いモデルでビジネス価値を⽰せれば、後で安価に、速く、安定して提供できるようにエンジニアリングできる ▍ 実サービスに近い設定だとServiceNowくらいで交渉ゲームや仮想環境の設定が多い l 実サービス特化型のエージェントや複数サービスを連携するようなエージェントはもちろんないので、ビジネス側の企業が発信しなければならない l ⼀部の製造業のように環境認識を重視する場合は、空間推論や物理現象の理解がマルチモーダルLLMに求められる l 書類やコードを扱ったり、マネジメントな業務に関しては今のLLMエージェントで性能調査とリスク分析を進める必要ある ▍ 研究都合でエージェントの作り込みができていないように⾒える l ⽐較検証のためにプロンプトが汎⽤的で雛形には良いが、ロジックの制御もif-then含め丁寧にすれば精度出そうなのにと思う l プロンプトにドメイン知識の組み込みもできてないように感じる l エージェントの汎⽤性を評価しようとする傾向も強く、ビジネス側からすると勿体無い ▍ 論⽂のアイデアや課題の整理は勉強になるし、ビジネスマンと会話するベースにもなる l 論⽂で指摘する課題やエラー分析は、実務で精度検証する際に参考になる l エージェントワークフローや各種のプロンプトも参考になる l エージェント応⽤のアイデアは実務の⽅とのアイデアだしで参考になる

エージェントの能⼒

エージェントの能⼒ 12 ▍ LLMエージェントはLLMが持つ複数の能⼒をモジュール化し、ワークフローにすることで実現します。 ▍ 各構成技術ごとに論⽂をまとめています。構成技術 • Spatial Reasoning
（空間推論能⼒） • Long text Understanding（⻑い⽂脈の理解⼒） • Planning（計画⼒） • Self-Correction（⾃⼰修正⼒） • Instruction/Rule Following（指⽰追従⼒） • Tool Usage（ツール利⽤⼒）環境計画ツール利⽤⾃⼰修正最終出⼒指⽰理解 LLMエージェントのワークフロー

空間推論⼒ Spatial Reasoning

空間推論⼒とは 14 ▍ 空間推論（Spatial Reasoning）は、物体の空間的な位置や関係性を認識した上で推論する能⼒です。 l マルチモーダルなLLMに必要な能⼒の⼀つです。 l 地図のナビゲーションや設計図の理解、画像⽣成での想像⼒にも関わります。 Spa&al
Reasoning Test A Survey of Reasoning with Foundation Models GPT4Vでもコード⽣成したり、⻑く思考しても意外と解けない

空間推論⼒(Spatial Reasoning)に関する論⽂⼀覧 15 ICLR 2024 Workshop on LLM Agents l
L3GO: Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects l OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models l Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-Temporal Reasoning l Selective Visual Representations Improve Convergence and Generalization for Embodied AI

空間推論⼒(Spatial Reasoning)に関する論⽂ #1 3D構造や空間配置の理解⼒の⽋如 16 ▍ L3GO: Language Agents with
Chain-of-3D-Thoughts for Generating Unconventional Objects l DALL-E3など2D画像⽣成は物体の3D構造や空間配置を正確に把握し、画像に反映させるのが困難 l LLMエージェントがBlenderをAPI越しに使い、所望の物体の各部品を構築しながら組み⽴てることで、2D画像⽣成モデルの持つ空間理解⼒の課題を解決する⼿法を提案実際にDALL-E 3で⽣成させられなかったです。私の場合、6本⾜になりました。

空間推論⼒(Spatial Reasoning)に関する論⽂ #2 指⽰内容と環境を紐付けてナビゲーション 17 ▍ OpenFMNav: Towards Open-Set Zero-Shot
Object Navigation via Vision-Language Foundation Models l オープンなオブジェクト検出による環境のナビゲーションエージェントの提案 l LLMで指⽰⽂からオブジェクト単語を検出し、VLMでシーンからオブジェクトを探し案内する

空間推論⼒(Spatial Reasoning)に関する論⽂ #3 テキストから環境の障害物の位置を認知し移動経路を案内できるか 18 ▍ Can Large Language Models
be Good Path Planners? A Benchmark and Investigation on Spatial-Temporal Reasoning l グリッド環境で障害物を避けながら⽬標地点にナビゲートする経路計画でLLMの空間的・時間的推論能⼒の限界を評価 l 7*7の環境や6~11の障害物が存在する複雑な環境でもGPT-4はReActで9割の成功率を達成したが最適経路は8割程度だった環境（環境の⼤きさ、⾃⼰位置と障害物の位置と⽬標位置）をテキストベースで与え、LLMの中で想像させる

空間推論⼒(Spatial Reasoning)に関する論⽂ #4 余計なものに惑わされないようフィルタリング 19 ▍ Selective Visual Representations Improve
Convergence and Generalization for Embodied AI l エージェントが環境認識のときにタスクに無関係なオブジェクトに釣られないようフィルタリングするモジュールを提案 l エージェントが環境をより効果的に探索し、⽬標オブジェクトを認識し、他のオブジェクトに関する情報を無視できることが⽰すゴールに無関係なオブジェクトの認識を除外することで、⾏動の軌跡が安定する

指⽰理解⼒/ ⻑⽂理解⼒

指⽰追従⼒/⻑い⽂脈の理解とは 21 ▍ 指⽰追従⼒は、ユーザーから与えられた制約条件や役割に従う能⼒です。 ▍ ⻑い⽂脈の理解は、ユーザーや他のエージェントとの会話履歴、ドメイン知識など⻑い⽂脈を忘れない能⼒です。 • 私は誰なのか •
何をするのか • 何のためにするのか • 何が使えるのか • ⾃分のタスク前後で何があるのか • 知るべき事前知識は何かあるか • 制約条件はあるか • 今までの会話内容はあるか • 過去の類似タスクの結果はあるか説明が多くルールベースに近い→学習で省略できるのか

⻑い⽂脈の理解に関する論⽂ #1 ⼈間が本を読むように⻑⽂をページに分け記憶管理 22 ▍ A Human-Inspired Reading Agent with
Gist Memory of Very Long Contexts l LLMに本のような⻑い⽂書を与えるには制約がある l ⻑い⽂書をページに分割し、各ページを要約メモリに変換したうえで、どのページを参照するかページ番号を⽣成し検索するエージェントの提案⻑い⽂章を要約にして渡し、ページ番号を⽣成させる

計画⼒ Planning

計画⼒とは 24 ▍ 計画⼒は⽬標を達成するまでの実⾏可能な⼿順をステップレベルで定義する能⼒です。・様々な制約条件のもと計画を⽴てられるかが重要です。・旅⾏計画では、⾦額制約や移動経路やホテル要望などを考える必要があります。・将来の不確実性やリスクを考慮し、計画を⽴てることも求められます。解計画⼒は解に向けてサブタスクを積み上げることが求められるプロンプトで計画を⽀える必要あり（タスクにチューニングさせる）
LLMの知識だけでは積み上がらないこともある同じようなことを⾔い換えているだけ

計画⼒（Planning）に関する論⽂⼀覧 25 ICLR 2024 Workshop on LLM Agents l Language
Agent Tree Search Unifies Reasoning Acting and Planning in Language Models l Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models l REX: Rapid Exploration and eXploitation for AI Agents l Agent Lumos: Unified and Modular Training for Open-Source Language Agents l TravelPlanner: A Benchmark for Real-World Planning with Language Agents ICLR 2024 l LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents

計画⼒（Planning）に関する論⽂ #1 モンテカルロ⽊探索を計画⼒に活かす 26 ▍ Language Agent Tree Search Unifies
Reasoning Acting and Planning in Language Models l 複雑な意思決定タスクで複数の推論パスを考慮した計画や⾏動が困難 l MCTSを⽤い複数の可能性を探索しながら解決策を⾒つける計画と⾏動と⾃⼰修正を統合した⼿法の提案計算コストが⾼いシミュレーション回数と⼦ノードの数に依存

計画⼒（Planning）に関する論⽂ #2 将来得る情報量が増えるように⾏動計画 27 ▍ Uncertainty of Thoughts: Uncertainty-Aware Planning
Enhances Information Seeking in Large Language Models l トラブル対応や医療診断のタスクで必要な情報が最初から与えられないとき、エージェントは積極的に情報を探求したり、効果的な質問をするといった可能性の不確実性を考慮した振る舞いができないことが課題 l 複数の対話シミュレーションを⾏い、将来的に累積情報量が⾼くなる質問を選択し対話する⼿法を提案どんな返答が来るかシミュレーションクローズド質問が肝かな

計画⼒（Planning）に関する論⽂ #3 探索と活⽤の評価による⾏動計画の改善 28 ▍ REX: Rapid Exploration and eXploitation
for AI Agents l エージェントが適切な⾏動をするには具体的な事前説明が必要で、試⾏錯誤のプロセスを体系的に活⽤できない l REXはモンテカルロ⽊探索(MCTS)とCoTを組み合わせた⼿法でエージェントの試⾏錯誤による適応を可能にする 1回の⽣成で中間ステップと最終的な回答を⽣成試⾏した全ての状態と⾏動の組に対する期待報酬をプロンプトに与えるため、トークン消費が激しい

計画⼒（Planning）に関する論⽂ #4 サブタスク分解と実⾏計画を⽴てる機能を微調整 29 ▍ Agent Lumos: Unified and Modular
Training for Open-Source Language Agents l Closed LLMはAPI課⾦で⾼コスト、モデルが⾮公開で透明性がない。さらに⻑期的な計画と対話型の推論は難しい l オープンソースなモデルを使い、タスクをサブタスクに分割する機能、サブタスクの実⾏計画を⽴てる機能をそれぞれ別モジュールとして微調整する⼿法の提案オープンモデルで役割ごとに微調整

計画⼒（Planning）に関する論⽂ #5 制約条件のある旅⾏計画ができるのか 30 ▍ TravelPlanner: A Benchmark for Real-World
Planning with Language Agents l LLMエージェントは、旅⾏計画においてユーザーのニーズ（予算、部屋タイプなど）と常識的な制約（都市移動経路、多様なレストランとアクティビティ、交通⼿段など）を考慮しながら計画を⽴てるのが難しい l 旅⾏計画に焦点を当てた新しい計画ベンチマークを提案。GPT-4はわずか0.6%の成功率で低いユーザーのニーズに合う旅⾏計画を⽴てられるのか

計画⼒（Planning）に関する論⽂ #6 家事タスク計画⼒を評価 31 ▍ LoTa-Bench: Benchmarking Language-oriented Task Planners
for Embodied Agents l 家事サービスエージェント向けタスク計画の⾃動評価ベンチマーク l 物を拾って指定の場所に置く、積み重ねて置くなどのタスクで、プランナーは⾔語指⽰に従い⾏動を計画し、シミュレータが実⾏計画を⽴てて、シミュレータで実⾏

推論(Reasoning) に関する論⽂⼀覧 32 ICLR 2024 l Lemur: Harmonizing Natural Language
and Code for Language Agents (spotlight) ICLR 2024 Workshop on LLM Agents l If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents l LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models l Towards Unified Alignment Between Agents, Humans, and Environment

推論(Reasoning) に関する論⽂ #1 オープンソースでLLMを作成しエージェントで評価 33 ▍ Lemur: Harmonizing Natural Language
and Code for Language Agents (spotlight) l 既存のオープンソースモデルは、⾃然⾔語またはコード⽣成のどちらかに特化しており、両⽅のタスクで⾼性能を発揮できていない l Llama2-70Bをコード中⼼のコーパスで事前学習し、300Kの対話データで微調整したモデルをエージェントタスクで評価エージェントの評価項⽬

推論(Reasoning) に関する論⽂ #2 コードの事前学習がエージェントに与える影響 34 ▍ If LLM Is the
Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents l コードの事前学習がLLMに与える影響と、それがエージェントに及ぼす効果が明らかでないため、様々な条件で分析 l 結果、LLMのコーディング⼒が強化され、複雑な推論能⼒が向上し、Program-of-thought(PoT)がCoTを上回り、構造化された知識をより効果的に捉え、APIやコード⽣成を通してツール利⽤可能になることを⽰したコードをLLMの学習に使う代表的なメリット３選

推論(Reasoning) に関する論⽂ #3 推論中間ステップの評価 35 ▍ LLM Reasoners: New Evaluation,
Library, and Analysis of Step-by-Step Reasoning with Large Language Models l 推論チェーンの効果的な評価⽅法の⽋如と、既存の推論アルゴリズムの体系的な分析の⽋如が課題 l 推論チェーンが論理的に正しいステップを踏んでいるか、計算ミスや情報の誤⽤がないかなど、中間ステップの正確性を評価する RICE（ReasonIng Chain Evaluation）メトリックを提案推論チェーンの評価⼿続き LLMに間違いを指摘させ、次の評価に繋げる

推論(Reasoning) に関する論⽂ #4 エージェントのアライメントに必要なこと 36 ▍ Towards Unified Alignment Between
Agents, Humans, and Environment l エージェントが複雑でリアルな環境で効果的に機能するためにエージェントのアライメントの原則を提案 l エージェントは⼈間の意図を正しく認識すること、エージェントは環境の動作法則に対する意識を⾼めること、時間や予算やバッテリーなどエージェントの⾃⼰制約を管理すること経験と推論から⼈間と調整環境との接地制約に対する適応戦略

⾃⼰修正⼒ Self-Correction

⾃⼰修正⼒とは 38 ▍ ⾃⼰修正⼒はタスクを遂⾏できたか評価し、次の⾏動を考える能⼒です。・APIの呼び出し失敗理由から次の呼び出しを考える（ツールの再実⾏）・計画実⾏から得られた情報から計画を⾒直す（再計画）・Code Interpreterは⾃⼰修正⼒を作り込んでいる評価フィードバック
修正計画実⾏計画評価のルールを⾔語化すること厳しい評価や無駄なループに⼊ることあり諦めさせることも重要評価理由や失敗原因などを⽣成させる精度の⾼いモデルを使うことを推奨何を直すか考え実⾏する • 計画の問題か • ツールの選択ミスか • ツールの使い⽅ミスか • 誤った思考に陥っているか https://github.com/teacherpeterpan/self-correction-llm-papers

⾃⼰修正⼒(Self-Correction)に関する論⽂⼀覧 39 ICLR 2024 Workshop on LLM Agents l ReST
meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent l The ART of LLM Refinement: Ask, Refine, and Trust

⾃⼰修正⼒(Self-Correction) に関する論⽂ #1 質の⾼い軌跡をもとに⾃⼰学習ループ 40 ▍ ReST meets ReAct: Self-Improvement
for Multi-Step Reasoning LLM Agent l エージェントは複数の情報源から検索するだけでなく、それらの情報を組み合わせて新しい結論を導き出す能⼒が求められる l ReActのように思考と⾏動を交互におこない軌跡を作り、ReSTのように軌跡を評価し⾃⼰学習する枠組みを組み合わせた⼿法の提案⾃⼰改善を繰り返すと精度が改善するただし、その分だけ推論と学習に時間とコストがかかる

⾃⼰修正⼒(Self-Correction) に関する論⽂ #2 ⾃問⾃答による⾃⼰修正ステップ 41 ▍ The ART of LLM
Refinement: Ask, Refine, and Trust l LLMエージェントは⾃⾝の⽣成結果に対して、エラーを特定し修正するのが難しい l LLMが⾃⾝の出⼒を修正する過程を、修正が必要か⾃問⾃答し(Ask)、修正をおこない(Refine)、そして修正前後を評価する（Trust） 3ステップを実施する⼿法の提案

ツール利⽤⼒ Tool Usage

ツール利⽤⼒とは 43 ▍ ツールはLLM の外部で動作するコンピュータプログラムの関数インターフェースです。 l LLM はツールを使うために関数呼び出しと⼊⼒引数を⽣成します。 l ツールの種類は環境から情報を収集する知覚、環境の状態を更新する⾏動と計算に⼤別されます。
Ø SQLクエリや検索エンジンは計算であり知覚でもあります。関数インターフェース • 関数名 • 引数の型と意味 • 戻り値の型と意味 • 関数の動作概要(簡単な説明) 類似するツールから正しく選べる? 複数のツールを組み合わせられる? 検索情報抽出エクセル更新製品仕様書検索 or ヘルプサイト検索 https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf 繰り返す共通パターンはスキルと呼ぶ

ツール利⽤⼒(Tool Usage)に関する論⽂⼀覧 44 ICLR 2024 l ToRA: A Tool-Integrated Reasoning
Agent for Mathematical Problem Solving ICLR 2024 Workshop on LLM Agents l Executable Code Actions Elicit Better LLM Agents (oral) l TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems l MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use l EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction

ツール利⽤⼒(Tool Usage)に関する論⽂ #1 推論とコーディングによる数学問題解決 45 ▍ ToRA: A Tool-Integrated Reasoning
Agent for Mathematical Problem Solving l ⾃然⾔語による推論だけでは計算や記号操作、アルゴリズム処理などの数学的問題が難しい l 計画とツール利⽤を組み合わせて軌跡データを集め、⼩さなモデルで微調整しエージェント的に解決する⼿法を提案推論とコーディングを繰り返す

ツール利⽤⼒(Tool Usage)に関する論⽂ #2 ツールはJSONやテキスト形式よりコーディングの⽅がいい 46 ▍ Executable Code Actions Elicit
Better LLM Agents (oral) l エージェントがJSONやテキスト形式で⾏動を⽣成する場合、複数のツールを組み合わせ⼀つの⾏動にする能⼒に制限がある l エージェントが実⾏可能なPythonコードを⽣成し実⾏することで、複数のツールをまとめられ、精度も優ることを⽰す text/JsonよりCodeの⽅が優れている点

ツール利⽤⼒(Tool Usage)に関する論⽂ #3 ツール利⽤の課題を克服する微調整 47 ▍ TPTU-v2: Boosting Task Planning
and Tool Usage of Large Language Model-based Agents in Real-world Systems l 現実のシステムは多数のAPIがあり、プロンプトに全てのAPI説明⽂を与えることは不可能、正しいサブタスクの順序やAPI呼び出しの順序を計画することが難しい、似た機能のAPI区別が困難 l Fine Tuningでタスク計画とAPI呼び出しを強化、⽂脈内学習のデモ選択を通して似たAPIの区別をつけるフレームワークを提案タスクに関連のあるツール呼び出しとデモ選択をプロンプトに与え、計画からサブタスクの実⾏

ツール利⽤⼒(Tool Usage)に関する論⽂ #4 ツール利⽤に関するベンチマーク 48 ▍ MetaTool Benchmark for Large
Language Models: Deciding Whether to Use Tools and Which to Use l エージェントがツールの使⽤を判断し、利⽤可能なツールの中から最も適切なものを選択する能⼒があるのか l ツール利⽤に関するベンチマークを作成（似た道具からツール選択、特定のシナリオ、複数ツール選択、無理に選ばないを評価）ツール利⽤のパターンに対して、何が⼀番難しいのか評価

ツール利⽤⼒(Tool Usage)に関する論⽂ #5 ツール利⽤のドキュメントを標準化 49 ▍ EASYTOOL: Enhancing LLM-based Agents
with Concise Tool Instruction l 様々なAPIプラットフォームのツールドキュメントに関する⼀貫性の⽋如、冗⻑性、不完全性が課題 l 各ツールドキュメントを分析し、必要な情報のみを抽出して標準化されたツール指⽰⽂を作成ツール説明標準化⽤のプロンプト

微調整 Fine Tuning

エージェントのための微調整とは 51 ▍ エージェントのための微調整は以下の⽬的でおこなわれます。・ドメインを絞り、APIのみ提供するクローズドモデル(GPT-4など)の性能に近づけるため・計画や道具利⽤など特定の役割に特化させるためデータセットの作成が課題エージェントの軌跡データを集めるコストが⾼い・質の⾼い軌跡とは何か・失敗軌跡から学べないか
・Claude, GPT4, Mistral のAPIの仕様の違いは吸収できるか・他の環境で得た軌跡は活かせるか・成功軌跡以上の難易度のタスクを解けるのか軌跡データの収集

微調整に関する論⽂⼀覧 52 ICLR 2024 Workshop on LLM Agents l AgentOhana:
Design Unified Data and Training Pipeline for Effective Agent Learning l AUTOACT: Automatic Agent Learning from Scratch via Self-Planning

微調整（Fine-Tuning ）に関する論⽂ #1 様々な環境で集めたエージェント軌跡の標準化 53 ▍ AgentOhana: Design Unified Data
and Training Pipeline for Effective Agent Learning l 様々なタスクや環境で集められたエージェントの軌跡はフローに統⼀性がなく、他組織の再利⽤が難しい l 異なる形式や構造を持つエージェントの軌跡データを⼀貫したフォーマットに変換し、LLM評価でフィルタリングをおこない、⾼品質な訓練データを集めるワークフローを提案様々な環境で集めた軌跡の標準化

微調整（Fine-Tuning ）に関する論⽂ #2 ⼈⼯的に軌跡データを作り役割ごとに学習 54 ▍ AUTOACT: Automatic Agent Learning
from Scratch via Self-Planning l エージェントの計画と⾏動を特化型に学習するには軌跡データが⼤量に必要で、全てを1つのエージェントに強いる精度劣化が課題 l タスクの詳細とツールから軌跡データを⼈⼯的に作成し、計画、⾏動、振り返りの役割ごとにエージェントを学習させる⼿法の提案 3つのエージェントを使う軌跡獲得がクローズドモデルに依存しない

評価とベンチマーク Benchmark

LLMエージェントの評価とは 56 ▍ LLMエージェントの性能評価は実務でも⾮常に重要です。 l 全体評価：タスク成功率、タスク安定率、タスク進捗率 l ステップ評価：計画⼒の評価、サブタスクの評価、道具選択⼒の評価、⾃⼰評価の評価 l ⾮機能評価：消費トークン数、推論時間、⾦額
計画⼒の評価は⼈間が評価・タスク初学者がその計画を渡されて成功できると思うか⾃⼰評価の評価観点を⼈間の視座に合わせる・余計な配慮を減らし、事実に基づいて答えれているか、次のアクション案が妥当かタスクの安定率があがらないと”星に願いを”になる安定率が低い

評価・ベンチマークに関する論⽂⼀覧 57 ICLR 2024 l Identifying the Risks of LM
Agents with an LM-Emulated Sandbox （spotlight） l SmartPlay : A Benchmark for LLMs as Intelligent Agents l AgentBench: Evaluating LLMs as Agents ICLR 2024 Workshop on LLM Agents l R-Judge: Benchmarking Safety Risk Awareness for LLM Agents l AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents l Large Language Model Evaluation Via Multi AI Agents: Preliminary results l LLF-Bench: Benchmark for Interactive Learning from Language Feedback l TaskBench: Benchmarking Large Language Models for Task Automation

評価・ベンチマークに関する論⽂ #1 リスクの評価・ベンチマーク #1 58 ▍ Identifying the Risks of
LM Agents with an LM-Emulated Sandbox （spotlight） l エージェントが様々なシナリオに対してどのように動作するか、その過程で⽣じるリスクを評価するエミュレータとベンチマーク l ユーザー指⽰の不明瞭さを適切に処理できない場合、データの損失、システムの不安定化、⽣命に関わる危険など、重⼤な結果をもたらす可能性があるよくある失敗例事実無根の仮定や捏造、指⽰の誤解、誤った実⾏、リスクの無視⾚⾊：リスクのある⾏動

評価・ベンチマークに関する論⽂ #2 リスクの評価・ベンチマーク #2 59 ▍ R-Judge: Benchmarking Safety Risk
Awareness for LLM Agents l エージェントがインタラクティブな環境でリスク判断・評価の能⼒があるか測るベンチマーク l プライバシーの漏洩、セキュリティ、データ損失、財務損失、違法⾏為、健康、倫理と道徳、偏⾒と不快感のリスクタイプを含むエージェントの⾏動履歴からリスクを評価し、教師データと⽐較

評価・ベンチマークに関する論⽂ #3 汎⽤性の評価・ベンチマーク #1 60 ▍ SmartPlay : A Benchmark
for LLMs as Intelligent Agents l 次世代の⾃動化に向けてエージェントに必要な9つの能⼒をさまざまなゲームを通じて評価するベンチマーク l 評価項⽬は、⻑いテキストの理解、複数ステップの論理的推論、指⽰/ルールの従順、⻑期計画、⼀般化、確率の理解、インタラクションから環境の理解、エラー/ミスの処理、2D/3D環境の理解実験設定とエージェントに必要な9つの能⼒の性能結果

評価・ベンチマークに関する論⽂ #4 汎⽤性の評価・ベンチマーク #2 61 ▍ AgentBench: Evaluating LLMs as
Agents l 対話環境のエージェントとして推論能⼒と意思決定能⼒を評価するベンチマーク l ウェブショッピングタスクで特定の⽬標を達成する能⼒、ゲームタスクで、戦略的思考、指⽰に従う能⼒、⼀般的な常識⼒を評価し、 OS、データベース、KGに関するタスクで、コーディング能⼒とシステムとのインタラクション能⼒をそれぞれ評価 8つの環境で異なるモデルで性能を調査

評価・ベンチマークに関する論⽂ #5 汎⽤性の評価・ベンチマーク #3 62 ▍ AgentBoard: An Analytical Evaluation
Board of Multi-turn LLM Agents l エージェントの汎⽤性をタスク進捗率を含め、多⾯的に評価するベンチマーク l ⾝体性、ゲーム、ウェブ、ツールエージェントを含む9つの異なるタイプのタスクで1013の環境の中で複数の能⼒を評価 Analysisの分析観点が参考になる

評価・ベンチマークに関する論⽂ #6 コード⽣成の評価・ベンチマーク 63 ▍ Large Language Model Evaluation Via
Multi AI Agents: Preliminary results l エージェントが実際のソフトウェア開発タスクで効果的に機能するかを定量的に測定するベンチマーク l HumanEvalは、コード⽣成の正確性、計算効率などを評価し、MBPPのベンチマークでは広範なタスクを通じてモデルの汎⽤性を評価コード⽣成タスクではGPT-3.5 Turboが最も良い結果に

評価・ベンチマークに関する論⽂ #7 環境との相互作⽤による学習能⼒の評価・ベンチマーク 64 ▍ LLF-Bench: Benchmark for Interactive Learning
from Language Feedback l エージェントが⾃然⾔語フィードバックからインタラクティブに学習する能⼒を評価するベンチマーク l ⾃然⾔語指⽰の理解、様々なフィードバックからの改善能⼒、タスクに対するロバスト性や適応性を評価 RLと違い、報酬のスカラー値でなくテキストフィードバックが返ってくる

評価・ベンチマークに関する論⽂ #8 タスク⾃動化の評価・ベンチマーク 65 ▍ TaskBench: Benchmarking Large Language Models
for Task Automation l エージェントのタスク⾃動化能⼒を評価するベンチマーク l タスク分解、ツール呼び出し、ツールパラメータ⽣成能⼒をHugging Face、Multimedia、Daily Life APIsからタスクを作成し評価ベンチマークなのに Tool利⽤予測グラフも作っている…

エージェント応⽤ Agentic AI Systems Multi-Agent Systems Embodied Agents Computer Controlled
Agents

67 LLMエージェントの応⽤４種類研究動向から４パターンに分けられます。組み合わせもあります。 ▍ Agentic AI Systems ・エージェントが主体的に業務を代替するシステム ▍ Multi-Agent
Systems ・複数のエージェントが協⼒/競争するシステム ▍ Embodied Agents ・⽬標に向けて環境と相互作⽤する⾝体のあるエージェント ▍ Computer Controlled Agents ・コンピュータ上のタスクを⾃動化するエージェント業務の⾃動化送信をクリック

業務代替タスク Agentic AI Systems

69 エージェントの主体的な⾏動による業務代替システム（Agentic AI Systems） ▍ ⾃然⾔語で指⽰を出し、エージェントがコード実⾏やREST APIを駆使する業務⾃動化システム ▍ 論⽂で題材にされる業務・データ分析
・レポート作成・雑務・⾳楽や動画などコンテンツ作成・ソフトウェア開発・ヘルプデスク・都市計画・ユーザーリサーチ・旅⾏代理店ソフトウェア開発業務の代替サービス • Open Interpreter, Devin, MetaGPTが有名 • Copilot は⽀援サービスの位置付け MetaGPTの例 https://www.openinterpreter.com/ https://www.cognition-labs.com/introducing-devin https://github.com/geekan/MetaGPT/tree/main

70 Agentic AI Systems に関する論⽂⼀覧 ICLR 2024 l MetaGPT: Meta
Programming for A Multi-Agent Collaborative Framework（oral） ICLR 2024 Workshop on LLM Agents l MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning l EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records l Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow (oral) l Agents: An Open-source Framework for Autonomous Language Agents l OpenAgents: An Open Platform for Language Agents in the Wild l WavCraft: Audio Editing and Generation with Natural Language Prompts l SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code l Chain-of-Experts: When LLMs Meet Complex Operations Research Problems l Empowering Autonomous Driving with Large Language Models: A Safety Perspective l Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science

71 Agentic AI Systems に関する論⽂ #1 ソフトウェア開発に関するエージェント ▍ MetaGPT: Meta
Programming for A Multi-Agent Collaborative Framework（oral） l エージェント間の役割分担と標準運⽤⼿順（SOP）を定め、協調することでソフトウェア開発の代替を⽬指す l 複雑なタスクをサブタスクに分解し、順番に担当者エージェントが作業をこなし次に繋げて作業をする⼿法の提案

72 Agentic AI Systems に関する論⽂ #2 医療業務に関するエージェント #1 ▍ MedAgents:
Large Language Models as Collaborators for Zero-shot Medical Reasoning l 医学とヘルスケアの分野において、 LLMに存在する医学的専⾨知識を掘り下げ、推論能⼒を向上させることが課題 l 複数の専⾨家エージェントが個々の分析をおこない、合意が得られるまで議論を繰り返し、最終的な回答をするマルチエージェントなフレームワークを提案回答までのフレームワーク繰り返し議論をおこなう

73 Agentic AI Systems に関する論⽂ #3 医療業務に関するエージェント #2 ▍ EHRAgent:
Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records l 臨床研究では、患者の医療履歴の電⼦健康記録（EHR）システムを利⽤するのにデータエンジニアの助けが必要だった l HERを扱う質問応答のためにコード⽣成とDB操作を駆使し計画を⽴てるエージェントを提案回答までのワークフロー Pythonコード内でDBを駆使して回答を計算

74 Agentic AI Systems に関する論⽂ #4 データ分析に関するエージェント #1 ▍ Data-Copilot:
Bridging Billions of Data and Humans with Autonomous Workflow (oral) l どの業界でも毎⽇⼤量の異種データが⽣成され、効率的に管理、分析し、可視化することは難しい l Data-Copilotは、異なるデータソースを⼀元管理でき、分析・可視化の⾃動化をおこなうタスク⽤のインターフェースをエージェントが作成

75 Agentic AI Systems に関する論⽂ #5 汎⽤的なエージェント #1 ▍ Agents:
An Open-source Framework for Autonomous Language Agents l 計画、記憶、ツール使⽤、マルチエージェント通信などをサポートするオープンソースのライブラリAGENTSを開発 l 専⾨知識のないユーザーでも、少ないコーディングでエージェントを構築、テスト、デプロイができるようになる SOPは複数エージェントの協調フローを定義するグラフ

76 Agentic AI Systems に関する論⽂ #6 汎⽤的なエージェント #2 ▍ OpenAgents:
An Open Platform for Language Agents in the Wild l 従来のエージェント開発がコンソール操作など⽞⼈向けで誰でもエージェントと対話できるようにする必要がある l データ分析、ツール利⽤、ウェブブラウジングの３つの典型的なアプリケーション⽤のエージェントを構築

77 Agentic AI Systems に関する論⽂ #7 ⾳楽編集に関するエージェント ▍ WavCraft: Audio
Editing and Generation with Natural Language Prompts l 従来のLLMエージェントは⾳声クリップを与えて駆動することができなかった l ユーザーの指⽰と⼊⼒⾳声に基づいて、LLMがPythonスクリプトを⽣成し、⾳声コンテンツの編集をおこなうツール⼀覧

78 Agentic AI Systems に関する論⽂ #8 3Dモデリング業務に関するエージェント ▍ SceneCraft: An
LLM Agent for Synthesizing 3D Scene as Blender Code l これまで時間とコストがかかっていた3Dシーン作成のプロセス⾃動化と創造性の向上が求められる l ⾃然⾔語の指⽰をBlenderで実⾏可能なPythonスクリプトに変換し、最⼤100個の3Dアセットを含む複雑なシーンをレンダリングするエージェントを提案

79 Agentic AI Systems に関する論⽂ #9 OR業務に関するエージェント ▍ Chain-of-Experts: When
LLMs Meet Complex Operations Research Problems l オペレーションズリサーチ（OR）の問題解決にLLMを使⽤する⽅法では、暗黙的な制約やドメイン知識の理解が必要で、推論が⻑くなり精度の悪化に繋がっていた。 l ORで必要な知識を役割ごとにエージェントで⽤意し、協⼒して複雑な問題を解決するChain-of-Experts (CoE) を提案 “リードタイムがゼロ” という⾔葉の意味と変数との関係性をLLMが理解する必要がある。

80 Agentic AI Systems に関する論⽂ #10 ⾃動運転に関するエージェント ▍ Empowering Autonomous
Driving with Large Language Models: A Safety Perspective l ロングテールな運転シナリオにおける安全性の課題に対処するために、LLMの常識知識と推論能⼒を活⽤する l LLMを運転の意思決定者として利⽤し、⾏動のシミュレーション結果をLLMに返し意思決定の質を⾼めるフレームワークを提案観測からLLMが⾏動を予測し、実際にシミュレーションをおこない、検証項⽬をパスするか確認する

81 Agentic AI Systems に関する論⽂ #11 研究業務に関するエージェント ▍ Prioritizing Safeguarding
Over Autonomy: Risks of LLM Agents for Science l 様々な科学分野での実験の⾃動化や科学的発⾒の促進をエージェントで取り組むには安全性の課題がある l 責任あるエージェント開発の提唱（特に⼈間とエージェントの規制、エージェントのアライメント、環境フィードバックに焦点を当てる）科学エージェントの構成と制限

マルチエージェント Multi-Agent Systems 会話・⾏動シミュレーションコミニケーション戦略によるタスク解決 82

83 マルチエージェントシステム（Multi-Agent Systems） ▍ 複数の異なる役割のエージェントが協⼒/競争するシステム ▍ 会話・⾏動シミュレーションプロフィールに追従することが求められる・推薦後のユーザーの⼼理・⾏動変化・交渉
▍ コミニケーション戦略によるタスク解決タスク簡易化のため各エージェントに責務を分ける・ソフトウェア開発・コンサルテーション・質問応答アンケートなどからプロフィールを模倣しシミュレーション対話的推薦雑談するか、情報引き出すか推薦するかで異なる役割 A Multi-Agent Conversational Recommender System When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm

84 会話・⾏動シミュレーションに関する論⽂⼀覧 ICLR2024 l SOTOPIA: Interactive Evaluation for Social Intelligence
in Language Agents（spotlight） ICLR 2024 Workshop on LLM Agents l MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration l LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games l Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View (oral) l Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation l Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast l The Wisdom of Partisan Crowds: Comparing Collective Intelligence in Humans and LLM-based Agents

85 会話・⾏動シミュレーションに関する論⽂ #1 マルチエージェントの社会性を評価 ▍ SOTOPIA: Interactive Evaluation for Social
Intelligence in Language Agents（spotlight） l SOTOPIAは、エージェントが⽇常の社会的⽬標の達成能⼒を獲得しているか評価するために開発されたシミュレータ l エージェントは様々なシナリオでキャラを演じながら、交渉、取引、説得の社会的⽬標で、性能を⽬標達成、信憑性、知識獲得、秘密の保持、関係性の維持、社会規則の遵守、財務・物の利益の観点で、⼈間の判断の代理が可能か評価

86 会話・⾏動シミュレーションに関する論⽂ #2 マルチエージェントの能⼒評価 ▍ MAgIC: Investigation of Large Language
Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration l マルチエージェント環境で判断⼒、推論⼒、欺瞞、⾃⼰認識、協⼒、調整、合理性の７つの能⼒を定量的に評価するベンチマーク l 社会的推測ゲームやゲーム理論シナリオで評価し、ロール理解の⾃⼰認識、納得のいく解決策を提案する調整⼒、状況を論理的に分析し結果を予測する推論⼒が低いシナリオごとに評価項⽬が異なる

87 会話・⾏動シミュレーションに関する論⽂ #3 交渉ゲームによるエージェント評価 ▍ LLM-Deliberation: Evaluating LLMs with Interactive
Multi-Agent Negotiation Games l 複数の議題（価格、納期、サービスなど）を含む交渉ゲームで妥協と交渉をおこなうマルチエージェントによるLLMの評価 l エージェントは３要素を評価。各提案のスコアを計算し受け⼊れるか算術⼒と推論⼒、⾃⾝と他者の利益を最⼤化する提案を⽣成する探索と計画⼒、他者の⽬標を理解し、それに基づいて⾏動する共感と⼼の理論

88 会話・⾏動シミュレーションに関する論⽂ #4 性格と協調戦略によるマルチエージェントの性能評価 ▍ Exploring Collaboration Mechanisms for LLM
Agents: A Social Psychology View (oral) l LLMエージェントの協⼒メカニズムを探ることにより、⼈間とAIの相互作⽤の可能性を探る l 個別の特性、思考パターン、協⼒戦略を統合したマルチエージェントがどのように協⼒し、社会⼼理学を反映した⼈間のような社会⾏動を⽰すかを評価異なる性格とその組み合わせで分析討論と内省の組みで⽐較

89 会話・⾏動シミュレーションに関する論⽂ #5 シミュレーションによる⾃⼰アライメント ▍ Self-Alignment of Large Language Models
via Monopolylogue-based Social Scene Simulation l アライメントは外部フィードバックが必要でコストが⾼く、⾃⼰アライメントもルールベースで柔軟性と適応性に課題がある l MATRIXというマルチエージェントシミュレータを⽤い、LLMが社会的規範を考慮しながら⾃⼰アライメントを⾏う⼿法を提案提案⼿法のワークフロー下が詳細化

90 会話・⾏動シミュレーションに関する論⽂ #6 会話による有害な振る舞いの感染 ▍ Agent Smith: A Single Image
Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast l エージェント同⼠が会話を通じて敵対的な画像やプロンプトによって感染し、不適切な振る舞いを⽰す感染性ジェイルブレイクを⽰す l 単⼀のエージェントに敵対的な画像を注⼊するだけで、感染が指数関数的に迅速に広がり、全エージェントが有害な振る舞いを⽰す⼀体が感染すると会話したものから徐々に感染し 27~31ラウンドには100万体が感染

91 会話・⾏動シミュレーションに関する論⽂ #7 集団討論が⼈間と同様の現象が起きるか ▍ The Wisdom of Partisan Crowds:
Comparing Collective Intelligence in Humans and LLM-based Agents l ⼈の集団が情報を共有し、議論する中で、個々⼈の偏⾒や先⼊観を超えたより正確な⾒解に収束していく「群衆の知恵」の現象がLLM エージェント達にも⾒られた l 論⽂では⺠主党員または共和党員の役割を演じるエージェント達が正確な信念に収束するか評価

92 コミニケーション戦略によるタスク解決に関する論⽂⼀覧 ICLR2024 l AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors l ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate ICLR 2024 Workshop on LLM Agents l AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (oral) l Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration l BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents l EcoAssistant: Using LLM Assistant More Affordably and Accurately l Decision-Oriented Dialogue for Human-AI Collaboration l Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach

93 コミニケーション戦略によるタスク解決に関する論⽂ #1 役割分担と議論で性能向上 ▍ AgentVerse: Facilitating Multi-Agent Collaboration and
Exploring Emergent Behaviors l 単⼀エージェントの推論⼒、コーディング能⼒、ツール利⽤⼒の限界をマルチエージェント化することで性能向上を⽬指す l AgentVerseフレームワークは複数のエージェントが役割分担と議論を重ねることで、単⼀エージェントやCoTと⽐較して性能向上ラウンドごと担当者が変わり、仕上がっていく

94 コミニケーション戦略によるタスク解決に関する論⽂ #2 役割分担と議論でテキスト⽣成の評価 ▍ ChatEval: Towards Better LLM-based Evaluators
through Multi-Agent Debate l ChatEvalは、複数のLLMエージェントが協⼒することで、⼈間の評価プロセスを模倣したテキスト⽣成の⾃動評価システム l 異なるエージェントの情報共有⽅法、議論の進め⽅と役割の違いがどのように評価の品質に影響を与えるか分析複数⼈で議論して評価

95 コミニケーション戦略によるタスク解決に関する論⽂ #3 マルチエージェント開発フレームワーク ▍ AutoGen: Enabling Next-Gen LLM Applications
via Multi-Agent Conversation (oral) l 開発者がLLMを使⽤してマルチエージェントアプリケーションを構築できるオープンソースフレームワーク l 開発コードの削減、エラー処理などカスタマイズの負担軽減、さらに動的なマルチエージェントの会話パターンの実装が容易になる

96 コミニケーション戦略によるタスク解決に関する論⽂ #4 異なるコミニケーション⽅法による推論の向上 ▍ Corex: Pushing the Boundaries of
Complex Reasoning through Multi-Model Collaboration l Corexは複数のエージェントが協⼒することで推論の質と効率を向上させる戦略を提案 l CorexはDiscuss、Review、Retrieveの３つのモードを⽤いて箱の外で考えることを促し、エージェント間の協⼒を通じて問題解決

97 コミニケーション戦略によるタスク解決に関する論⽂ #5 エージェントアーキテクチャによる精度の違いも評価 ▍ BOLAA: Benchmarking and Orchestrating LLM-augmented
Autonomous Agents l モデル違いでPlanReActなど様々なエージェントアーキテクチャの性能を評価するエージェントベンチマーク l 複数の労働エージェントを効果的にコントローラが統合し協調させるアーキテクチャBOLAAの提案 Average reward in the WebShop environment. モデルごとも異なるエージェントアーキテクチャで評価

98 コミニケーション戦略によるタスク解決に関する論⽂ #6 異なる精度のモデルを使いわけコーディングの精度と効率向上 ▍ EcoAssistant: Using LLM Assistant More
Affordably and Accurately l LLMアシスタントが最初から正しいコードを⽣成することは稀であり、実⾏結果に基づいてコードを反復的に洗練させる必要がある l EcoAssistantは低コストと⾼コストのLLMを切り替えながら、過去の成功体験を検索し、GPT-4より成功率で上回り、GPT-4よりコストも50%未満で運⽤できることを実証提案⼿法のワークフロークエリとコードのペアを取得モデルの切り替え

99 コミニケーション戦略によるタスク解決に関する論⽂ #7 エージェントと⼈間の協⼒による意思決定 ▍ Decision-Oriented Dialogue for Human-AI Collaboration
l AIアシスタントが⼈間と効果的に協⼒し、複雑な意思決定（業務割り当て、対話的に旅⾏計画、グループスケジューリング）をするようになるには３つの課題があることを明らかにした l 課題は、意思決定に必要な情報を効果的に引き出すための⽬標指向の質問をする⾏動の⽋如、幻覚と根拠不⾜、リクエストを無視する⾮協⼒的な振る舞いがある

100 コミニケーション戦略によるタスク解決に関する論⽂ #8 マルチエージェントの集中評価と分散実⾏ ▍ Controlling Large Language Model-based Agents
for Large-Scale Decision-Making: An Actor-Critic Approach l LLM に基づくMulti-Agent Systems はエージェント数が増えるにつれて、幻覚が起き、トークン消費量も増え課題がある l RLのActer-Criticの考えからActerの同期コストを減らし、Critic側で同期し、複数エージェントが会話する枠組みを⼊れ計画⼒と推論⼒を⾼める

⾝体のあるエージェント Embodied Agents 101

102 ⾝体のあるエージェント (Embodied Agents) ▍ ⽬標に向けて環境と相互作⽤する⾝体のあるエージェント ▍ 仮想世界（Minecraft など）で検証することが多い ▍
ゲーム応⽤・⽬的地までナビゲーション・物の積み⽴てや建設・道具の利⽤ ▍ ロボット応⽤・協働で家事・⼈間とのインタラクション⼈間や他のエージェントと協⼒して活動 A Survey on Large Language Model-Based Game Agents Building Cooperative Embodied Agents Modularly with Large Language Models

103 ⾝体のあるエージェントに関する論⽂⼀覧 ICLR 2024 l Building Cooperative Embodied Agents Modularly
with Large Language Models l Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds ICLR 2024 Workshop on LLM Agents l HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory Augmented Language Models l S-Agents: Self-organizing Agents in Open-ended Environments l An Embodied Generalist Agent in 3D World l Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation

104 ⾝体のあるエージェントに関する論⽂ #1 マルチモーダルな単独エージェント ▍ Steve-Eye: Equipping LLM-based Embodied Agents
with Visual Perception in Open Worlds l エージェントがテキストの⼊出⼒に依存することは、エージェントが実世界とインタラクションするのに制限 l STEVE-EYEは、マルチモーダルな認識、環境の知識、使うスキルの予測と計画の3つの主要機能を備える

105 ⾝体のあるエージェントに関する論⽂ #2 3D認識エージェント ▍ An Embodied Generalist Agent
in 3D World l 障害物を避けつつ最適なルートを⾒つける能⼒、3Dシーン質問応答、3Dの物理的環境を理解する能⼒には限界がある l LEOは3Dの世界でマルチモーダルでマルチタスクをこなすエージェントの提案

106 ⾝体のあるエージェントに関する論⽂ #3 複数ドメイン対応エージェント ▍ HELPER-X: A Unified Instructable
Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models l ドメインとタスクにわたって⼀貫した性能を提供する汎⽤的なマルチモーダルエージェントが求められる l ドメイン跨ぎのプロンプトテンプレートと類似サンプルを検索し、未知のドメインでもタスクの精度向上異なるドメインの履歴を取得

107 ⾝体のあるエージェントに関する論⽂ #4 ⼈間とAIとの協調作業 ▍ Building Cooperative Embodied Agents Modularly
with Large Language Models l ⾝体のあるエージェントの協調問題に取り組み、計画、コミニケーション、メモリモジュールを持つフレームワークを提案 l ⼈間とエージェントの協働に関する実験を⾏い、エージェントはより多くの信頼を獲得し、効果的に⼈間と協⼒できることを発⾒⽚⽅は⼈間でもAIでも可

108 ⾝体のあるエージェントに関する論⽂ #5 協調マルチエージェント #1 ▍ S-Agents: Self-organizing Agents
in Open-ended Environments l エージェントが動的に協⼒し、⼈間の介⼊なしにタスクを遂⾏できる⾃⼰組織化エージェントシステム l Minecraft環境で複数のエージェントが異なる資源を同時に収集する資源収集タスクとリーダーエージェントが全体の計画を⽴て、実⾏エージェントが具体的な建築作業をする避難所建築タスク

109 ⾝体のあるエージェントに関する論⽂ #6 協調マルチエージェント #2 ▍ Hierarchical Auto-Organizing System
for Open-Ended Multi-Agent Navigation l Minecraftのようなオープンワールド環境での複雑なナビゲーションにおけるMASのコミュニケーションとタスク分配が課題 l エージェントのグループをタスクごとに⾃動的に編成し、MARLのように中央計画の分散実⾏なフレームワークを提案提案⼿法のワークフロー階層構造になり、タスクごとにチームが組まれる

コンピュータ制御型エージェント Computer Controlled Agents 110 Webエージェントスマホ⽤エージェントコンピュター制御エージェント

111 コンピュータ制御エージェント (Computer Controlled Agents) ▍ コンピュータ上のタスクを⾃動化するエージェント ▍ VLMの場合、スクショを与えてマウスやキーボードの操作コマンドを⽣成する ▍
Webサイトのナビゲーション・ECサイト・予約・申請サイト ▍ アプリやソフトウェアを対話的に操作・Oﬃce製品・スマホのアプリ・3D Blender, Photoshop WorkArena: How Capable are Web Agents at Solving Common Knowledge Work Tasks?

112 コンピュータ制御エージェントに関する論⽂⼀覧 ICLR 2024 l A Real-World WebAgent with Planning,
Long Context Understanding, and Program Synthesis (oral) l WebArena: A Realistic Web Environment for Building Autonomous Agents ICLR 2024 Workshop on LLM Agents l WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? l GPT-4V(ision) is a Generalist Web Agent, if Grounded l VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks l WebLINX: Real-World Website Navigation with Multi-Turn Dialogue l Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception l SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents l OS-Copilot: Towards Generalist Computer Agents with Self-Improvement l Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

113 コンピュータ制御エージェントに関する論⽂ #1 テキストベースなWeb エージェント #1 ▍ A Real-World WebAgent
with Planning, Long Context Understanding, and Program Synthesis (oral) l 現実世界のWebサイトの⾃動化は、オープンドメイン、HTMLドキュメントの⻑さ、 HTML特有の知識の⽋如の課題がある l HTML-T5を⽤いて、テキスト指⽰から計画し、 HTML⽂書を要約し、コード⽣成するWebAgentの提案サイトごとのトークン数現実とSimの⽐較

114 コンピュータ制御エージェントに関する論⽂ #2 テキストベースなWeb エージェント #2 ▍ WorkArena: How Capable
Are Web Agents at Solving Common Knowledge Work Tasks? l エンタープライズシステムは機能重視のため、UIが複雑になりがち、繰り返しタスクや複雑なプロセスがく効率化が急務 l ServiceNow 上の操作⾃動化タスクのベンチマークを作り、エージェントを評価

115 コンピュータ制御エージェントに関する論⽂ #3 マルチモーデルなWeb エージェント ▍ GPT-4V(ision) is a Generalist
Web Agent, if Grounded l ウェブサイトのHTML要素やビジュアルを正確に理解し、適切なアクションを⽣成することを困難 l ユーザーの指⽰を解釈し、ウェブページのスクショとHTML構造から適切なHTML要素に対して具体的な操作をおこなう

116 コンピュータ制御エージェントに関する論⽂ #4 Webエージェントベンチマーク #1 ▍ WebArena: A Realistic
Web Environment for Building Autonomous Agents l シンプルな環境は、現実世界のタスクの複雑さを⼗分に再現しておらず現実と乖離 l リアルで再現性の⾼い環境（ OneStopShop、CMS、reddit、GitLab）を提供するWebArenaを構築

117 コンピュータ制御エージェントに関する論⽂ #5 Webエージェントベンチマーク #2 ▍ VisualWebArena: Evaluating Multimodal
Agents on Realistic Visual Web Tasks l 実世界に近い環境でマルチモーダルエージェントの能⼒を評価するためのベンチマーク l OSClass 、OneStopShop、Redditの3つの異なるウェブ環境で910の現実的なタスクを含む

118 コンピュータ制御エージェントに関する論⽂ #6 対話的Webエージェントベンチマーク ▍ WebLINX: Real-World Website Navigation
with Multi-Turn Dialogue l 視覚障害者のサポート、スマートスピーカーの機能として、Webサイトのナビゲーションを会話形式で⾏うエージェントが必要 l 2337件の専⾨家による会話形式のWebナビゲーションと155の実世界のWebサイトを含むWEBLINXというベンチマークを提案

119 コンピュータ制御エージェントに関する論⽂ #7 スマホ⽤エージェント #1 ▍ Mobile-Agent: Autonomous Multi-Modal Mobile
Device Agent with Visual Perception l 既存のMLLMを利⽤したモバイルデバイスエージェントが、画⾯上の操作の正確な位置を特定する能⼒に⽋けている l Mobile-Agentは、画⾯上のテキストやアイコンを識別し、操作タスクを計画し、ステップバイステップでモバイルアプリを操作するアイコン検出

120 コンピュータ制御エージェントに関する論⽂ #8 スマホ⽤エージェント #2 ▍ SeeClick: Harnessing GUI Grounding
for Advanced Visual GUI Agents l 従来のHTML を扱うGUIエージェントはiOSやデスクトップアプリケーションで情報を取得することが困難 l SeeClickはスクリーンショットのみを利⽤し、 GUIの要素を特定するGUIグラウンディングは学習する

121 コンピュータ制御エージェントに関する論⽂ #9 コンピュータ制御エージェント #1 ▍ OS-Copilot: Towards Generalist Computer
Agents with Self-Improvement l 多くのエージェントが特定のソフトウェアやウェブサイトに特化しており、OS全体で幅広く対話する能⼒に⽋けている l LinuxおよびMacOSに対応する⼀般的なコンピュータエージェントを構築するフレームワークを提案

122 コンピュータ制御エージェントに関する論⽂ #10 コンピュータ制御エージェント #2 ▍ Towards General Computer Control:
A Multimodal Agent for Red Dead Redemption II as a Case Study l 画⾯と⾳声を⼊⼒し、キーボードとマウス操作を出⼒とする、あらゆるコンピュータタスクをマスターできる基盤エージェント⼀般コンピュータ制御（GCC）として提唱 l ⾃⼰反省、タスク推論、スキルキュレーションを活⽤して、⼀般化能⼒があり⾃⼰改善するエージェントを提案

電通総研の宣伝

124 電通総研 AIトランスフォーメンションセンター • 各領域のプロが結集し、AIのビジネス応⽤を幅広い視野で推進するために結成した AIに特化した全社横断チーム • AIモデルを構築するだけではなく、お客様が DX活動の中でたまったデータをビジネス価値
につなげるためデータ活⽤推進 • 外部公演も積極的に実施、AI系の書籍執筆者や Kaggle Masterも在籍 https://aitc.dentsusoken.com/ ▪どのような組織？ ▪チーム構成お客様のビジネスに合ったAIソリューションをご提案。 AI/データ活⽤戦略から、モデル構築、システム化まで、ビジネス、エンジニアリング両⾯からビジネスをご⽀援。 • PoC（コンセプト検証）実施 • AI導⼊コンサルティング • AIシステム開発（スクラッチ開発） • AI⼈材育成社会が求めるソリューションを⾼い開発スキルと最新の研究開発の成果でAIモデルをプロダクト化。お客様のデータ活⽤を技術⼒で加速させていく。 • AIソフトウェア開発 • AI技術のビジネス適⽤のための研究開発 • セミナー・学会発表 • 産学連携 • 書籍執筆・AI啓蒙活動 AIコンサルティング AIソリューション開発/最新AI研究 https://aitc.dentsusoken.com//solution.html ▪ソリューション

125 ⽣成AI活⽤はビジネス競争⼒の源泉！エンタープライズ⽣成AI活⽤ソリューション Know Narrator/ノウナレーター powered by Azure OpenAI Service
Know Narrator Insightの画⾯ Know Narrator Chat with Vision /Searchの画⾯ https://aitc.dentsusoken.com/products/knownarrator.html https://www.dentsusoken.com/news/release/2023/1024.html ▍ ⽣成AIの業務活⽤ソリューションを⾃社開発しています

126 電通総研のLLMエージェントの検証ステップ ▍ AITCでは、段階的に評価・開発しています。コラムも更新していきます！ ▍ ⼀緒に取り組めるビジネス課題があれば業務提携/共同開発を積極的におこなっています。ゲーム、ロボット、ナビゲーション情報の登録/作成、サービス連携、ソフトウェア開発、資料の更新レポート、旅⾏計画、予定管理
データ分析 QA、推薦、集計、通知時事情報収集異なる情報を集約する業務環境とインタラクションする業務収集した情報を加⼯する業務

127 企業はAIエージェントに対して何を考えるべきか ▍ ⾃社アプリやサービス専⽤のエージェントを考える l ⾃社専⽤のエージェントに何をしてもらうのか l ⾳声対話で予約や登録、閲覧できるか検証するのか l ⾃社サービス情報を熟知できるのか検証するか
l 顧客体験の変化を考えるか ▍ 複数サービスを統合利⽤するエージェントを考える l ⾃社アプリ・サービス以外にもアクセスできるエージェントが⽣まれるとどうなるか l ⽣産性は向上するか、顧客体験が向上するか、企業間の協⼒インセンティブはあるか ▍ 業務を代替するエージェントを考える l ⽇常業務は⼀つのサービスに依存することは少ない l 複数のサービスから情報を集める業務をどこまで達成できるか l 既に実証しているRAG検証からエージェントに⽅向転換し、精度検証を進めるべきか

⼀緒に挑戦しませんか。

ICLR2024 LLMエージェントの研究動向

ICLR2024 LLMエージェントの研究動向

More Decks by masatoto

Other Decks in Research

Featured

Transcript