Slide 1

Slide 1 text

ICLR2024 LLMエージェントの研究動向 2024年04⽉26⽇ 株式会社電通総研 AIトランスフォーメーションセンター 太⽥真⼈

Slide 2

Slide 2 text

2 アジェンダ ▍ 調査概要と所感 ▍ エージェントの能⼒に関する論⽂紹介 l 空間推論⼒ l 指⽰追従⼒/⻑⽂理解⼒ l 計画⼒ l ⾃⼰修正⼒ l ツール利⽤⼒ l 微調整 l 評価とベンチマーク ▍ エージェントの応⽤に関する論⽂紹介 l 業務代替タスク l マルチエージェント l ⾝体のあるエージェント l コンピュータ制御型エージェント ▍ 電通総研の宣伝

Slide 3

Slide 3 text

⾃⼰紹介 太⽥真⼈(Masato Ota) 3 所属 ▍ 株式会社電通総研 X(クロス)イノベーション本部 AIトランスフォーメンションセンター ▍ AIエンジニア 4年⽬ 業務 ▍ PoC案件(需要予測、外観検査、質問応答、利⽤傾向分析など) ▍ LLMソリューション開発(Know Narratorシリーズ)やMVP開発 ▍ PoCやソリューションに役⽴つ実応⽤的な研究開発 好きなAI ▍ ⼈間とシステムとAI のインタラクション技術 l 予測の不確実性 l Human in the Loop l LLMに基づく⾃律型エージェント

Slide 4

Slide 4 text

はじめに 4 ▍ 本資料ではICLR2024とICLR2024 Workshop on LLM Agents の論⽂をまとめた調査資料です ▍ 構成はLLMエージェントの能⼒部分と応⽤部分で分けています ▍ 論⽂は課題と解決策の2⾏で1ページにまとめています。詳細な実験結果は元論⽂をご覧ください ▍ 各論⽂の考察やエラー分析に関して、今回は省きました ▍ 各論⽂のリポジトリに参考になるプロンプトもありますが、全て省いています ▍ あくまで全体感を知ることに注視しています ▍ 各セクションの1ページ⽬に私の知⾒も含めたセクション技術のサマリーを作りました ▍ 毎⽇Xに流れる論⽂を体系的に理解すると仕事のアイデアに繋がるかもしれません ▍ 電通総研ではLLMエージェントがビジネス的に価値を出せそうか、研究動向を掴んで顧客と⼀緒に挑戦していきます

Slide 5

Slide 5 text

ICLR2024 5 ▍ ICLR(International Conference on Learning Representations) ▍ 機械学習分野において国際的に権威のあるトップカンファレンスの⼀つ ▍ 2024年は7,262件の投稿の中から2,261件(約31%) の論⽂が採択 ▍ 2024年5⽉7⽇〜5⽉11⽇ オーストリア・ウィーンで開催 ▍ 2023年9⽉28⽇までに投稿された論⽂が査読対象 ▍ OpenReviewから論⽂を検索 l https://openreview.net/group?id=ICLR.cc/2024/Conference ▍ oral, spotlight, posterのセクションから「Agent」で検索 l LLM Agentに関するものだけ抽出 https://iclr.cc/から引⽤

Slide 6

Slide 6 text

ICLR2024でLLMエージェントのワークショップが開催 6 ▍ ワークショップでは、⾃然⾔語の指⽰から環境で複雑なタスクを実⾏する⾃律型エージェントに焦点を当てて採択されて います。 ▍ 昨年から今年を賑わせたエージェント系の論⽂が揃っている印象があります。 ▍ 2024年2⽉11⽇までに投稿された論⽂が査読対象 ▍ Oral: 6本、Poster: 90本からLLM Agentsに関するものだけ抽出

Slide 7

Slide 7 text

ICLR 2024 Workshop on LLM Agents のトピック 7 ▍ トピックには、メモリ、ツール、計画、マルチモーダル、エージェントフレームワークが含まれています

Slide 8

Slide 8 text

紹介論⽂数 8 ▍ エージェントの基本能⼒編 ×32本 l Spatial Reasoning ×4本 l Long text Understanding ×1本 l Planning ×6本 l Reasoning ×4本 l Self-Correction×2本 l Tool Usage ×5本 l Fine Tuning ×4本 l Benchmark ×8本 ▍ エージェントの応⽤編 ×42本 l Agentic AI Systems ×11本 l Multi Agent Systems ×15本 l Embodied Agents ×6本 l Computer Controlled Agents ×10本

Slide 9

Slide 9 text

全体を⾒渡した所感を雑多に 9 定量化しておらず、単なる個⼈の所感です。 ▍ GPT-4Vクラスが使われる論⽂が去年より増えた ▍ 同⽔準のLLM(Claude, Geminiなど)エージェント間の癖や⽐較はまだない ▍ エージェントの能⼒では、メモリ管理や⾃⼰修正の論⽂が少ない ▍ 微調整もオープンモデルが多く、gpt-4やgpt-35-turboで試したのはまだない ▍ 全体的にコード⽣成を駆使するエージェントものが多い ▍ エージェントの基本性能の課題感はどの論⽂も同じ部分を指摘している ▍ (マルチエージェント)強化学習とLLMエージェントでシナジーをだそうとする論⽂が⽬につく ▍ エージェントのベンチマークに関する論⽂が今年は多い ▍ マルチエージェントのコミニケーションワークフローが多く提案されている ▍ 複数の論⽂で提案されるエージェント原則やリスクからエージェントに期待することが⾔語化されている ▍ コンピュータ制御系はマルチモーダルLLMの基本性能向上するか、特化型にしないと現時点では使えない

Slide 10

Slide 10 text

研究論⽂とビジネス側とのギャップ 10 ▍ クローズモデル(API)やAssistants APIやTool Callingでできそうな論⽂が⼀定数ある l オープンモデルのエージェントがどれだけクローズモデルのそれと同等の性能に近づけられるかは興味のポイント l エージェントはトークン消費が多く、推論時間も⻑いので、モデルが軽くて維持と利⽤料が安いことが⼤事 l 先に精度の⾼いモデルでビジネス価値を⽰せれば、後で安価に、速く、安定して提供できるようにエンジニアリングできる ▍ 実サービスに近い設定だとServiceNowくらいで交渉ゲームや仮想環境の設定が多い l 実サービス特化型のエージェントや複数サービスを連携するようなエージェントはもちろんないので、ビジネス側の企業が発信しな ければならない l ⼀部の製造業のように環境認識を重視する場合は、空間推論や物理現象の理解がマルチモーダルLLMに求められる l 書類やコードを扱ったり、マネジメントな業務に関しては今のLLMエージェントで性能調査とリスク分析を進める必要ある ▍ 研究都合でエージェントの作り込みができていないように⾒える l ⽐較検証のためにプロンプトが汎⽤的で雛形には良いが、ロジックの制御もif-then含め丁寧にすれば精度出そうなのにと思う l プロンプトにドメイン知識の組み込みもできてないように感じる l エージェントの汎⽤性を評価しようとする傾向も強く、ビジネス側からすると勿体無い ▍ 論⽂のアイデアや課題の整理は勉強になるし、ビジネスマンと会話するベースにもなる l 論⽂で指摘する課題やエラー分析は、実務で精度検証する際に参考になる l エージェントワークフローや各種のプロンプトも参考になる l エージェント応⽤のアイデアは実務の⽅とのアイデアだしで参考になる

Slide 11

Slide 11 text

エージェントの能⼒

Slide 12

Slide 12 text

エージェントの能⼒ 12 ▍ LLMエージェントはLLMが持つ複数の能⼒をモジュール化し、ワークフローにすることで実現します。 ▍ 各構成技術ごとに論⽂をまとめています。 構成技術 • Spatial Reasoning (空間推論能⼒) • Long text Understanding(⻑い⽂脈の理解⼒) • Planning(計画⼒) • Self-Correction(⾃⼰修正⼒) • Instruction/Rule Following(指⽰追従⼒) • Tool Usage(ツール利⽤⼒) 環境 計画 ツール利⽤ ⾃⼰修正 最終出⼒ 指⽰理解 LLMエージェントのワークフロー

Slide 13

Slide 13 text

空間推論⼒ Spatial Reasoning

Slide 14

Slide 14 text

空間推論⼒とは 14 ▍ 空間推論(Spatial Reasoning)は、物体の空間的な位置や関係性を認識した上で推論する能⼒です。 l マルチモーダルなLLMに必要な能⼒の⼀つです。 l 地図のナビゲーションや設計図の理解、画像⽣成での想像⼒にも関わります。 Spa&al Reasoning Test A Survey of Reasoning with Foundation Models GPT4Vでもコード⽣成したり、 ⻑く思考しても意外と解けない

Slide 15

Slide 15 text

空間推論⼒(Spatial Reasoning)に関する論⽂⼀覧 15 ICLR 2024 Workshop on LLM Agents l L3GO: Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects l OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models l Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-Temporal Reasoning l Selective Visual Representations Improve Convergence and Generalization for Embodied AI

Slide 16

Slide 16 text

空間推論⼒(Spatial Reasoning)に関する論⽂ #1 3D構造や空間配置の理解⼒の⽋如 16 ▍ L3GO: Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects l DALL-E3など2D画像⽣成は物体の3D構造や空間配置を正確に把握し、画像に反映させるのが困難 l LLMエージェントがBlenderをAPI越しに使い、所望の物体の各部品を構築しながら組み⽴てることで、2D画像⽣成モデルの持つ空間 理解⼒の課題を解決する⼿法を提案 実際にDALL-E 3で⽣成させられなかったです。 私の場合、6本⾜になりました。

Slide 17

Slide 17 text

空間推論⼒(Spatial Reasoning)に関する論⽂ #2 指⽰内容と環境を紐付けてナビゲーション 17 ▍ OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models l オープンなオブジェクト検出による環境のナビゲーションエージェントの提案 l LLMで指⽰⽂からオブジェクト単語を検出し、VLMでシーンからオブジェクトを探し案内する

Slide 18

Slide 18 text

空間推論⼒(Spatial Reasoning)に関する論⽂ #3 テキストから環境の障害物の位置を認知し移動経路を案内できるか 18 ▍ Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-Temporal Reasoning l グリッド環境で障害物を避けながら⽬標地点にナビゲートする経路計画でLLMの空間的・時間的推論能⼒の限界を評価 l 7*7の環境や6~11の障害物が存在する複雑な環境でもGPT-4はReActで9割の成功率を達成したが最適経路は8割程度だった 環境(環境の⼤きさ、⾃⼰位置と障害 物の位置と⽬標位置)をテキストベー スで与え、LLMの中で想像させる

Slide 19

Slide 19 text

空間推論⼒(Spatial Reasoning)に関する論⽂ #4 余計なものに惑わされないようフィルタリング 19 ▍ Selective Visual Representations Improve Convergence and Generalization for Embodied AI l エージェントが環境認識のときにタスクに無関係なオブジェクトに釣られないようフィルタリングするモジュールを提案 l エージェントが環境をより効果的に探索し、⽬標オブジェクトを認識し、他のオブジェクトに関する情報を無視できることが⽰す ゴールに無関係なオブジェクトの認識を 除外することで、⾏動の軌跡が安定する

Slide 20

Slide 20 text

指⽰理解⼒/ ⻑⽂理解⼒

Slide 21

Slide 21 text

指⽰追従⼒/⻑い⽂脈の理解とは 21 ▍ 指⽰追従⼒は、ユーザーから与えられた制約条件や役割に従う能⼒です。 ▍ ⻑い⽂脈の理解は、ユーザーや他のエージェントとの会話履歴、ドメイン知識など⻑い⽂脈を忘れない能⼒ です。 • 私は誰なのか • 何をするのか • 何のためにするのか • 何が使えるのか • ⾃分のタスク前後で何があるのか • 知るべき事前知識は何かあるか • 制約条件はあるか • 今までの会話内容はあるか • 過去の類似タスクの結果はあるか 説明が多くルールベースに近い→学習で省略できるのか

Slide 22

Slide 22 text

⻑い⽂脈の理解に関する論⽂ #1 ⼈間が本を読むように⻑⽂をページに分け記憶管理 22 ▍ A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts l LLMに本のような⻑い⽂書を与えるには制約がある l ⻑い⽂書をページに分割し、各ページを要約メモリに変換したうえで、どのページを参照するかページ番号を⽣成し検索するエー ジェントの提案 ⻑い⽂章を要約にして渡し、ページ番 号を⽣成させる

Slide 23

Slide 23 text

計画⼒ Planning

Slide 24

Slide 24 text

計画⼒とは 24 ▍ 計画⼒は⽬標を達成するまでの実⾏可能な⼿順をステップレベルで定義する能⼒です。 ・様々な制約条件のもと計画を⽴てられるかが重要です。 ・旅⾏計画では、⾦額制約や移動経路やホテル要望などを考える必要があります。 ・将来の不確実性やリスクを考慮し、計画を⽴てることも求められます。 解 計画⼒は解に向けてサブタスクを積み上げることが求められる プロンプトで計画を⽀える必要あり(タスクにチューニングさせる) LLMの知識だけでは積み上がらないこともある 同じようなことを⾔い換えているだけ

Slide 25

Slide 25 text

計画⼒(Planning)に関する論⽂⼀覧 25 ICLR 2024 Workshop on LLM Agents l Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models l Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models l REX: Rapid Exploration and eXploitation for AI Agents l Agent Lumos: Unified and Modular Training for Open-Source Language Agents l TravelPlanner: A Benchmark for Real-World Planning with Language Agents ICLR 2024 l LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents

Slide 26

Slide 26 text

計画⼒(Planning)に関する論⽂ #1 モンテカルロ⽊探索を計画⼒に活かす 26 ▍ Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models l 複雑な意思決定タスクで複数の推論パスを考慮した計画や⾏動が困難 l MCTSを⽤い複数の可能性を探索しながら解決策を⾒つける計画と⾏動と⾃⼰修正を統合した⼿法の提案 計算コストが⾼い シミュレーション回数と⼦ノードの数に依存

Slide 27

Slide 27 text

計画⼒(Planning)に関する論⽂ #2 将来得る情報量が増えるように⾏動計画 27 ▍ Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models l トラブル対応や医療診断のタスクで必要な情報が最初から与えられないとき、エージェントは積極的に情報を探求したり、効果的な 質問をするといった可能性の不確実性を考慮した振る舞いができないことが課題 l 複数の対話シミュレーションを⾏い、将来的に累積情報量が⾼くなる質問を選択し対話する⼿法を提案 どんな返答が来るかシミュレーション クローズド質問が肝かな

Slide 28

Slide 28 text

計画⼒(Planning)に関する論⽂ #3 探索と活⽤の評価による⾏動計画の改善 28 ▍ REX: Rapid Exploration and eXploitation for AI Agents l エージェントが適切な⾏動をするには具体的な事前説明が必要で、試⾏錯誤のプロセスを体系的に活⽤できない l REXはモンテカルロ⽊探索(MCTS)とCoTを組み合わせた⼿法でエージェントの試⾏錯誤による適応を可能にする 1回の⽣成で中間ステップと 最終的な回答を⽣成 試⾏した全ての状態と⾏動の組に対 する期待報酬をプロンプトに与える ため、トークン消費が激しい

Slide 29

Slide 29 text

計画⼒(Planning)に関する論⽂ #4 サブタスク分解と実⾏計画を⽴てる機能を微調整 29 ▍ Agent Lumos: Unified and Modular Training for Open-Source Language Agents l Closed LLMはAPI課⾦で⾼コスト、モデルが⾮公開で透明性がない。さらに⻑期的な計画と対話型の推論は難しい l オープンソースなモデルを使い、タスクをサブタスクに分割する機能、サブタスクの実⾏計画を⽴てる機能をそれぞれ別モジュール として微調整する⼿法の提案 オープンモデルで 役割ごとに微調整

Slide 30

Slide 30 text

計画⼒(Planning)に関する論⽂ #5 制約条件のある旅⾏計画ができるのか 30 ▍ TravelPlanner: A Benchmark for Real-World Planning with Language Agents l LLMエージェントは、旅⾏計画においてユーザーのニーズ(予算、部屋タイプなど)と常識的な制約(都市移動経路、多様なレスト ランとアクティビティ、交通⼿段など)を考慮しながら計画を⽴てるのが難しい l 旅⾏計画に焦点を当てた新しい計画ベンチマークを提案。GPT-4はわずか0.6%の成功率で低い ユーザーのニーズに合う 旅⾏計画を⽴てられるのか

Slide 31

Slide 31 text

計画⼒(Planning)に関する論⽂ #6 家事タスク計画⼒を評価 31 ▍ LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents l 家事サービスエージェント向けタスク計画の⾃動評価ベンチマーク l 物を拾って指定の場所に置く、積み重ねて置くなどのタスクで、プランナーは⾔語指⽰に従い⾏動を計画し、シミュレータが実⾏ 計画を⽴てて、シミュレータで実⾏

Slide 32

Slide 32 text

推論(Reasoning) に関する論⽂⼀覧 32 ICLR 2024 l Lemur: Harmonizing Natural Language and Code for Language Agents (spotlight) ICLR 2024 Workshop on LLM Agents l If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents l LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models l Towards Unified Alignment Between Agents, Humans, and Environment

Slide 33

Slide 33 text

推論(Reasoning) に関する論⽂ #1 オープンソースでLLMを作成しエージェントで評価 33 ▍ Lemur: Harmonizing Natural Language and Code for Language Agents (spotlight) l 既存のオープンソースモデルは、⾃然⾔語またはコード⽣成のどちらかに特化しており、両⽅のタスクで⾼性能を発揮できていない l Llama2-70Bをコード中⼼のコーパスで事前学習し、300Kの対話データで微調整したモデルをエージェントタスクで評価 エージェントの評価項⽬

Slide 34

Slide 34 text

推論(Reasoning) に関する論⽂ #2 コードの事前学習がエージェントに与える影響 34 ▍ If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents l コードの事前学習がLLMに与える影響と、それがエージェントに及ぼす効果が明らかでないため、様々な条件で分析 l 結果、LLMのコーディング⼒が強化され、複雑な推論能⼒が向上し、Program-of-thought(PoT)がCoTを上回り、構造化された知識を より効果的に捉え、APIやコード⽣成を通してツール利⽤可能になることを⽰した コードをLLMの学習に使う代表的なメリット3選

Slide 35

Slide 35 text

推論(Reasoning) に関する論⽂ #3 推論中間ステップの評価 35 ▍ LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models l 推論チェーンの効果的な評価⽅法の⽋如と、既存の推論アルゴリズムの体系的な分析の⽋如が課題 l 推論チェーンが論理的に正しいステップを踏んでいるか、計算ミスや情報の誤⽤がないかなど、中間ステップの正確性を評価する RICE(ReasonIng Chain Evaluation)メトリックを提案 推論チェーンの評価⼿続き LLMに間違いを指摘させ、次の評価に繋げる

Slide 36

Slide 36 text

推論(Reasoning) に関する論⽂ #4 エージェントのアライメントに必要なこと 36 ▍ Towards Unified Alignment Between Agents, Humans, and Environment l エージェントが複雑でリアルな環境で効果的に機能するためにエージェントのアライメントの原則を提案 l エージェントは⼈間の意図を正しく認識すること、エージェントは環境の動作法則に対する意識を⾼めること、時間や予算やバッテ リーなどエージェントの⾃⼰制約を管理すること 経験と推論から⼈間と調整 環境との接地 制約に対する適応戦略

Slide 37

Slide 37 text

⾃⼰修正⼒ Self-Correction

Slide 38

Slide 38 text

⾃⼰修正⼒とは 38 ▍ ⾃⼰修正⼒はタスクを遂⾏できたか評価し、次の⾏動を考える能⼒です。 ・APIの呼び出し失敗理由から次の呼び出しを考える(ツールの再実⾏) ・計画実⾏から得られた情報から計画を⾒直す(再計画) ・Code Interpreterは⾃⼰修正⼒を作り込んでいる 評価 フィードバック 修正 計画実⾏ 計画 評価のルールを⾔語化すること 厳しい評価や無駄なループに⼊ることあり 諦めさせることも重要 評価理由や失敗原因などを⽣成させる 精度の⾼いモデルを使うことを推奨 何を直すか考え実⾏する • 計画の問題か • ツールの選択ミスか • ツールの使い⽅ミスか • 誤った思考に陥っているか https://github.com/teacherpeterpan/self-correction-llm-papers

Slide 39

Slide 39 text

⾃⼰修正⼒(Self-Correction)に関する論⽂⼀覧 39 ICLR 2024 Workshop on LLM Agents l ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent l The ART of LLM Refinement: Ask, Refine, and Trust

Slide 40

Slide 40 text

⾃⼰修正⼒(Self-Correction) に関する論⽂ #1 質の⾼い軌跡をもとに⾃⼰学習ループ 40 ▍ ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent l エージェントは複数の情報源から検索するだけでなく、それらの情報を組み合わせて新しい結論を導き出す能⼒が求められる l ReActのように思考と⾏動を交互におこない軌跡を作り、ReSTのように軌跡を評価し⾃⼰学習する枠組みを組み合わせた⼿法の提案 ⾃⼰改善を繰り返すと精度が改善する ただし、その分だけ推論と学習に時間とコストがかかる

Slide 41

Slide 41 text

⾃⼰修正⼒(Self-Correction) に関する論⽂ #2 ⾃問⾃答による⾃⼰修正ステップ 41 ▍ The ART of LLM Refinement: Ask, Refine, and Trust l LLMエージェントは⾃⾝の⽣成結果に対して、エラーを特定し修正するのが難しい l LLMが⾃⾝の出⼒を修正する過程を、修正が必要か⾃問⾃答し(Ask)、修正をおこない(Refine)、そして修正前後を評価する(Trust) 3ステップを実施する⼿法の提案

Slide 42

Slide 42 text

ツール利⽤⼒ Tool Usage

Slide 43

Slide 43 text

ツール利⽤⼒とは 43 ▍ ツールはLLM の外部で動作するコンピュータプログラムの関数インターフェースです。 l LLM はツールを使うために関数呼び出しと⼊⼒引数を⽣成します。 l ツールの種類は環境から情報を収集する知覚、環境の状態を更新する⾏動と計算に⼤別されます。 Ø SQLクエリや検索エンジンは計算であり知覚でもあります。 関数インターフェース • 関数名 • 引数の型と意味 • 戻り値の型と意味 • 関数の動作概要(簡単な説明) 類似するツールから正しく選べる? 複数のツールを組み合わせられる? 検索 情報抽出 エクセル更新 製品仕様書検索 or ヘルプサイト検索 https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf 繰り返す共通パターンは スキルと呼ぶ

Slide 44

Slide 44 text

ツール利⽤⼒(Tool Usage)に関する論⽂⼀覧 44 ICLR 2024 l ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving ICLR 2024 Workshop on LLM Agents l Executable Code Actions Elicit Better LLM Agents (oral) l TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems l MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use l EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction

Slide 45

Slide 45 text

ツール利⽤⼒(Tool Usage)に関する論⽂ #1 推論とコーディングによる数学問題解決 45 ▍ ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving l ⾃然⾔語による推論だけでは計算や記号操作、アルゴリズム処理などの数学的問題が難しい l 計画とツール利⽤を組み合わせて軌跡データを集め、⼩さなモデルで微調整しエージェント的に解決する⼿法を提案 推論とコーディングを繰り返す

Slide 46

Slide 46 text

ツール利⽤⼒(Tool Usage)に関する論⽂ #2 ツールはJSONやテキスト形式よりコーディングの⽅がいい 46 ▍ Executable Code Actions Elicit Better LLM Agents (oral) l エージェントがJSONやテキスト形式で⾏動を⽣成する場合、複数のツールを組み合わせ⼀つの⾏動にする能⼒に制限がある l エージェントが実⾏可能なPythonコードを⽣成し実⾏することで、複数のツールをまとめられ、精度も優ることを⽰す text/JsonよりCodeの⽅が優れている点

Slide 47

Slide 47 text

ツール利⽤⼒(Tool Usage)に関する論⽂ #3 ツール利⽤の課題を克服する微調整 47 ▍ TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems l 現実のシステムは多数のAPIがあり、プロンプトに全てのAPI説明⽂を与えることは不可能、正しいサブタスクの順序やAPI呼び出しの 順序を計画することが難しい、似た機能のAPI区別が困難 l Fine Tuningでタスク計画とAPI呼び出しを強化、⽂脈内学習のデモ選択を通して似たAPIの区別をつけるフレームワークを提案 タスクに関連のあるツール呼び出 しとデモ選択をプロンプトに与え、 計画からサブタスクの実⾏

Slide 48

Slide 48 text

ツール利⽤⼒(Tool Usage)に関する論⽂ #4 ツール利⽤に関するベンチマーク 48 ▍ MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use l エージェントがツールの使⽤を判断し、利⽤可能なツールの中から最も適切なものを選択する能⼒があるのか l ツール利⽤に関するベンチマークを作成(似た道具からツール選択、特定のシナリオ、複数ツール選択、無理に選ばないを評価) ツール利⽤のパターンに対して、 何が⼀番難しいのか評価

Slide 49

Slide 49 text

ツール利⽤⼒(Tool Usage)に関する論⽂ #5 ツール利⽤のドキュメントを標準化 49 ▍ EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction l 様々なAPIプラットフォームのツールドキュメントに関する⼀貫性の⽋如、冗⻑性、不完全性が課題 l 各ツールドキュメントを分析し、必要な情報のみを抽出して標準化されたツール指⽰⽂を作成 ツール説明標準化⽤のプロンプト

Slide 50

Slide 50 text

微調整 Fine Tuning

Slide 51

Slide 51 text

エージェントのための微調整とは 51 ▍ エージェントのための微調整は以下の⽬的でおこなわれます。 ・ドメインを絞り、APIのみ提供するクローズドモデル(GPT-4など)の性能に近づけるため ・計画や道具利⽤など特定の役割に特化させるため データセットの作成が課題 エージェントの軌跡データを集めるコストが⾼い ・質の⾼い軌跡とは何か ・失敗軌跡から学べないか ・Claude, GPT4, Mistral のAPIの仕様の違いは吸収できるか ・他の環境で得た軌跡は活かせるか ・成功軌跡以上の難易度のタスクを解けるのか 軌跡データの収集

Slide 52

Slide 52 text

微調整に関する論⽂⼀覧 52 ICLR 2024 Workshop on LLM Agents l AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning l AUTOACT: Automatic Agent Learning from Scratch via Self-Planning

Slide 53

Slide 53 text

微調整(Fine-Tuning )に関する論⽂ #1 様々な環境で集めたエージェント軌跡の標準化 53 ▍ AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning l 様々なタスクや環境で集められたエージェントの軌跡はフローに統⼀性がなく、他組織の再利⽤が難しい l 異なる形式や構造を持つエージェントの軌跡データを⼀貫したフォーマットに変換し、LLM評価でフィルタリングをおこない、⾼品質 な訓練データを集めるワークフローを提案 様々な環境で集めた軌跡の標準化

Slide 54

Slide 54 text

微調整(Fine-Tuning )に関する論⽂ #2 ⼈⼯的に軌跡データを作り役割ごとに学習 54 ▍ AUTOACT: Automatic Agent Learning from Scratch via Self-Planning l エージェントの計画と⾏動を特化型に学習するには軌跡データが⼤量に必要で、全てを1つのエージェントに強いる精度劣化が課題 l タスクの詳細とツールから軌跡データを⼈⼯的に作成し、計画、⾏動、振り返りの役割ごとにエージェントを学習させる⼿法の提案 3つのエージェントを使う 軌跡獲得が クローズドモデルに依存しない

Slide 55

Slide 55 text

評価とベンチマーク Benchmark

Slide 56

Slide 56 text

LLMエージェントの評価とは 56 ▍ LLMエージェントの性能評価は実務でも⾮常に重要です。 l 全体評価:タスク成功率、タスク安定率、タスク進捗率 l ステップ評価:計画⼒の評価、サブタスクの評価、道具選択⼒の評価、⾃⼰評価の評価 l ⾮機能評価:消費トークン数、推論時間、⾦額 計画⼒の評価は⼈間が評価 ・タスク初学者がその計画を渡されて成功できると思うか ⾃⼰評価の評価観点を⼈間の視座に合わせる ・余計な配慮を減らし、事実に基づいて答えれているか、次のアクション案が妥当か タスクの安定率があがらないと”星に願いを”になる 安定率が低い

Slide 57

Slide 57 text

評価・ベンチマークに関する論⽂⼀覧 57 ICLR 2024 l Identifying the Risks of LM Agents with an LM-Emulated Sandbox (spotlight) l SmartPlay : A Benchmark for LLMs as Intelligent Agents l AgentBench: Evaluating LLMs as Agents ICLR 2024 Workshop on LLM Agents l R-Judge: Benchmarking Safety Risk Awareness for LLM Agents l AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents l Large Language Model Evaluation Via Multi AI Agents: Preliminary results l LLF-Bench: Benchmark for Interactive Learning from Language Feedback l TaskBench: Benchmarking Large Language Models for Task Automation

Slide 58

Slide 58 text

評価・ベンチマークに関する論⽂ #1 リスクの評価・ベンチマーク #1 58 ▍ Identifying the Risks of LM Agents with an LM-Emulated Sandbox (spotlight) l エージェントが様々なシナリオに対してどのように動作するか、その過程で⽣じるリスクを評価するエミュレータとベンチマーク l ユーザー指⽰の不明瞭さを適切に処理できない場合、データの損失、システムの不安定化、⽣命に関わる危険など、重⼤な結果をも たらす可能性がある よくある失敗例 事実無根の仮定や捏造、指⽰の誤解、誤った 実⾏、リスクの無視 ⾚⾊:リスクのある⾏動

Slide 59

Slide 59 text

評価・ベンチマークに関する論⽂ #2 リスクの評価・ベンチマーク #2 59 ▍ R-Judge: Benchmarking Safety Risk Awareness for LLM Agents l エージェントがインタラクティブな環境でリスク判断・評価の能⼒があるか測るベンチマーク l プライバシーの漏洩、セキュリティ、データ損失、財務損失、違法⾏為、健康、倫理と道徳、偏⾒と不快感のリスクタイプを含む エージェントの⾏動履歴からリスクを評価し、 教師データと⽐較

Slide 60

Slide 60 text

評価・ベンチマークに関する論⽂ #3 汎⽤性の評価・ベンチマーク #1 60 ▍ SmartPlay : A Benchmark for LLMs as Intelligent Agents l 次世代の⾃動化に向けてエージェントに必要な9つの能⼒をさまざまなゲームを通じて評価するベンチマーク l 評価項⽬は、⻑いテキストの理解、複数ステップの論理的推論、指⽰/ルールの従順、⻑期計画、⼀般化、確率の理解、インタラク ションから環境の理解、エラー/ミスの処理、2D/3D環境の理解 実験設定とエージェントに必要な9つの能⼒の性能結果

Slide 61

Slide 61 text

評価・ベンチマークに関する論⽂ #4 汎⽤性の評価・ベンチマーク #2 61 ▍ AgentBench: Evaluating LLMs as Agents l 対話環境のエージェントとして推論能⼒と意思決定能⼒を評価するベンチマーク l ウェブショッピングタスクで特定の⽬標を達成する能⼒、ゲームタスクで、戦略的思考、指⽰に従う能⼒、⼀般的な常識⼒を評価し、 OS、データベース、KGに関するタスクで、コーディング能⼒とシステムとのインタラクション能⼒をそれぞれ評価 8つの環境で異なるモデルで性能を調査

Slide 62

Slide 62 text

評価・ベンチマークに関する論⽂ #5 汎⽤性の評価・ベンチマーク #3 62 ▍ AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents l エージェントの汎⽤性をタスク進捗率を含め、多⾯的に評価するベンチマーク l ⾝体性、ゲーム、ウェブ、ツールエージェントを含む9つの異なるタイプのタスクで1013の環境の中で複数の能⼒を評価 Analysisの分析観点が参考になる

Slide 63

Slide 63 text

評価・ベンチマークに関する論⽂ #6 コード⽣成の評価・ベンチマーク 63 ▍ Large Language Model Evaluation Via Multi AI Agents: Preliminary results l エージェントが実際のソフトウェア開発タスクで効果的に機能するかを定量的に測定するベンチマーク l HumanEvalは、コード⽣成の正確性、計算効率などを評価し、MBPPのベンチマークでは広範なタスクを通じてモデルの汎⽤性を評 価 コード⽣成タスクではGPT-3.5 Turboが最も良い結果に

Slide 64

Slide 64 text

評価・ベンチマークに関する論⽂ #7 環境との相互作⽤による学習能⼒の評価・ベンチマーク 64 ▍ LLF-Bench: Benchmark for Interactive Learning from Language Feedback l エージェントが⾃然⾔語フィードバックからインタラクティブに学習する能⼒を評価するベンチマーク l ⾃然⾔語指⽰の理解、様々なフィードバックからの改善能⼒、タスクに対するロバスト性や適応性を評価 RLと違い、報酬のスカラー値でなくテキスト フィードバックが返ってくる

Slide 65

Slide 65 text

評価・ベンチマークに関する論⽂ #8 タスク⾃動化の評価・ベンチマーク 65 ▍ TaskBench: Benchmarking Large Language Models for Task Automation l エージェントのタスク⾃動化能⼒を評価するベンチマーク l タスク分解、ツール呼び出し、ツールパラメータ⽣成能⼒をHugging Face、Multimedia、Daily Life APIsからタスクを作成し評価 ベンチマークなのに Tool利⽤予測グラフも作っている…

Slide 66

Slide 66 text

エージェント応⽤ Agentic AI Systems Multi-Agent Systems Embodied Agents Computer Controlled Agents

Slide 67

Slide 67 text

67 LLMエージェントの応⽤4種類 研究動向から4パターンに分けられます。組み合わせもあります。 ▍ Agentic AI Systems ・エージェントが主体的に業務を代替するシステム ▍ Multi-Agent Systems ・複数のエージェントが協⼒/競争するシステム ▍ Embodied Agents ・⽬標に向けて環境と相互作⽤する⾝体のあるエージェント ▍ Computer Controlled Agents ・コンピュータ上のタスクを⾃動化するエージェント 業務の⾃動化 送信をクリック

Slide 68

Slide 68 text

業務代替タスク Agentic AI Systems

Slide 69

Slide 69 text

69 エージェントの主体的な⾏動による業務代替システム(Agentic AI Systems) ▍ ⾃然⾔語で指⽰を出し、エージェントがコード実⾏やREST APIを駆使する業務⾃動化システム ▍ 論⽂で題材にされる業務 ・データ分析 ・レポート作成 ・雑務 ・⾳楽や動画などコンテンツ作成 ・ソフトウェア開発 ・ヘルプデスク ・都市計画 ・ユーザーリサーチ ・旅⾏代理店 ソフトウェア開発業務の代替サービス • Open Interpreter, Devin, MetaGPTが有名 • Copilot は⽀援サービスの位置付け MetaGPTの例 https://www.openinterpreter.com/ https://www.cognition-labs.com/introducing-devin https://github.com/geekan/MetaGPT/tree/main

Slide 70

Slide 70 text

70 Agentic AI Systems に関する論⽂⼀覧 ICLR 2024 l MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework(oral) ICLR 2024 Workshop on LLM Agents l MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning l EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records l Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow (oral) l Agents: An Open-source Framework for Autonomous Language Agents l OpenAgents: An Open Platform for Language Agents in the Wild l WavCraft: Audio Editing and Generation with Natural Language Prompts l SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code l Chain-of-Experts: When LLMs Meet Complex Operations Research Problems l Empowering Autonomous Driving with Large Language Models: A Safety Perspective l Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science

Slide 71

Slide 71 text

71 Agentic AI Systems に関する論⽂ #1 ソフトウェア開発に関するエージェント ▍ MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework(oral) l エージェント間の役割分担と標準運⽤⼿順(SOP)を定め、協調することでソフトウェア開発の代替を⽬指す l 複雑なタスクをサブタスクに分解し、順番に担当者エージェントが作業をこなし次に繋げて作業をする⼿法の提案

Slide 72

Slide 72 text

72 Agentic AI Systems に関する論⽂ #2 医療業務に関するエージェント #1 ▍ MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning l 医学とヘルスケアの分野において、 LLMに存在する医学的専⾨知識を掘り下げ、推論能⼒を向上させることが課題 l 複数の専⾨家エージェントが個々の分析をおこない、合意が得られるまで議論を繰り返し、最終的な回答をするマルチエージェント なフレームワークを提案 回答までのフレームワーク 繰り返し議論をおこなう

Slide 73

Slide 73 text

73 Agentic AI Systems に関する論⽂ #3 医療業務に関するエージェント #2 ▍ EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records l 臨床研究では、患者の医療履歴の電⼦健康記録(EHR)システムを利⽤するのにデータエンジニアの助けが必要だった l HERを扱う質問応答のためにコード⽣成とDB操作を駆使し計画を⽴てるエージェントを提案 回答までのワークフロー Pythonコード内でDBを駆使して 回答を計算

Slide 74

Slide 74 text

74 Agentic AI Systems に関する論⽂ #4 データ分析に関するエージェント #1 ▍ Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow (oral) l どの業界でも毎⽇⼤量の異種データが⽣成され、効率的に管理、分析し、可視化することは難しい l Data-Copilotは、異なるデータソースを⼀元管理でき、分析・可視化の⾃動化をおこなう タスク⽤のインターフェー スをエージェントが作成

Slide 75

Slide 75 text

75 Agentic AI Systems に関する論⽂ #5 汎⽤的なエージェント #1 ▍ Agents: An Open-source Framework for Autonomous Language Agents l 計画、記憶、ツール使⽤、マルチエージェント通信などをサポートするオープンソースのライブラリAGENTSを開発 l 専⾨知識のないユーザーでも、少ないコーディングでエージェントを構築、テスト、デプロイができるようになる SOPは複数エージェントの 協調フローを定義するグラフ

Slide 76

Slide 76 text

76 Agentic AI Systems に関する論⽂ #6 汎⽤的なエージェント #2 ▍ OpenAgents: An Open Platform for Language Agents in the Wild l 従来のエージェント開発がコンソール操作など⽞⼈向けで誰でもエージェントと対話できるようにする必要がある l データ分析、ツール利⽤、ウェブブラウジングの3つの典型的なアプリケーション⽤のエージェントを構築

Slide 77

Slide 77 text

77 Agentic AI Systems に関する論⽂ #7 ⾳楽編集に関するエージェント ▍ WavCraft: Audio Editing and Generation with Natural Language Prompts l 従来のLLMエージェントは⾳声クリップを与えて駆動することができなかった l ユーザーの指⽰と⼊⼒⾳声に基づいて、LLMがPythonスクリプトを⽣成し、⾳声コンテンツの編集をおこなう ツール⼀覧

Slide 78

Slide 78 text

78 Agentic AI Systems に関する論⽂ #8 3Dモデリング業務に関するエージェント ▍ SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code l これまで時間とコストがかかっていた3Dシーン作成のプロセス⾃動化と創造性の向上が求められる l ⾃然⾔語の指⽰をBlenderで実⾏可能なPythonスクリプトに変換し、最⼤100個の3Dアセットを含む複雑なシーンをレンダリングする エージェントを提案

Slide 79

Slide 79 text

79 Agentic AI Systems に関する論⽂ #9 OR業務に関するエージェント ▍ Chain-of-Experts: When LLMs Meet Complex Operations Research Problems l オペレーションズリサーチ(OR)の問題解決にLLMを使⽤する⽅法では、暗黙的な制約やドメイン知識の理解が必要で、推論が⻑く なり精度の悪化に繋がっていた。 l ORで必要な知識を役割ごとにエージェントで⽤意し、協⼒して複雑な問題を解決するChain-of-Experts (CoE) を提案 “リードタイムがゼロ” という⾔葉の意味と 変数との関係性をLLMが理解する必要がある。

Slide 80

Slide 80 text

80 Agentic AI Systems に関する論⽂ #10 ⾃動運転に関するエージェント ▍ Empowering Autonomous Driving with Large Language Models: A Safety Perspective l ロングテールな運転シナリオにおける安全性の課題に対処するために、LLMの常識知識と推論能⼒を活⽤する l LLMを運転の意思決定者として利⽤し、⾏動のシミュレーション結果をLLMに返し意思決定の質を⾼めるフレームワークを提案 観測からLLMが⾏動を予測し、実際にシミュレー ションをおこない、検証項⽬をパスするか確認 する

Slide 81

Slide 81 text

81 Agentic AI Systems に関する論⽂ #11 研究業務に関するエージェント ▍ Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science l 様々な科学分野での実験の⾃動化や科学的発⾒の促進をエージェントで取り組むには安全性の課題がある l 責任あるエージェント開発の提唱(特に⼈間とエージェントの規制、エージェントのアライメント、環境フィードバックに焦点を当 てる) 科学エージェントの構成と制限

Slide 82

Slide 82 text

マルチエージェント Multi-Agent Systems 会話・⾏動シミュレーション コミニケーション戦略によるタスク解決 82

Slide 83

Slide 83 text

83 マルチエージェントシステム(Multi-Agent Systems) ▍ 複数の異なる役割のエージェントが協⼒/競争するシステム ▍ 会話・⾏動シミュレーション プロフィールに追従することが求められる ・推薦後のユーザーの⼼理・⾏動変化 ・交渉 ▍ コミニケーション戦略によるタスク解決 タスク簡易化のため各エージェントに責務を分ける ・ソフトウェア開発 ・コンサルテーション ・質問応答 アンケートなどからプロフィールを模倣しシミュレーション 対話的推薦 雑談するか、情報引き出すか 推薦するかで異なる役割 A Multi-Agent Conversational Recommender System When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm

Slide 84

Slide 84 text

84 会話・⾏動シミュレーションに関する論⽂⼀覧 ICLR2024 l SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents(spotlight) ICLR 2024 Workshop on LLM Agents l MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration l LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games l Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View (oral) l Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation l Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast l The Wisdom of Partisan Crowds: Comparing Collective Intelligence in Humans and LLM-based Agents

Slide 85

Slide 85 text

85 会話・⾏動シミュレーションに関する論⽂ #1 マルチエージェントの社会性を評価 ▍ SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents(spotlight) l SOTOPIAは、エージェントが⽇常の社会的⽬標の達成能⼒を獲得しているか評価するために開発されたシミュレータ l エージェントは様々なシナリオでキャラを演じながら、交渉、取引、説得の社会的⽬標で、性能を⽬標達成、信憑性、知識獲得、秘 密の保持、関係性の維持、社会規則の遵守、財務・物の利益の観点で、⼈間の判断の代理が可能か評価

Slide 86

Slide 86 text

86 会話・⾏動シミュレーションに関する論⽂ #2 マルチエージェントの能⼒評価 ▍ MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration l マルチエージェント環境で判断⼒、推論⼒、欺瞞、⾃⼰認識、協⼒、調整、合理性の7つの能⼒を定量的に評価するベンチマーク l 社会的推測ゲームやゲーム理論シナリオで評価し、ロール理解の⾃⼰認識、納得のいく解決策を提案する調整⼒、状況を論理的に分 析し結果を予測する推論⼒が低い シナリオごとに 評価項⽬が異なる

Slide 87

Slide 87 text

87 会話・⾏動シミュレーションに関する論⽂ #3 交渉ゲームによるエージェント評価 ▍ LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games l 複数の議題(価格、納期、サービスなど)を含む交渉ゲームで妥協と交渉をおこなうマルチエージェントによるLLMの評価 l エージェントは3要素を評価。各提案のスコアを計算し受け⼊れるか算術⼒と推論⼒、⾃⾝と他者の利益を最⼤化する提案を⽣成す る探索と計画⼒、他者の⽬標を理解し、それに基づいて⾏動する共感と⼼の理論

Slide 88

Slide 88 text

88 会話・⾏動シミュレーションに関する論⽂ #4 性格と協調戦略によるマルチエージェントの性能評価 ▍ Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View (oral) l LLMエージェントの協⼒メカニズムを探ることにより、⼈間とAIの相互作⽤の可能性を探る l 個別の特性、思考パターン、協⼒戦略を統合したマルチエージェントがどのように協⼒し、社会⼼理学を反映した⼈間のような社会 ⾏動を⽰すかを評価 異なる性格とその 組み合わせで分析 討論と内省の組みで⽐較

Slide 89

Slide 89 text

89 会話・⾏動シミュレーションに関する論⽂ #5 シミュレーションによる⾃⼰アライメント ▍ Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation l アライメントは外部フィードバックが必要でコストが⾼く、⾃⼰アライメントもルールベースで柔軟性と適応性に課題がある l MATRIXというマルチエージェントシミュレータを⽤い、LLMが社会的規範を考慮しながら⾃⼰アライメントを⾏う⼿法を提案 提案⼿法のワークフロー 下が詳細化

Slide 90

Slide 90 text

90 会話・⾏動シミュレーションに関する論⽂ #6 会話による有害な振る舞いの感染 ▍ Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast l エージェント同⼠が会話を通じて敵対的な画像やプロンプトによって感染し、不適切な振る舞いを⽰す感染性ジェイルブレイクを⽰す l 単⼀のエージェントに敵対的な画像を注⼊するだけで、感染が指数関数的に迅速に広がり、全エージェントが有害な振る舞いを⽰す ⼀体が感染すると会話したものから徐々に感染し 27~31ラウンドには100万体が感染

Slide 91

Slide 91 text

91 会話・⾏動シミュレーションに関する論⽂ #7 集団討論が⼈間と同様の現象が起きるか ▍ The Wisdom of Partisan Crowds: Comparing Collective Intelligence in Humans and LLM-based Agents l ⼈の集団が情報を共有し、議論する中で、個々⼈の偏⾒や先⼊観を超えたより正確な⾒解に収束していく「群衆の知恵」の現象がLLM エージェント達にも⾒られた l 論⽂では⺠主党員または共和党員の役割を演じるエージェント達が正確な信念に収束するか評価

Slide 92

Slide 92 text

92 コミニケーション戦略によるタスク解決に関する論⽂⼀覧 ICLR2024 l AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors l ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate ICLR 2024 Workshop on LLM Agents l AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (oral) l Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration l BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents l EcoAssistant: Using LLM Assistant More Affordably and Accurately l Decision-Oriented Dialogue for Human-AI Collaboration l Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach

Slide 93

Slide 93 text

93 コミニケーション戦略によるタスク解決に関する論⽂ #1 役割分担と議論で性能向上 ▍ AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors l 単⼀エージェントの推論⼒、コーディング能⼒、ツール利⽤⼒の限界をマルチエージェント化することで性能向上を⽬指す l AgentVerseフレームワークは複数のエージェントが役割分担と議論を重ねることで、単⼀エージェントやCoTと⽐較して性能向上 ラウンドごと担当者が変わり、 仕上がっていく

Slide 94

Slide 94 text

94 コミニケーション戦略によるタスク解決に関する論⽂ #2 役割分担と議論でテキスト⽣成の評価 ▍ ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate l ChatEvalは、複数のLLMエージェントが協⼒することで、⼈間の評価プロセスを模倣したテキスト⽣成の⾃動評価システム l 異なるエージェントの情報共有⽅法、議論の進め⽅と役割の違いがどのように評価の品質に影響を与えるか分析 複数⼈で議論して評価

Slide 95

Slide 95 text

95 コミニケーション戦略によるタスク解決に関する論⽂ #3 マルチエージェント開発フレームワーク ▍ AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (oral) l 開発者がLLMを使⽤してマルチエージェントアプリケーションを構築できるオープンソースフレームワーク l 開発コードの削減、エラー処理などカスタマイズの負担軽減、さらに動的なマルチエージェントの会話パターンの実装が容易になる

Slide 96

Slide 96 text

96 コミニケーション戦略によるタスク解決に関する論⽂ #4 異なるコミニケーション⽅法による推論の向上 ▍ Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration l Corexは複数のエージェントが協⼒することで推論の質と効率を向上させる戦略を提案 l CorexはDiscuss、Review、Retrieveの3つのモードを⽤いて箱の外で考えることを促し、エージェント間の協⼒を通じて問題解決

Slide 97

Slide 97 text

97 コミニケーション戦略によるタスク解決に関する論⽂ #5 エージェントアーキテクチャによる精度の違いも評価 ▍ BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents l モデル違いでPlanReActなど様々なエージェントアーキテクチャの性能を評価するエージェントベンチマーク l 複数の労働エージェントを効果的にコントローラが統合し協調させるアーキテクチャBOLAAの提案 Average reward in the WebShop environment. モデルごとも異なるエージェントアーキテクチャで評価

Slide 98

Slide 98 text

98 コミニケーション戦略によるタスク解決に関する論⽂ #6 異なる精度のモデルを使いわけコーディングの精度と効率向上 ▍ EcoAssistant: Using LLM Assistant More Affordably and Accurately l LLMアシスタントが最初から正しいコードを⽣成することは稀であり、実⾏結果に基づいてコードを反復的に洗練させる必要がある l EcoAssistantは低コストと⾼コストのLLMを切り替えながら、過去の成功体験を検索し、GPT-4より成功率で上回り、GPT-4よりコ ストも50%未満で運⽤できることを実証 提案⼿法のワークフロー クエリとコードのペアを取得 モデルの切り替え

Slide 99

Slide 99 text

99 コミニケーション戦略によるタスク解決に関する論⽂ #7 エージェントと⼈間の協⼒による意思決定 ▍ Decision-Oriented Dialogue for Human-AI Collaboration l AIアシスタントが⼈間と効果的に協⼒し、複雑な意思決定(業務割り当て、対話的に旅⾏計画、グループスケジューリング)をする ようになるには3つの課題があることを明らかにした l 課題は、意思決定に必要な情報を効果的に引き出すための⽬標指向の質問をする⾏動の⽋如、幻覚と根拠不⾜、リクエストを無視す る⾮協⼒的な振る舞いがある

Slide 100

Slide 100 text

100 コミニケーション戦略によるタスク解決に関する論⽂ #8 マルチエージェントの集中評価と分散実⾏ ▍ Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach l LLM に基づくMulti-Agent Systems はエージェント数が増えるにつれて、幻覚が起き、トークン消費量も増え課題がある l RLのActer-Criticの考えからActerの同期コストを減らし、Critic側で同期し、複数エージェントが会話する枠組みを⼊れ計画⼒と推論 ⼒を⾼める

Slide 101

Slide 101 text

⾝体のあるエージェント Embodied Agents 101

Slide 102

Slide 102 text

102 ⾝体のあるエージェント (Embodied Agents) ▍ ⽬標に向けて環境と相互作⽤する⾝体のあるエージェント ▍ 仮想世界(Minecraft など)で検証することが多い ▍ ゲーム応⽤ ・⽬的地までナビゲーション ・物の積み⽴てや建設 ・道具の利⽤ ▍ ロボット応⽤ ・協働で家事 ・⼈間とのインタラクション ⼈間や他のエージェントと協⼒して活動 A Survey on Large Language Model-Based Game Agents Building Cooperative Embodied Agents Modularly with Large Language Models

Slide 103

Slide 103 text

103 ⾝体のあるエージェントに関する論⽂⼀覧 ICLR 2024 l Building Cooperative Embodied Agents Modularly with Large Language Models l Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds ICLR 2024 Workshop on LLM Agents l HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory Augmented Language Models l S-Agents: Self-organizing Agents in Open-ended Environments l An Embodied Generalist Agent in 3D World l Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation

Slide 104

Slide 104 text

104 ⾝体のあるエージェントに関する論⽂ #1 マルチモーダルな単独エージェント ▍ Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds l エージェントがテキストの⼊出⼒に依存することは、エージェントが実世界とインタラクションするのに制限 l STEVE-EYEは、マルチモーダルな認識、環境の知識、使うスキルの予測と計画の3つの主要機能を備える

Slide 105

Slide 105 text

105 ⾝体のあるエージェントに関する論⽂ #2 3D認識 エージェント ▍ An Embodied Generalist Agent in 3D World l 障害物を避けつつ最適なルートを⾒つける能⼒、3Dシーン質問応答、3Dの物理的環境を理解する能⼒には限界がある l LEOは3Dの世界でマルチモーダルでマルチタスクをこなすエージェントの提案

Slide 106

Slide 106 text

106 ⾝体のあるエージェントに関する論⽂ #3 複数ドメイン対応 エージェント ▍ HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models l ドメインとタスクにわたって⼀貫した性能を提供する汎⽤的なマルチモーダルエージェントが求められる l ドメイン跨ぎのプロンプトテンプレートと類似サンプルを検索し、未知のドメインでもタスクの精度向上 異なるドメインの履歴を取得

Slide 107

Slide 107 text

107 ⾝体のあるエージェントに関する論⽂ #4 ⼈間とAIとの協調作業 ▍ Building Cooperative Embodied Agents Modularly with Large Language Models l ⾝体のあるエージェントの協調問題に取り組み、計画、コミニケーション、メモリモジュールを持つフレームワークを提案 l ⼈間とエージェントの協働に関する実験を⾏い、エージェントはより多くの信頼を獲得し、効果的に⼈間と協⼒できることを発⾒ ⽚⽅は⼈間でもAIでも可

Slide 108

Slide 108 text

108 ⾝体のあるエージェントに関する論⽂ #5 協調 マルチエージェント #1 ▍ S-Agents: Self-organizing Agents in Open-ended Environments l エージェントが動的に協⼒し、⼈間の介⼊なしにタスクを遂⾏できる⾃⼰組織化エージェントシステム l Minecraft環境で複数のエージェントが異なる資源を同時に収集する資源収集タスクとリーダーエージェントが全体の計画を⽴て、実 ⾏エージェントが具体的な建築作業をする避難所建築タスク

Slide 109

Slide 109 text

109 ⾝体のあるエージェントに関する論⽂ #6 協調 マルチエージェント #2 ▍ Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation l Minecraftのようなオープンワールド環境での複雑なナビゲーションにおけるMASのコミュニケーションとタスク分配が課題 l エージェントのグループをタスクごとに⾃動的に編成し、MARLのように中央計画の分散実⾏なフレームワークを提案 提案⼿法のワークフロー 階層構造になり、タスクごとにチームが組まれる

Slide 110

Slide 110 text

コンピュータ制御型 エージェント Computer Controlled Agents 110 Webエージェント スマホ⽤エージェント コンピュター制御エージェント

Slide 111

Slide 111 text

111 コンピュータ制御エージェント (Computer Controlled Agents) ▍ コンピュータ上のタスクを⾃動化するエージェント ▍ VLMの場合、スクショを与えてマウスやキーボードの操作コマンドを⽣成する ▍ Webサイトのナビゲーション ・ECサイト ・予約・申請サイト ▍ アプリやソフトウェアを対話的に操作 ・Office製品 ・スマホのアプリ ・3D Blender, Photoshop WorkArena: How Capable are Web Agents at Solving Common Knowledge Work Tasks?

Slide 112

Slide 112 text

112 コンピュータ制御エージェントに関する論⽂⼀覧 ICLR 2024 l A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis (oral) l WebArena: A Realistic Web Environment for Building Autonomous Agents ICLR 2024 Workshop on LLM Agents l WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? l GPT-4V(ision) is a Generalist Web Agent, if Grounded l VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks l WebLINX: Real-World Website Navigation with Multi-Turn Dialogue l Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception l SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents l OS-Copilot: Towards Generalist Computer Agents with Self-Improvement l Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

Slide 113

Slide 113 text

113 コンピュータ制御エージェントに関する論⽂ #1 テキストベースなWeb エージェント #1 ▍ A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis (oral) l 現実世界のWebサイトの⾃動化は、オープンドメイン、HTMLドキュメントの⻑さ、 HTML特有の知識の⽋如の課題がある l HTML-T5を⽤いて、テキスト指⽰から計画し、 HTML⽂書を要約し、コード⽣成するWebAgentの提案 サイトごとのトークン数 現実とSimの⽐較

Slide 114

Slide 114 text

114 コンピュータ制御エージェントに関する論⽂ #2 テキストベースなWeb エージェント #2 ▍ WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? l エンタープライズシステムは機能重視のため、UIが複雑になりがち、繰り返しタスクや複雑なプロセスがく効率化が急務 l ServiceNow 上の操作⾃動化タスクのベンチマークを作り、エージェントを評価

Slide 115

Slide 115 text

115 コンピュータ制御エージェントに関する論⽂ #3 マルチモーデルなWeb エージェント ▍ GPT-4V(ision) is a Generalist Web Agent, if Grounded l ウェブサイトのHTML要素やビジュアルを正確に理解し、適切なアクションを⽣成することを困難 l ユーザーの指⽰を解釈し、ウェブページのスクショとHTML構造から適切なHTML要素に対して具体的な操作をおこなう

Slide 116

Slide 116 text

116 コンピュータ制御エージェントに関する論⽂ #4 Webエージェント ベンチマーク #1 ▍ WebArena: A Realistic Web Environment for Building Autonomous Agents l シンプルな環境は、現実世界のタスクの複雑さを⼗分に再現しておらず現実と乖離 l リアルで再現性の⾼い環境( OneStopShop、CMS、reddit、GitLab)を提供するWebArenaを構築

Slide 117

Slide 117 text

117 コンピュータ制御エージェントに関する論⽂ #5 Webエージェント ベンチマーク #2 ▍ VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks l 実世界に近い環境でマルチモーダルエージェントの能⼒を評価するためのベンチマーク l OSClass 、OneStopShop、Redditの3つの異なるウェブ環境で910の現実的なタスクを含む

Slide 118

Slide 118 text

118 コンピュータ制御エージェントに関する論⽂ #6 対話的Webエージェント ベンチマーク ▍ WebLINX: Real-World Website Navigation with Multi-Turn Dialogue l 視覚障害者のサポート、スマートスピーカーの機能として、Webサイトのナビゲーションを会話形式で⾏うエージェントが必要 l 2337件の専⾨家による会話形式のWebナビゲーションと155の実世界のWebサイトを含むWEBLINXというベンチマークを提案

Slide 119

Slide 119 text

119 コンピュータ制御エージェントに関する論⽂ #7 スマホ⽤エージェント #1 ▍ Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception l 既存のMLLMを利⽤したモバイルデバイスエージェントが、画⾯上の操作の正確な位置を特定する能⼒に⽋けている l Mobile-Agentは、画⾯上のテキストやアイコンを識別し、操作タスクを計画し、ステップバイステップでモバイルアプリを操作する アイコン検出

Slide 120

Slide 120 text

120 コンピュータ制御エージェントに関する論⽂ #8 スマホ⽤エージェント #2 ▍ SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents l 従来のHTML を扱うGUIエージェントはiOSやデスクトップアプリケーションで情報を取得することが困難 l SeeClickはスクリーンショットのみを利⽤し、 GUIの要素を特定するGUIグラウンディングは学習する

Slide 121

Slide 121 text

121 コンピュータ制御エージェントに関する論⽂ #9 コンピュータ制御エージェント #1 ▍ OS-Copilot: Towards Generalist Computer Agents with Self-Improvement l 多くのエージェントが特定のソフトウェアやウェブサイトに特化しており、OS全体で幅広く対話する能⼒に⽋けている l LinuxおよびMacOSに対応する⼀般的なコンピュータエージェントを構築するフレームワークを提案

Slide 122

Slide 122 text

122 コンピュータ制御エージェントに関する論⽂ #10 コンピュータ制御エージェント #2 ▍ Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study l 画⾯と⾳声を⼊⼒し、キーボードとマウス操作を出⼒とする、あらゆるコンピュータタスクをマスターできる基盤エージェント⼀般 コンピュータ制御(GCC)として提唱 l ⾃⼰反省、タスク推論、スキルキュレーションを活⽤して、⼀般化能⼒があり⾃⼰改善するエージェントを提案

Slide 123

Slide 123 text

電通総研の宣伝

Slide 124

Slide 124 text

124 電通総研 AIトランスフォーメンションセンター • 各領域のプロが結集し、AIのビジネス応⽤を幅広 い視野で推進するために結成した AIに特化した全社横断チーム • AIモデルを構築するだけではなく、お客様が DX活動の中でたまったデータをビジネス価値 につなげるためデータ活⽤推進 • 外部公演も積極的に実施、AI系の書籍執筆者や Kaggle Masterも在籍 https://aitc.dentsusoken.com/ ■どのような組織? ■チーム構成 お客様のビジネスに合ったAIソリューションをご提案。 AI/データ活⽤戦略から、モデル構築、システム化まで、 ビジネス、エンジニアリング両⾯からビジネスをご⽀援。 • PoC(コンセプト検証)実施 • AI導⼊コンサルティング • AIシステム開発(スクラッチ開発) • AI⼈材育成 社会が求めるソリューションを⾼い開発スキルと最新の研究開発 の成果でAIモデルをプロダクト化。お客様のデータ活⽤を技術⼒ で加速させていく。 • AIソフトウェア開発 • AI技術のビジネス適⽤のための研究開発 • セミナー・学会発表 • 産学連携 • 書籍執筆・AI啓蒙活動 AIコンサルティング AIソリューション開発/最新AI研究 https://aitc.dentsusoken.com//solution.html ■ソリューション

Slide 125

Slide 125 text

125 ⽣成AI活⽤はビジネス競争⼒の源泉! エンタープライズ⽣成AI活⽤ソリューション Know Narrator/ノウナレーター powered by Azure OpenAI Service Know Narrator Insightの画⾯ Know Narrator Chat with Vision /Searchの画⾯ https://aitc.dentsusoken.com/products/knownarrator.html https://www.dentsusoken.com/news/release/2023/1024.html ▍ ⽣成AIの業務活⽤ソリューションを⾃社開発しています

Slide 126

Slide 126 text

126 電通総研のLLMエージェントの検証ステップ ▍ AITCでは、段階的に評価・開発しています。コラムも更新していきます! ▍ ⼀緒に取り組めるビジネス課題があれば業務提携/共同開発を積極的におこなっています。 ゲーム、ロボット、ナビゲーション 情報の登録/作成、サービス連携、 ソフトウェア開発、資料の更新 レポート、旅⾏計画、予定管理 データ分析 QA、推薦、集計、通知 時事情報収集 異なる情報を集約する業務 環境とインタラクションする業務 収集した情報を加⼯する業務

Slide 127

Slide 127 text

127 企業はAIエージェントに対して何を考えるべきか ▍ ⾃社アプリやサービス専⽤のエージェントを考える l ⾃社専⽤のエージェントに何をしてもらうのか l ⾳声対話で予約や登録、閲覧できるか検証するのか l ⾃社サービス情報を熟知できるのか検証するか l 顧客体験の変化を考えるか ▍ 複数サービスを統合利⽤するエージェントを考える l ⾃社アプリ・サービス以外にもアクセスできるエージェントが⽣まれるとどうなるか l ⽣産性は向上するか、顧客体験が向上するか、企業間の協⼒インセンティブはあるか ▍ 業務を代替するエージェントを考える l ⽇常業務は⼀つのサービスに依存することは少ない l 複数のサービスから情報を集める業務をどこまで達成できるか l 既に実証しているRAG検証からエージェントに⽅向転換し、精度検証を進めるべきか

Slide 128

Slide 128 text

⼀緒に挑戦しませんか。