LLMベースの自律型エージェントのサーベイ

岡田領 / Ryo Okadaʢ@anonymousgrabaʣ

アウトライン 2 1. 書誌情報 2. LLMベースの自律型エージェントとは 3. 具体例 4. 共通するアーキテクチャ構造
5. 評価について 6. 課題

書誌情報 3 ２つの文書から抜粋して紹介 w ಈػɿLLMΛ༻͍ͯࣗಈԽΞϓϦέʔγϣϯΈ͍ͨͳ΋ͷΛ࡞Δ্Ͱ"VUP(15౳ͷࣗ཯ܕΤʔδΣϯτͷ֎؍΍՝ ୊ײΛ཈͔͑ͨͬͨ arXiv, submitted on Aug
2023, Revised 7 Sep 2023 Blog post, 2023/6/23 https://lilianweng.github.io/posts/2023-06-23-agent/

LLMベースの自律型エージェントとは 4 概要 • LLMをコントローラとして人間のように意思決定するようなエージェント（like AutoGPT, BabyGPT, …） • アイディア：LLMに記憶やプランニングといった人間の重要な能力を持たせることで人間のように振る舞い，様々
なタスクを行えるのでは？ https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/ • BabyAGI（左図） • OpenAIの自然言語処理能力を使って、目的に基づいて新しいタスクを作成し、Chroma/Weaviate（ベクトルデータベース）を使ってタスクの結果を保存し、コンテキストを取得する • 過去のタスクの結果と事前定義された目的に応じてタスクを作成

Generative Agents 5 Arxiv, submitted on Apr 2023 w ਓͷଜࣾձΛߏங͠ɼूஂߦಈΛγϛϡϨʔγϣϯʢ5IF4JNTΛࢀߟʹͨ͠Ծ૝؀ڥʣ
• メモリストリーム，リフレクション, プランニングの３つのモジュールで複雑なシミュレーションを可能に w ϝϞϦετϦʔϜʹܦݧΛه࿥ɼந৅తͳࢥߟΛϦϑϨΫγϣϯʹΑͬͯ֫ಘ͢Δɽ w ̍೔ͷେ·͔ͳϓϥϯΛܭըˠ࠶ىతʹϓϥϯͷৄࡉΛੜ੒͢Δɽʢϓϥϯχϯάʣ

Generative Agents 6 リフレクションの例 • メモリストリームから100件の過去イベント（例：Klaus Mueller is reading a
book on gentrification, ...）を取得し， LLMに以下プロンプトともに入力． ‒ Given only the information above, what are 3 most salient high-level questions we can answer about the subjects in the statements? • 生成された質問 ‒ What topic is Klaus Mueller passionate about?, … • これらの質問をクエリとし，関連メモリを収集 • そこからLLMでインサイト抽出．(右上プロンプト) • 結果：Klaus Mueller is dedicated to his research on gentrification Reflectionを反映したメモリ構造

MetaGPT 7 Arxiv, submitted on Aug 2023 • SOP（標準作業手順書）に着目し，タスク分解，各専門エージェントが連携してシス
テム開発を行う． • コード生成のための関数を動的に構築する際にエージェントの協力を活用（メタプログラミング） • 基礎コンポーネント：ロール，環境，アクション，ツール，メモリ • Knowledge sharing: エージェント同士が効率的に情報交換 • Encapsulating workflows: サブタスクを適切なエージェントに割当，アウトプットの標準化

MetaGPT 8

• 人間から要求を受け取ると • プロダクトマネージャーが要求分析，実現可能性分析を行う • 次にアーキテクトが技術設計を行う • 次にプロジェクトマネージャは各要件に対応するためのシーケンス図を作成する
• エンジニアがコード開発 • 品質保証（QA）エンジニアがテストを実施する

MetaGPT 10 • ３が最も成功したケース

LLMベースの自律型エージェントシステムのアーキテクチャ 12 共通するアーキテクチャ構造

プロファイル 13 エージェントがコーダー，教師，ドメイン専門家などの特定の役割を担う場合手法説明例手作り（Handcrafting）エージェントのプロファイルを手動で作成 Generative Agents
MetaGPT ChatDev LLMで生成プロファイル生成ルールを用意し，LLMが生成する．データセットアライメント実データセット中の人間に関する情報をプロンプトに整形し，活用する．人口統計データセット（人種/ 民族、性別、年齢、居住州など）に基づいて、GPT-3に役割を割当* *Out of one, many: Using language models to simulate human samples. Political Analysis, 31(3):337–351, 2023.

メモリ 14 環境から知覚した情報を記憶し，将来の行動を促進する． • メモリ構造 ‒ 短期記憶：トランスフォーマーのコンテキストウィンドウ内の情報 ‒ 長期記憶：外部ベクトルデータベース •
フォーマット ‒ 自然言語形式，埋め込みベクトル，データベース，構造化リスト • メモリ操作 ‒ 読み込み，書き出し，反映（リフレクション）

メモリ 15 メモリ構造手法説明例統合メモリ短期記憶のみを再現し，プロンプトへ記憶情報を書き込む． RLP*：話し手と聞き手の状態を保持する会
話エージェント．状態をプロンプトで保持し，短期記憶として機能する．ハイブリッドメモリ短期記憶と長期記憶を明示的にモデル化． Generative Agent：短期記憶：エージェントの現在の状況のコンテキスト情報長期記憶：エージェントの過去の行動や思考．必要に応じて取り出す． *Reflective linguistic programming (rlp): A stepping stone in socially-aware agi (socialagi). arXiv preprint arXiv:2305.12647, 2023

メモリ 16 フォーマット手法利点例自然言語柔軟に表現できて理解しやすい．情報が包括的になる． Voyager(LLMによるMinecraftのプレイ):
Mincraftゲーム内のスキルを自然言語記述で保持埋め込みベクトル検索や読み取りの効率が良い． ChatDev(LLMによる仮想ソフトウェア会社 ): 対話履歴をベクトルに埋め込みし，検索可能に．データベース効率的かつ包括的に操作可能． ChatDB(LLMをシンボリックメモリで補強): エージェントはSQL文で追加，削除，修正．構造化リスト効率的かつ簡潔 Ghost in the Minecraft: サブゴールのアクションリストを階層ツリー構造で格納． ※これらは排他的ではなく，同時にも利用される．例：key value listでキーは埋め込みベクトルで表現．値は自然言語．（GITM）

メモリ 17 記憶の操作手法利点例読み込み以前に成功した行動を利用して同様の目標を達成する．新しさ，関連性，重要性が鍵書き出し
知覚した環境に関する情報を記憶に保存する．類似した情報（記憶の重複），記憶量の限界（オーバーフロー）の対処が課題・同じサブゴールに成功した行動の蓄積が一定のサイズを超えたらLLM使って凝縮・固定サイズのメモリでFIFO方式（RET- LLM）反映（リフレクション）人間が自身の認知，感情，行動を評価する能力．抽象的な洞察に要約・推論する力 Generative Agentsでのリフレクションの例（資料前半）

プランニング 18 複雑なタスクを単純なサブタスクに分解して個々に解決する． • フィードバックなしのプランニング ‒ 行動の後に将来の行動に影響を与えるようなフィードバックを受け取らない • フィードバックによるプランニング

プランニング 19 フィードバックなしのプランニング手法利点例シングルパス推論いくつかのステップに分解する Chain of
Thought Step by Step マルチパス推論ツリー構造のステップに分解 ToT 外部プランナー外部のプランナーに計画を行わせる．（ドメイン固有の専門的な問題などを） LLM+P: タスク記述をプランニング・ドメイン定義言語（PDDL）に変換し，外部プランナーでPDDLを処理．生成された結果をLLM で自然言語に変換．

プランニング 20 フィードバックによるプランニング手法利点例環境フィードバック世界や仮想環境から得られるフィードバック．ゲームのタスク完了信号や，エージェントが行動した後の観測結果など．
Voyager: プログラム実行の中間結果，実行エラー，自己検証結果の環境フィードバックを取り入れ，計画を立てる．ヒューマンフィードバック人間からのフィードバック．モデルフィードバックエージェント自身からの内部フィードバック．事前訓練モデルを用いる．

アクション 21 エージェントの意思決定を具体的な結果に変換．最も下流のモジュール． • アクションゴール ‒ 例：タスク完了，コミュニケーション，環境探索 • アクション生成 ‒
行動生成戦略 • 行動空間 ‒ エージェントが実行可能なアクションの集合 • アクションインパクト ‒ アクションの結果環境の変化，内部状態の変更，新しいアクションのトリガー

アクション 22 アクション生成手法利点例記憶想起による行動エージェントの記憶から情報抽出し，アクション生成 Generative
Agents: メモリストリームを保持し，アクションをガイドするために最近の関連する情報を取り出す計画に従った行動エージェントはプランに従って行動する Ghost in the Minecraft: エージェントはタスクを多くのサブゴールに分解し，計画を立てる．計画に基づいてサブゴールを順次解決するための行動をとり，最終的なタスクを完結させる．

アクション 23 行動空間手法利点例外部ツール API Gorilla, Toolformer,
HuggingGPT データベース・知識ベース ChatDB: SQL文でデータベースに問い合わせ，エージェントによる論理的なアクションを可能に．外部モデル特定の複雑なタスクを別のモデルに行わせる．（画像生成，音声処理，コード生成など．）内部知識計画能力会話能力常識的理解能力

エージェントの能力拡張 24 エージェントの能力拡張に関わる戦略 • ファインチューニングによる能力獲得 ‒ アノテーションされたデータ，LLMでの生成データ，実データ • ファインチューニングなしの能力獲得 ‒
プロンプトエンジニアリング，メカニズムエンジニアリング

メカニズムエンジニアリング 25 ファインチューニングやプロンプトエンジニアリングとは異なるエージェント能力拡張の戦略手法利点例トライアルアンドエラーエージェントの行動を予め定義した批評家が判定．不満の場合はフィードバックを取り入れて反応．
クラウドソーシング別々のエージェントに多様な回答を出力させ，回答が一貫してなければ他エージェントの回答を取り入れる．コンセンサスが取れるまで行う．経験の蓄積探索〜タスク達成に成功するとその行動をメモリに格納．以降同様のタスクではその知識を活用． Voyager: スキルのライブラリを持ち，繰り返し改良．スキルライブラリを活用することで，効率的にタスクをこなせる．自己駆動進化自らゴールを設定し，環境を探索しながら，報酬関数から良いフィードバックをもらい，改善していく（LMA3*） *Augmenting autotelic agents with large language models. arXiv preprint arXiv:2305.12487, 2023.

評価 26 エージェントの評価に関わる選択肢 • 主観的評価 ‒ 人間によるアノテーション人間がスコアやランクづけして評価 ‒ チューリングテスト
評価者が人間とエージェントの出力を区別する • 客観的評価 ‒ 評価指標：タスク成功メトリクス，人間類似度，効率性 ‒ プロトコル：実世界シミュレーション，社会性評価，マルチタスク評価，ソフトウェアテスト ‒ ベンチマーク

課題 27 LLMベース自律型エージェントの代表的な課題ロールプレイング能力 • Web上で滅多に議論されない役割や新しい役割は無理 • 自己認識の欠如が指摘* 一般化されたヒューマンアライメント
• 多様な人間の価値観にアライメントする必要プロンプトのロバストさ • プロンプトの設計が大変．LLMごと異なったり．エージェントの各モジュールも影響する．ハルシネーション • LLMの基本的な課題．自律型エージェントでも同様．知識の境界 • LLMは膨大なウェブ知識コーパスで訓練されており，過剰な能力を発揮する可能性 • 例：映画の予備知識を持たないユーザ行動をシミュレーションしたくてもベースにある豊富な知識で判断してしまう可能性効率性 • エージェントは何度もLLMをコールする必要があり，LLMの推論の遅さが蓄積・影響される．長期のプランニングとタスク分解 • LLMは予期せぬエラーに直面した時に計画を調整するのに苦労し，試行錯誤から学習する人間に比べてロバスト性が低い． *Reflective linguistic programming (rlp): A stepping stone in socially-aware agi (socialagi). arXiv preprint arXiv:2305.12647, 2023.

LLMベースの自律型エージェントのサーベイ

LLMベースの自律型エージェントのサーベイ

ryok

Other Decks in Research

Featured

Transcript

岡田領 / Ryo Okadaʢ@anonymousgrabaʣ

アウトライン 2 1. 書誌情報 2. LLMベースの自律型エージェントとは 3. 具体例 4. 共通するアーキテクチャ構造

書誌情報 3 ２つの文書から抜粋して紹介 w ಈػɿLLMΛ༻͍ͯࣗಈԽΞϓϦέʔγϣϯΈ͍ͨͳ΋ͷΛ࡞Δ্Ͱ"VUP(15౳ͷࣗ཯ܕΤʔδΣϯτͷ֎؍΍՝ ୊ײΛ཈͔͑ͨͬͨ arXiv, submitted on Aug

Generative Agents 5 Arxiv, submitted on Apr 2023 w ਓͷଜࣾձΛߏங͠ɼूஂߦಈΛγϛϡϨʔγϣϯʢ5IF4JNTΛࢀߟʹͨ͠Ծ૝؀ڥʣ

Generative Agents 6 リフレクションの例 • メモリストリームから100件の過去イベント（例：Klaus Mueller is reading a

MetaGPT 7 Arxiv, submitted on Aug 2023 • SOP（標準作業手順書）に着目し，タスク分解，各専門エージェントが連携してシス

MetaGPT 8

• 人間から要求を受け取ると • プロダクトマネージャーが要求分析，実現可能性分析を行う • 次にアーキテクトが技術設計を行う • 次にプロジェクトマネージャは各要件に対応するためのシーケンス図を作成する

MetaGPT 10 • ３が最も成功したケース

LLMベースの自律型エージェントシステムのアーキテクチャ 12 共通するアーキテクチャ構造

プロファイル 13 エージェントがコーダー，教師，ドメイン専門家などの特定の役割を担う場合手法説明例手作り（Handcrafting）エージェントのプロファイルを手動で作成 Generative Agents

メモリ 14 環境から知覚した情報を記憶し，将来の行動を促進する． • メモリ構造 ‒ 短期記憶：トランスフォーマーのコンテキストウィンドウ内の情報 ‒ 長期記憶：外部ベクトルデータベース •

メモリ 15 メモリ構造手法説明例統合メモリ短期記憶のみを再現し，プロンプトへ記憶情報を書き込む． RLP*：話し手と聞き手の状態を保持する会

メモリ 16 フォーマット手法利点例自然言語柔軟に表現できて理解しやすい．情報が包括的になる． Voyager(LLMによるMinecraftのプレイ):

メモリ 17 記憶の操作手法利点例読み込み以前に成功した行動を利用して同様の目標を達成する．新しさ，関連性，重要性が鍵書き出し

プランニング 19 フィードバックなしのプランニング手法利点例シングルパス推論いくつかのステップに分解する Chain of

プランニング 20 フィードバックによるプランニング手法利点例環境フィードバック世界や仮想環境から得られるフィードバック．ゲームのタスク完了信号や，エージェントが行動した後の観測結果など．

アクション 21 エージェントの意思決定を具体的な結果に変換．最も下流のモジュール． • アクションゴール ‒ 例：タスク完了，コミュニケーション，環境探索 • アクション生成 ‒

アクション 22 アクション生成手法利点例記憶想起による行動エージェントの記憶から情報抽出し，アクション生成 Generative

アクション 23 行動空間手法利点例外部ツール API Gorilla, Toolformer,

エージェントの能力拡張 24 エージェントの能力拡張に関わる戦略 • ファインチューニングによる能力獲得 ‒ アノテーションされたデータ，LLMでの生成データ，実データ • ファインチューニングなしの能力獲得 ‒

評価 26 エージェントの評価に関わる選択肢 • 主観的評価 ‒ 人間によるアノテーション人間がスコアやランクづけして評価 ‒ チューリングテスト

課題 27 LLMベース自律型エージェントの代表的な課題ロールプレイング能力 • Web上で滅多に議論されない役割や新しい役割は無理 • 自己認識の欠如が指摘* 一般化されたヒューマンアライメント