Slide 1

Slide 1 text

論文紹介 ”A Survey on Large Language Model based Autonomous Agents” 2025年03月24日 日本生成AIユーザ会 小渕 周 Shu Kobuchi 1

Slide 2

Slide 2 text

自己紹介 ● 小渕 周(Shu Kobuchi)こぶシュー ● https://x.com/shu_kob @shu_kob ● システムエンジニア → ブロックチェーン業界 ● 2023年12月スリーシェイク入社 ○ Sreake 事業部 ○ アプリケーション開発支援チーム エンジニア ○ 生成 AI アプリケーション開発等 ○ Gemini、Google Cloudを使用 ○ 2025年1月 マネージャー 2

Slide 3

Slide 3 text

スリーシェイク代表のセミナーのご案内 ● https://findy-code.io/events/LZqQwY65yY5g5?fr=career-events_250325 3

Slide 4

Slide 4 text

事前説明 4

Slide 5

Slide 5 text

論文で説明していること ● 構築 ○ LLMを使った自律型エージェントをどう作るか(設計図や部品) ● 応用 ○ どんなことができるか(応用例) ● 評価 ○ どうやって性能を評価するか(テスト方法) 5 多くの論文のサーベイから、 AIエージェント構築の観点をまとめてくれた論文

Slide 6

Slide 6 text

論文の構成 ● 構築:LLMを使った自律型エージェントの作り方 ○ エージェントの設計図(アーキテクチャ) ■ どんな役割を与えるか(プロフィール設定) ■ 過去の経験をどう記憶するか(メモリ) ■ どうやって計画を立てるか(プランニング) ■ 実際に行動をどう起こすか(アクション) ○ エージェントに能力を身につけさせる方法 ■ LLMに追加学習させる(ファインチューニング) ■ LLMに指示を出す方法を工夫する(プロンプトエンジニアリング) ■ 新しい仕組みを作る(メカニズムエンジニアリング) ● 応用:LLMを使った自律型エージェントの応用例 ○ 社会科学:心理学、経済学、社会学などの分野で、人間の行動をシミュレーション ○ 自然科学:科学研究のサポートや教育に役立てる ○ 工学:ソフトウェア開発やロボット制御などの分野で活用 ● 評価:LLMを使った自律型エージェントの評価方法 ○ 人間に評価してもらう(主観評価) ○ 客観的な指標で評価する(客観評価) 6

Slide 7

Slide 7 text

アジェンダ 1. イントロダクション 2. エージェント構築 a. エージェント構築 b. エージェント能力獲得 3. 応用 4. 評価 5. 関連調査 6. 課題と今後の方向性 7. 結論 7

Slide 8

Slide 8 text

論文紹介 ”A Survey on Large Language Model based Autonomous Agents” 8

Slide 9

Slide 9 text

1. イントロダクション ● 自律エージェントとは?: ○ 定義: 「自律エージェントとは、環境の中に存在し、その一部であり、その環境を感知し、 それに対して行動し、時間をかけて、自身の目的を追求し、将来的に感知するものに影響を 与えるシステムである。」 (Franklin and Graesser, 1997) ○ AGI(汎用人工知能)実現への有望なアプローチ ● 従来研究の課題: 限定された知識、隔離された環境での学習 ○ → 人間の学習プロセスから乖離、人間らしい意思決定が困難 ● LLMの登場: ○ Web知識の獲得、人間レベルの知能の可能性 ○ LLMベースの自律エージェント研究の急増 ● 本論文の目的: LLMベース自律エージェント研究の包括的調査、体系的レビュー 9 特化型AI 生成AI (汎用型AI) 段々と AIの民主化

Slide 10

Slide 10 text

AIエージェントの4つの要素 ● 要素をモジュール化 10 プロファイリング モジュール (個性) どのような役割を与えるか メモリモジュール (記憶) 過去の経験をどう記憶するか プランニング モジュール (計画) どうやって計画するか アクション モジュール (行動) 実際に行動をどう起こすか

Slide 11

Slide 11 text

2-a. エージェント構築 ● 統一フレームワークの提案: ○ プロファイリングモジュール: エージェントの役割 (ペルソナ) を定義 (e.g., 年齢、性別、性 格、社会的情報) ■ 生成戦略: 1. 手動作成: 研究者が手動でプロファイルを指定 (柔軟性高い、大規模化困難) 2. LLM生成: LLMを用いて自動生成 (効率的、意図とのずれの可能性) 3. データセットアライメント: 実世界のデータセットからプロファイルを抽出 (現実 的、データセットの偏りに注意) ■ 組み合わせの重要性: 例) 実データ + 手動作成で未来予測 ○ メモリモジュール: 過去の経験を保存、未来の行動に活用 (短期記憶 + 長期記憶) ■ 構造: 1. 統合メモリ: 短期記憶のみ (実装容易、文脈長の制限) 2. ハイブリッドメモリ: 短期記憶 + 長期記憶 (より複雑なタスクに対応可能、一般 的) ■ フォーマット: 自然言語、埋め込み、データベース、構造化リスト (用途に応じて選択) ■ 操作: 読み込み、書き込み、リフレクション 1. 読み込み: 関連性、重要度、近接性に基づく 2. 書き込み: 容量に限度があるので、重複をまとめ、既存情報削除 3. リフレクション: 過去の経験を要約、抽象化 11

Slide 12

Slide 12 text

2-a. エージェント構築 ● プランニングモジュール: 未来の行動を計画 (人間らしい行動の鍵) ○ フィードバックなし: 1. 単一パス推論: CoT, Zero-shot CoT 2. 複数パス推論: CoT-SC, ToT, GoT ○ プランニングあり: 3. 外部プランナー: PDDL ○ フィードバックあり: i. 環境フィードバック: ReAct, Voyager, Ghost ii. 人間フィードバック: Inner Monologue iii. モデルフィードバック: SelfCheck, InterAct, Reflexion ● アクションモジュール: 決定を具体的な出力に変換 ○ アクション目標: タスク完了、コミュニケーション、環境探索 ○ アクション生成: 記憶想起、計画追従 ○ アクション空間: 外部ツール (API, DB, モデル)、内部知識 (計画、会話、常識) ○ アクションの影響: 環境変化、内部状態変化、新規アクション 12

Slide 13

Slide 13 text

参考)Chain-of-Thoughtプロンプティング ● AIに思考の連鎖を促し、段階的に答えを導かせる手法 ● ステップバイステップ 13 ● 3日間の国内旅行プランを作成してください。目的地は京都で、予算は 5万円です。旅行の目的は、歴 史的な建造物を見学し、美味しい京料理を堪能することです。 ● まずは、旅行の目的と予算に基づいて、訪れるべき主要な観光スポットとレストランをリストアップしま す。次に、各スポット間の移動時間と拝観料、食事の予算を考慮して、 1日のスケジュールを作成しま す。最後に、3日間のスケジュールをまとめ、全体の予算が 5万円以内に収まるように調整します。 ● 上記のステップに従って、具体的な旅行プランを作成してください。

Slide 14

Slide 14 text

参考)Reasoning and Acting (ReAct) ● AIに推論と行動を交互に行わせ、外部情報も活用しながら問題を解決させる手法 14 ● 3日間の国内旅行プランを作成してください。目的地は京都で、予算は 5万円です。旅行の目的は、 歴史的な建造物を見学し、美味しい京料理を堪能することです。 ● ReActの手順に従い、以下のタスクを実行してください。 1. **Reasoning:** 旅行の目的と予算に基づいて、訪れるべき主要な観光スポットとレストランをリスト アップします。 2. **Acting:** リストアップしたスポットとレストランの営業時間、拝観料、予算などの情報を収集しま す。 3. **Reasoning:** 収集した情報に基づいて、 1日のスケジュールを作成します。移動時間と予算を考 慮してください。 4. **Acting:** 3日間のスケジュールをまとめ、全体の予算が 5万円以内に収まるように調整します。 5. **Reasoning:** 作成した旅行プランを評価し、改善点があれば修正します。 ● 上記のReActの手順に従って、具体的な旅行プランを作成してください。

Slide 15

Slide 15 text

2-b. エージェント能力獲得 ● ファインチューニング: ○ 人間によるアノテーションデータ: ■ 例: CoH (人間のフィードバックを自然言語で)、WebShop (eコマースの行動データ) ○ LLM生成データ: ■ 例: ToolBench (API利用データ), [83] (エージェント間対話データ) ○ 実世界データ: ■ 例: MIND2WEB (Web操作データ), SQL-PaLM (text-to-SQLデータ) ● ファインチューニングなし: ○ プロンプトエンジニアリング: ■ CoT、RLP ● メカニズムエンジニアリング: ○ 試行錯誤 (Trial-and-error): RAH, DEPS, RoCo, PREFER ■ エージェントが生成した予測と人間のフィードバックの繰り返し ○ クラウドソーシング: [94] (衆知の活用) ■ 他エージェントからの解決策を組み込むなど ○ 経験蓄積: GITM, Voyager, AppAgent, MemPrompt ■ メモリに保存された関連するタスクの経験を利用 ○ 自己駆動進化: LMA3, SALLM-MS, CLMTWA ■ エージェントが自己主導型の学習とフィードバックメカニズムで自律的に改善 15

Slide 16

Slide 16 text

3. 応用 ● 社会科学: ○ 心理学: 実験シミュレーション、メンタルヘルスサポート ○ 政治学・経済学: イデオロギー検出、投票予測、経済行動シミュレーション ○ 社会シミュレーション: 社会現象 (e.g., 情報伝播) のシミュレーション ○ 法学: 意思決定支援 ○ 研究アシスタント: 論文要約、キーワード抽出 ● 自然科学: ○ ドキュメント・データ管理: 文献収集、整理、要約 ○ 実験アシスタント: 実験計画、実行、データ分析 ○ 自然科学教育: 教育ツール ● 工学: ○ コンピュータサイエンス・ソフトウェア工学: コーディング、テスト、デバッグ、ドキュメ ント生成 ○ 産業オートメーション: インテリジェントな計画・制御 ○ ロボティクス・身体化AI: より効率的な強化学習エージェント 16

Slide 17

Slide 17 text

4. 評価 ● 主観的評価: ○ 人間によるアノテーション: 評価者がエージェントの出力を直接評価 ○ チューリングテスト: 人間とエージェントの出力を区別できるか ● 客観的評価: ○ 評価指標: ■ タスク成功指標: 成功率、報酬、精度 ■ 人間との類似性指標: 一貫性、流暢さ、対話の類似性、人間の受け入れ率 ■ 効率性指標: 開発コスト、学習効率 ○ プロトコル: ■ 実世界シミュレーション: ゲーム、インタラクティブシミュレータ ■ 社会評価: シミュレートされた社会での対話 ■ マルチタスク評価: 異なるドメインのタスクセット ■ ソフトウェアテスト: テストケース生成、バグ検出など 17

Slide 18

Slide 18 text

5. 関連調査 ● 大規模言語モデル(LLM)関連サーベイ ○ 包括的な導入 ■ 背景、主要な発見、主流技術を網羅。既存研究の広範な網羅 ○ 応用事例重視 ■ LLMの様々な応用タスクと、展開に伴う課題に焦点 ○ 人間との整合性 ■ バイアスや錯覚など、懸念事項に対処する研究分野。人間との整合技術、データ収集、 モデル訓練方法などを網羅 ○ 推論能力の現状 ■ LLMの推論能力改善・評価のアプローチ探索 ○ 拡張言語モデル(ALM)提案 ■ LLMに推論能力とツール利用能力を付与。最新のALMの進歩を包括的にレビュー ○ パフォーマンス評価 ■ LLM評価の重要性、評価対象、評価場所、影響を議論。様々なLLMの能力と限界を分 析。広範なモデル、訓練、応用、評価を網羅 ● 本研究の位置づけ ○ LLM基盤のエージェントに特化した初の体系的サーベイ ○ 急速に発展する分野の構造、応用、評価プロセスを網羅 18

Slide 19

Slide 19 text

6. 課題と今後の方向性 ● 役割遂行能力(役割を演じる能力を高める) ○ Web上に少ない役割、新規役割のシミュレーションが困難 ○ 人間の認知心理学的特性のモデル化が不十分 (自己認識の欠如) ● 汎用的な人間アライメント(倫理的な問題に対処する:人間の価値観に合わせる) ○ LLMは統一された価値観に偏りがち → 多様な人間の特性を表現できない (特に負の側面) ○ シミュレーションでは負の側面も重要 (問題発見のため) ● プロンプトの頑健性(指示の出し方を工夫する) ○ モジュール追加 → プロンプト複雑化 → わずかな変更で出力が大きく変化 ○ 統一された頑健なプロンプトフレームワークが必要 ● 幻覚(嘘をつかないようにする:ハルシネーション対策) ○ 誤った情報を自信を持って生成 → 深刻な結果を招く可能性 ○ 人間による修正フィードバックが有効 ● 知識境界(知識の範囲を適切に設定する) ○ LLMの知識が広大すぎる → シミュレーションで非現実的な行動をとる可能性 ○ ユーザーが知らない知識の利用を制限する必要 ● 効率(計算効率を上げる) ○ LLMの推論速度が遅い → エージェントの効率に影響 (各アクションで複数回クエリ) 19

Slide 20

Slide 20 text

7. 結論 ● LLMベース自律エージェント研究の包括的調査 (構築、応用、評価) ● 主要技術、発展の歴史を体系的に整理 ● 今後の研究の方向性を示唆 (課題) 20