LLMマルチエージェントを俯瞰する

LLM マルチエージェントを俯瞰する 2023年12⽉22⽇株式会社電通国際情報サービス X（クロス）イノベーション本部 AIトランスフォーメーションセンター太⽥真⼈

はじめに • ISIDで製品開発と技術開発をしているエンジニアの太⽥です。 • この資料は、研究開発で調査した内容を公開⽤にまとめました。 • 論⽂を執筆する研究向けではなく、開発エンジニアやAI新規事業企画者向けに作成しました。 • 発展が早い業界ですので、記述内容が2024年では古いものになっているかもしれません。
• OpenAIが提供するAssistants APIを使って何をしたらいいのか、エージェントを作って何をしたらいいのか興味がある⼈はぜひ、読んでほしいです。 2

アジェンダ 1.LLMマルチエージェントの概要 2.技術の歴史と進化 3.LLMエージェントを俯瞰 4.LLMマルチエージェントを俯瞰 5.LLMマルチエージェントの応⽤事例 6.アプリケーション 7.最新の研究動向 3

1. LLMマルチエージェントの概要 • LLM マルチエージェントとは • なぜLLM マルチエージェントなのか • 何が⾯⽩いのか
4

LLMマルチエージェントとは • Large Language Models（⼤規模⾔語モデル）を基盤とする複数のエージェントが協⼒ /競争し合い、複雑なタスクを達成するためのシステム • ⾃然⾔語を⽤いる複数のエージェントが相互作⽤することによる効率の向上に期待協⼒競争
混合 1. LLMマルチエージェントの概要 AI AI AI AI AI AI 5 & VS VS

なぜ LLM マルチエージェントなのか様々なタスクで期待され始めています。 • 複雑なQAの回答品質の向上 • シミュレーションやロールプレイング • ソフトウェア開発などの業務⾃動化
詳しくは、「5. LLMマルチエージェントの応⽤事例」 1. LLMマルチエージェントの概要 6

(個⼈的に) 何が⾯⽩いのか • シミュレーションを通して様々な業務が事前評価できるようになること • 資料レビュー、ユーザービリティテスト、顧客評価、交渉、合意形成、ロープレなど • 各エージェントに様々なロールを与えたとき、どこまでロールが実⽤的か評価すること • 性格、キャラクター、NPC、歴史上の⼈物、ドメインエキスパート、UXデザイナー、上司など
• エージェント同⼠をどのようにコミニケーションを取らせると最適か考えること • ⼈間社会と同様な関係で上下関係、フラット、階層構造、1on1、討論、裁判形式など上記を組み合わせた研究や実⽤化に向けた取り組みが⾏われています。 1. LLMマルチエージェントの概要僕たちの関係ってなに︖ 僕はだれ︖ 僕たち何するの︖ 7

2. 技術の歴史と進化 • マルチエージェントの発展 • LLMマルチエージェントの誕⽣ 8

マルチエージェントの発展 2000年代︓マルチエージェントシステム（MAS）の研究が流⾏ • エージェントが個別モデリングの時代 • MASの研究では、エージェントベースのモデリングやシミュレーション • 応⽤︓サプライチェーン管理、電⼒市場、交通制御システム 2010年代後半︓分散深層学習やマルチエージェント強化学習（MARL）が流⾏ •
エージェントが深層モデルの時代 • MARLの研究では、エージェントのスケーラビリティ問題、報酬分配の貢献度、集中訓練分散実⾏など • 応⽤︓IoT、スマートシティ、⾃動運転、ロボティクス、ゲーム（囲碁、将棋） • 分散深層学習の研究では、連合学習とその派⽣ • 応⽤︓セキュリティ、データの保護・管理、エッジAI、少データ学習、医療診断・⾦融業務データ活⽤ 2020年代︓LLMエージェントによるマルチエージェントシステムが来るか • エージェントがプロンプトの時代 2. 技術の歴史と進化 9

LLMマルチエージェントの誕⽣ 2022年11⽉︓ChatGPTの登場から⽣成AIが誰でも利⽤できる時代に • プロンプトベースでLLMに指⽰をして様々な活⽤が⼀気に⾒出される 2023年11⽉︓OpenAI 社のAssistants API やGPTsでエージェントの開発がより簡単に 2023年に出版されていた論⽂の遷移 •
LLMはプロンプトでロールにどの程度なりきれるのか • LLMは道具を使い⾃律型エージェントになれるのか • LLMマルチエージェントの討論形式はタスクの精度向上につながるのか • LLMマルチエージェント⽤のシミュレーション環境を構築 • LLMマルチエージェントのコミニケーションのフレームワークの提案 • LLMマルチエージェント応⽤︓社会シミュレーションやソフトウェア開発 • LLMマルチエージェント応⽤の⼟台が開発も技術も整ってきた 2. 技術の歴史と進化 10

3. LLMエージェントを俯瞰 • LLMエージェントの定義とは • LLMエージェントの4つの構成要素 • ⼼理的側⾯ • 歴史⼈物・キャラクターの模倣
• エキスパートの模倣 • ⾃律型エージェントの素質 • ⾃律型エージェントの研究動向 • LLMエージェントの課題 11

LLMエージェントの定義とは 3. LLMエージェントを俯瞰 • エージェントの定義は論⽂ごとにまちまちです。 • ⾃律性、計画性、⾃⼰反省、リスク評価、メタ認知能⼒がある • ⼈間に頼らずとも⾃律的にタスクを遂⾏できる •
⼈の仕事を⽀える場合はアシスタントとする • 役割の違うシステムプロンプトを使えば別のエージェントとする • 複数のLLMを使えばマルチエージェントとする • この資料でのLLMエージェントは上記を全て含むものとして紹介します。 12

LLMエージェントの構成要素 3. LLMエージェントを俯瞰⼼理的側⾯歴史⼈物・キャラなどの模倣⾃律型エージェントの要素エキスパートの模倣⾃分や相⼿の考えが理解できるか特定の⼈物になりきれるのか専⾨家の役割を担うと精度が⾼まるのか
認知、計画、実⾏できるのか 13

⼼理的側⾯ 3. LLMエージェントを俯瞰 • ⼼の理論（Theory of Mind,ToM）をLLMは持ち合わせるのか • ⼼の理論は、他者の考えや感情、信念を理解する能⼒を指します⾃⼰反省（Introspection）︓エージェントが⾃分の精神状態を説明する能⼒
1次ToM︓エージェントが他者の隠された精神状態を推定する能⼒ 2次ToM︓エージェントが他者が⾃分⾃⾝の精神状態について推論する能⼒ 1次ToM: あの⼦は⼼配性だなー。 2次ToM: あの⼦は、きっと僕のことを「忘れっぽいやつ」と思っているに違いない。⾃⼰反省︓全て僕の計算通りだ。 14 詳しくはp33

歴史⼈物・キャラなどの模倣 • 特定の⼈物に模倣することで性格や思考や発⾔は変化するのか • 社会科学の研究、NPCの作成、教育、ロールプレイング、チャットボットなどで応⽤ • 評価観点︓キャラクターに関する情報を思い出す能⼒、価値観、話し⽅やトーンなどの性格、キャラが持っていない知識を披露する幻覚、⻑時間演技できる安定性 3. LLMエージェントを俯瞰
15 ⼈物の実データに基づきロールを割り当てる研究 When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm Character-LLM: A Trainable Agent for Role-Playing Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots GPT4で32キャラ性格評価 82.8%の精度

エキスパートの模倣 • 専⾨家のロールをプロンプトに与えることで精度が向上するのか • プロンプトの与え⽅に依存。モデルによって性能の差が⼤きい 3. LLMエージェントを俯瞰 16 ExpertPrompting: Instructing
Large Language Models to be Distinguished Experts

⾃律型エージェントの要素 • ⾃律型エージェントは、認知、計画、⾏動ができる • この世界観を実現するためにOpenAI は Assistants API を提供したと思われます 3.
LLMエージェントを俯瞰 17 The Rise and Potential of Large Language Model Based Agents: A Survey

⾃律型エージェントの研究動向︓認知 • プロンプトではテキストだけだったのが動画像を⼊⼒できるようになった • モダリティが増えることで、⼀般的に回答の品質は向上する 3. LLMエージェントを俯瞰 18 動画に⾳声の⽂字起こしがあると回答精度向上画像をインプットし、画像をアプトプット
[左] UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework [右] PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

⾃律型エージェントの研究動向︓計画 • 計画はユーザーの⼊⼒に対して、タスクを遂⾏するめの⼿順をサブタスクに分解する。 • タスクが失敗した場合は、評価し修正をしていく必要がある。 • 計画の質を⾼めるために、マルチエージェント同⼠で議論することもある。 3. LLMエージェントを俯瞰 19
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies エージェントに限らず、LLMでは⾃⼰修正（self-correction）することはHot Topic

⾃律型エージェントの研究動向︓⾏動 • エージェントの⾏動はツール利⽤（別AIモデル、API Call やDB問い合わせ）がある • ツール評価観点 Level-1: 質問に対して、APIを正しく呼べるか Level-2:
必要なAPIを探せるか Level-3: 複数のAPIを組み合わせて計画できるか 3. LLMエージェントを俯瞰 20 プロンプトにAPI descriptionを記述正しくAPIを呼べるか API-Bank: A Benchmark for Tool-Augmented LLMs API-Bankは4⽉公開の論⽂ですが、10⽉にGPT-4の評価を含めた修正版を公開

LLMエージェントの課題計画に関して • 対話コンテキスト理解 • 複数のAPIを使う複雑な処理能⼒⾏動に関して • クエリからAPI検索 •
API Call のフォーマットエラー 3. LLMエージェントを俯瞰 21 API-Bank: A Benchmark for Tool-Augmented LLMs/v2 10⽉25⽇版・API検索は⾃⼰修正で対応できるか・パラメータ類はChatGPTの JSONモードで解決するか

4. LLMマルチエージェントを俯瞰 • マルチエージェントの問題設定 • ⽬的は協⼒か競争か混合か • エージェント間のコミニケーションの取り⽅ • どんなプロフィールの組み合わせがあるのか
• どんなプロフィールの組み合わせがよいのか • 同じ役割のエージェントはチームに不要なのか • エージェント数は多いほど良いのか • コミニケーション回数は多いほど良いのか • 誰が貢献したのか • エージェントは他のエージェントを思いやれるのか • エージェントは他者と効率的に協調できるのか • LLMマルチエージェントの課題 22

4. LLMマルチエージェントを俯瞰 • このセクションでは、マルチエージェントの問題設定を紹介します。 • また、研究者はどういった観点でマルチエージェントを評価しているのかも紹介します。 • 評価結果は問題設定に依存するので、注意が必要です。 23

マルチエージェントの問題設定問題設定をするときは以下を定義しておく • 何をするのか • 最⼤何⼈で各ロールは何か • それぞれが何を観測するのか • どんな⾏動ができるのか
• 環境との相互作⽤はあるか • 何ラウンドおこなうのか 4. LLMマルチエージェントを俯瞰 AI AI ・・・・⽬的︓QAを他者と討論し回答の質向上⼈数︓討論者2名＋最終意思決定者1名ロール︓利⼰的と楽観的観測︓会話履歴と相⼿の前ラウンドの⽣成結果⾏動︓質問に対する回答の⽣成環境︓なしラウンド数︓3回、回答が⼀致した段階で終了関係性 24

⽬的は協⼒か競争か混合か • ゲーム理論やマルチエージェント強化学習と同様です。 4. LLMマルチエージェントを俯瞰協⼒競争混合 AI AI
AI AI AI AI 互いに協⼒関係共同執筆救助活動利害が対⽴交渉タスク戦略ゲーム競争と協⼒が混合チームゲーム市場シミュレーションコンペティション 25 & VS VS

エージェント間のコミニケーションの取り⽅ 4. LLMマルチエージェントを俯瞰順番か、⼀⻫に話すか複数案出す、絞るを交互進⾏役に従って話す • 同時会話か、決められた順番か、動的な順番か、これらの組み合わせで会話は実現 • コミニケーションのグラフ構造は様々
• ⽣成内容の伝達速度が変化する • 誰から話すかの初期値問題はある 26

どんなプロフィールの組み合わせがあるのか役割 • 進⾏役と実⾏者 • AI ユーザーとAI アシスタント • 短期/⻑期報酬を優先する計画者と彼らの評価者
職業 • プログラマーとテスターとUI/UXデザイナー • 先⽣と⽣徒 • メタレビュアーとレビュアー性格 • 過信派と楽観派 • 頑固と柔軟 • リスク愛好とリスク回避 4. LLMマルチエージェントを俯瞰 AI 27

どんなプロフィールの組み合わせがよかったのかエージェントの組み合わせを変えて実験をおこなう。性格違いの場合、⼤きな差はない⼀⽅で、協⼒の仕⽅（ディベートと⾃⼰修正の順番）次第で精度に影響がでる 4. LLMマルチエージェントを俯瞰 EXPLORING COLLABORATION MECHANISMS FOR LLM
AGENTS: A SOCIAL PSYCHOLOGY VIEW ⾏⽅向で⽐較し、⻘が精度が⾼い。⾚は精度が低い。縦がロールの組み合わせ、横が協調戦略。ディベート中⼼で最後に⾃⼰修正が最も良い性能な結果 28

同じ役割のエージェントはチームに不要か • 同じ役割のエージェントが複数いる場合、シングルエージェントと同様の精度結果に近づく可能性もある。 • なるべく異なる役割を⽤意するのが良さそう 4. LLMマルチエージェントを俯瞰 CHATEVAL: TOWARDS
BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE a a a a b c ＜役割 General Public Critic News Author Psychologist Scientist ディベートベースでQAタスク 29

エージェント数は多いほど良いのか • エージェント数が多くなると精度が頭打ちになる場合や3~5⼈がベストでその後に精度が悪化する場合も⾒受けられる。 • エージェント数が増える分だけ、各エージェントの⽣成内容の同期コストが増える。 4. LLMマルチエージェントを俯瞰 [左] CHATEVAL:
TOWARDS BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE [右] Improving Factuality and Reasoning in Language Models through Multiagent Debate a c b b,c の⽣成結果を次のプロンプトに a,c の⽣成結果を次のプロンプトに a,b の⽣成結果を次のプロンプトに 30

コミニケーション回数は多いほど良いのか • コミニケーション回数が多くなると精度が頭打ちになる場合や精度が悪化する場合も⾒受けられる。 • コミニケーション回数が増える分だけ、幻覚や無駄な会話が⽣まれるリスクがある。 • 適切な終了条件を設定する必要がある。 4. LLMマルチエージェントを俯瞰
[左] CHATEVAL: TOWARDS BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE [右] Improving Factuality and Reasoning in Language Models through Multiagent Debate 31

誰が貢献したのか • 誰かを除いたときの精度劣化具合で評価。劣化具合が激しいほど、重要なエージェント • SHAP値を計算するように全てのエージェントの組み合わせで精度を⾒るわけではない 4. LLMマルチエージェントを俯瞰⼀番上の⾏から専⾨家がいなくなるとどれだけ精度が劣化したかが重要。下から⼆⾏⽬は専⾨家が誰もいない場合の結果。⼤きく劣化するケースもあるし、落ちないケースもある。
協⼒して開発するケースでは、プログラマーだけとそれ以外のロールがいることで成果物の電卓がどう変化するかを⽰している。 [左] Stance Detection with Collaborative Role-Infused LLM-Based Agents [右] AGENTVERSE: FACILITATING MULTI-AGENT COLLAB- ORATION AND EXPLORING EMERGENT BEHAVIORS 32

エージェントは他者を思いやれるのか • ⼼の理論（Theory of Mind,ToM）をマルチエージェント協⼒ゲームで評価 • 2次ToM まで推論するのはまだ難しい 4. LLMマルチエージェントを俯瞰
Theory of Mind for Multi-Agent Collaboration via Large Language Models 爆弾解除ゲーム⾃⼰反省（Introspection）「あなたは、部屋の現在の内容を知っていますか︖」「あなたは、爆弾の状態や残りの解除⼿順が変更されたことを知っていますか︖」 1次 ToM 「他のプレイヤーが特定の部屋の現在の内容を知っているか︖」「他のプレイヤーが特定の爆弾の状態や残りの解除⼿順が変更されたことを知っているか︖」 2次ToM 「他のプレイヤーは、あなたが特定の部屋の現在の内容を知っていることを認識しているか︖」「他のプレイヤーは、あなたが爆弾を解除したことを知っているか︖」 33

エージェントは他者と効率的に協調できるのか • 他のエージェントのことを考えて計画を適応できる • いつ助けを求めるべきかを知っており、他のエージェントの要求に応えることができる • いつ共有すべきでないかを知っている 4. LLMマルチエージェントを俯瞰 34
d) ⾃分が⼿伝ってほしいタイミングで依頼する b) 依頼を聞いた側は相⼿の状態を確認し⼿伝う c) ⼀⽅でタスク終了間際ではヘルプを無視する Building Cooperative Embodied Agents Modularly with Large Language Models

LLMマルチエージェントの課題 ü 役割の反転 • ユーザーのプロンプトに従わず、別の役割に逆転。指⽰を受ける側が指⽰を出す側に変わる ü 回答をはぐらかす • エージェントが空返事して、実際には何もしない ü
メッセージの無限ループ • アシスタントとユーザーが無意味な会話の無限ループに陥ること ü ⻑いコンテキストによる忘却 • システムプロンプトにあるタスクのルールが、会話履歴や他エージェントの状態を間に挟むことで回答⽣成時に⾒過ごされる ü スケーラビリティ • エージェントの数が増えるにつれて、計算・推論コストが⾼くなる ü ハルシネーションの伝播 • 幻覚や誤解がコミニケーションで伝播し、他のエージェントが混乱する 4. LLMマルチエージェントを俯瞰 [1] CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society [2] Theory of Mind for Multi-Agent Collaboration via Large Language Models [3] The Rise and Potential of Large Language Model Based Agents: A Survey 35 1 1 1 2 3 3

5. LLMマルチエージェントの応⽤事例 • 複雑なQAの回答品質の向上 • シミュレーションやロールプレイング • ソフトウェア開発などの業務⾃動化 36

複雑なQAの回答品質の向上 • MAD（Multi-Agent Debate）アプローチがQAタスクの回答精度向上になる • 計算時間やコストと精度のトレードオフではあるディベート戦略が効果的な理由 • LLMがコンテキスト内で与えられた追加情報に適応する能⼒があること •
推論時に他のエージェントから提供される情報に基づいて内部適応している 5. LLMマルチエージェントの応⽤事例他のMAD⼿法 • Society of Minds (SoM) • Multi-Persona • ChatEval • Self-consistency • Ensemble Refinement Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A 37

シミュレーションやロールプレイング応⽤事例 • 法廷 • 採⽤活動 • 国際問題 • サービス評価
• ⼈間の⽇々の⽣活 • 推薦におけるユーザー⾏動 • データ収集 • コンセンサスシーク • 合意形成 • 買い⼿と売り⼿の交渉 5. LLMマルチエージェントの応⽤事例 • シミュレーションを通して、物事を評価する。 • 変数や条件を変えて、様々なケースで検証 • 現実世界で起こることも発⾒される。 38

ソフトウェア開発などの業務⾃動化 5. LLMマルチエージェントの応⽤事例 [左] Communicative Agents for Software Development [右]
CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society ⼈間は、アイデアとロールを渡す。ユーザー役とアシスタント役が会話しながらプロトタイプ開発フェーズレベルとチャットレベルでグループを分けて開発 • 業務上のタスクを担当者をエージェントに置き換える取り組み • コンサルティング、デザイン、スクラム開発のチケット管理など 39

6. LLMマルチエージェントアプリケーション • GPTsで公開されたアプリケーション • プロジェクト 40

GPTsで公開されたアプリケーション • Tango Multi-Agent Wizard • あらゆるペルソナ、エンティティ、スタイル、専⾨知識との対話をシミュレートできます。 • MultiAgent
Wizard • 特定のタスクのために新しいエージェントを⾃動的に作成し、タスク完了に向けて協⼒できます。 • Ubbe: Multi-Domain Expert Solver • エージェントが質問に合わせて、最適なロールを宣⾔し、回答を⽣成してくれます。 • マルチロールディスカッション • 4つの異なるロールのAIとディスカッションすることで、⼀度に複数の観点から物事を検討できます。(ファシリ/本質思考/冗談/⽔平思考) 6. アプリケーション 41

プロジェクト① • AutoGen /Microsoft • 複数のエージェントを使⽤した LLM アプリケーション開発⽤のフレームワーク • Concordia/DeepMind
• エージェントが⾔語を介在して物理/社会/デジタル空間の環境と相互作⽤できる • MetaGPT/多くの⽅ • ソフトウェア会社の業務を様々なロールのエージェントが協⼒して解く • AgentVerse/OpenBMB • タスク解決（開発やコンサル）かシミュレーション（ゲーム）を検証できる • Alympics/Microsoft • LLMを活⽤したゲーム理論の研究を活性化するためのプラットフォーム • Camel/CAMEL-AI.org • ユーザー役とAssistant役のエージェントが会話ベースにタスクを解く • ChatDev/OpenBMB • ソフトウェア会社の業務を様々なロールのエージェントが協⼒して解く • SaaS プラットフォームも提供開始 6. アプリケーション 42

プロジェクト② • Agent4Rec/精華⼤学 • 推薦システムにおけるユーザー⾏動のシミュレーター • LLM MultiAgent Debate/Google Brain
• ディベート形式回答アプローチで最も精度が⾼いと⾔われる”society of minds”という⼿法 • Suspicion-Agent/東京⼤学 • 不完全情報ゲームのロールプレイングができる • Multi-GPT/SID • AutoGPTをベースに作られた複数のexpertGPTが協⼒してタスクを実⾏する 6. アプリケーション 43

7. 最近の研究動向 • ⼈間とエージェントのインタラクション • ロボット同⼠のインタラクション • IoTのマルチエージェントシステム • シミュレーションとタスクの統合
• 議論による合意の取り⽅ • 交渉のシミュレーション • 分類タスクの精度向上 • データセットの作成 • ⽣成結果の評価 • マルチモーダルなマルチエージェント 44

⼈間とエージェントのインタラクション⼈間とエージェントが協働でタスクを遂⾏するとエージェント同⼠より性能は良いのか︖ ⼈間はエージェントをどう感じるのか︖ 7. 最新の研究動向移動歩数が少ない⽅が良い⼀般的な家庭活動がタスクアフタヌーンティーの準備、⾷器洗い⾷事の準備、⾷料品の準備、⾷卓の準備 [左]⼈間とエージェントの協調の⽅が若⼲精度が⾼い。
[右] エージェントに会話があった⽅が信頼でき、役⽴つ。事後アンケート7段階評価 Building Cooperative Embodied Agents Modularly with Large Language Models 45

ロボット同⼠のインタラクション • ロボット同⼠が協調してタスクを遂⾏する。 • RoCoでは、ロボット同⼠が対話し、制約条件を満たすまで繰り返しサブタスクの計画をする • ⾏動計画では、障害物のある環境でオブジェクト取得までの経路をLLMが⽣成する • 5回まで失敗を許容し、その度に修正フィードバックをかけるとGPT-4は30回の実⾏で平均2.73回の試⾏で86.7％の成功率。環境が複雑化すると精度は悪化
7. 最新の研究動向 RoCo: Dialectic Multi-Robot Collaboration with Large Language Models 46

IoTのマルチエージェントシステム IoTのMASにおけるLLMエージェントの活⽤⽅法 • 分散型意思決定エンジン • LLMエージェントを各IoTデバイスの主要な意思決定者の役割を果たす • MASティーチング • LLMエージェントがMASの指導者としての役割を果たす
7. 最新の研究動向 Smart Streetlights ⾃律型街灯がエネルギーを節約しつつ、⼈がスムーズに移動できるよう照明を調整する。エネルギー消費、経路移動⼈数、トリップ累積時間を基に評価。従来⼿法と遜⾊ない結果に。 GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems 47

シミュレーションとタスクの統合 • シミュレーション上のLLMエージェントがそれぞれ⾃⾝のタスク遂⾏のために⾏動する。 • MetaAgentsではリクルーターと求職者がそれぞれLLMエージェントとして⾏動する。 • エラー分析で最も多いミスは、現実でも起こりうるMisplacement問題が挙げられていた。 • 求職者がリクルーターの募集内容に対して出来ないことをできると⾔い誤って採⽤されること 7.
最新の研究動向 METAAGENTS: SIMULATING INTERACTIONS OF HU- MAN BEHAVIORS FOR LLM-BASED TASK-ORIENTED COORDINATION VIA COLLABORATIVE GENERATIVE AGENTS 求職者︓スキルが活かせる職に就く。リクルーター︓プロジェクトに必要な求職者を雇う。 48

議論による合意の取り⽅ • 効果的な議論にはスタンスの選択、投票、説得、情報の交換、意⾒の多様性が必要とされる • ロールの性格によっては、コンセンサスの戦略が予期せぬ⽅向へ 7. 最新の研究動向 [左] On the
Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts [右] Multi-Agent Consensus Seeking via Large Language Models お互いに相⼿に合わせて振動する固執するAgentに他が引きづられる 49

交渉のシミュレーション • 競争設定の売買交渉シミュレーションができる。 • 第三者のエージェントからフィードバックをもらうと、交渉が上⼿になる。 7. 最新の研究動向売り⼿がエージェントの場合フィードバックを受けると値段を釣り上げるが交渉の成功率が下がる。GPT4は値
段上げてもタスク成功率が⾼い… 買い⼿がエージェントの場合フィードバックを受けると値段を下げても、50%の交渉成功率に留まる。 Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback 50

分類タスクの精度向上 • SNSに投稿された⽂章のスタンス（賛成、反対など）を分類するタスクにも応⽤ • 最初に専⾨家ロールに⾒解を⽣成させ、クラス名ごとに議論し最終判断をする • 議論が判断根拠にもなり、スタンス分類では精度も最も⾼い⼿法になっている 7. 最新の研究動向 51
Stance Detection with Collaborative Role-Infused LLM-Based Agents

データセットの作成 • 条件の多い設定で⼈⼯データセットを作成する場合、⽣成失敗の割合が課題 • 失敗の原因は、LLMに⼀度に多くの要求を与え、LLMが理解しきれないこと • 要求を複数の単純なタスクに分解し、LLMが⼀度に1つのタスクを実⾏する 7. 最新の研究動向 52
API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs 5段階の処理でツール利⽤の⼈⼯データセット作成 • 1対話あたりわずか$0.1のコスト • ⼿動アノテーションと⽐較してコスト98%の節約 • 採⽤割合もGPT4でマルチエージェントにすると25%→65%に向上

⽣成結果の評価 • 学術的な査読システムをモデルとしたマルチエージェントから⽣成結果の評価 • 複数の多様な評価とメタ評価を集約することで、結果のばらつきが減少する 7. 最新の研究動向 53 On Evaluating
the Integration of Reasoning and Action in LLM Agents with Database Question Answering マルチエージェントのレビュープロセス Perf. Rate ⽣成結果を完璧とみなした割合 Agree ３⼈の意⾒の⼀致度 • レビュアーよりメタレビュアーの⽅が厳しい評価 • 評価結果のばらつきは減少

マルチモーダルなマルチエージェント個⼈的な思い • 既存研究のLLMマルチエージェントは仮想/現実環境との相互作⽤がテキストベースでした。 • それゆえに問題設定、プロフィール、さらに別エージェントの観測内容も含め、環境の状態を⾔語で受け取るとトークン消費が激しいです。 • 最近ではトークン⻑も128kまで増えているため、より複雑な問題に挑戦できます。
• さらに動画像がプロンプトに⼊れられ、環境とのインタラクションが⾃然になります。 • スマートシティや防災など環境センシングではより⾼度な活⽤が期待できます。 7. 最新の研究動向 54

まとめ • LLMエージェントからLLMマルチエージェントの問題設定や評価の観点を俯瞰しました。 • 会話をベースにした協調/競争戦略で、様々なタスクで性能向上の報告があがっています。 • 既存研究のほとんどがGPT4やトークン数の多いモデルを使っていません。 • そのため、同じ問題設定でも今では違った結果になると思われます。 •
シミュレーションに関しても、⼈間が解釈できる現象が数多く報告されています。 • 実⽤化が進むと、提供サービスの事前評価の質がロープレにより、どんどん上がっていくと思います。 • 全体感を俯瞰した次は、まずはLLMエージェントを作ってみるのはどうでしょうか。 55

参考⽂献 LLMエージェント • LLM Agentサーベイ Wang, Lei, et al. "A
survey on large language model based autonomous agents." arXiv preprint arXiv:2308.11432 (2023). • ツール Li, Minghao, et al. "API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs." Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023. • エキスパート Xu, Benfeng, et al. "ExpertPrompting: Instructing Large Language Models to be Distinguished Experts." arXiv preprint arXiv:2305.14688 (2023). • 性格 Huang, Jen-tse, et al. "ChatGPT an ENFJ, Bard an ISTJ: Empirical Study on Personalities of Large Language Models." arXiv preprint arXiv:2305.19926 (2023). • キャラ Shao, Yunfan, et al. "Character-llm: A trainable agent for role-playing." arXiv preprint arXiv:2310.10158 (2023). • キャラ Li, Cheng, et al. "ChatHaruhi: Reviving Anime Character in Reality via Large Language Model." arXiv preprint arXiv:2308.09597 (2023). • ロープレ Wang, Xintao, et al. "Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots." arXiv preprint arXiv:2310.17976 (2023). 56

参考⽂献 LLMマルチエージェント • 協調効果 Zhang, Hongxin, et al. "Building cooperative
embodied agents modularly with large language models." arXiv preprint arXiv:2307.02485 (2023). • 協調効果 Zhang, Jintian, Xin Xu, and Shumin Deng. "Exploring collaboration mechanisms for llm agents: A social psychology view." arXiv preprint arXiv:2310.02124 (2023). • 協調効果 Sun, Qiushi, et al. "Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration." arXiv preprint arXiv:2310.00280 (2023). • 対話精度向上 Du, Yilun, et al. "Improving Factuality and Reasoning in Language Models through Multiagent Debate." arXiv preprint arXiv:2305.14325 (2023). • 対話精度向上 Smit, Andries, et al. "Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A." arXiv preprint arXiv:2311.17371 (2023). • 対話精度向上 Chen, Justin Chih-Yao, Swarnadeep Saha, and Mohit Bansal. "Reconcile: Round-table conference improves reasoning via consensus among diverse llms." arXiv preprint arXiv:2309.13007 (2023). • 対話精度向上 Wang, Qineng, et al. "On the Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts." arXiv preprint arXiv:2311.07076 (2023). • LLM multi-agentsサーベイ Xi, Zhiheng, et al. "The rise and potential of large language model based agents: A survey." arXiv preprint arXiv:2309.07864 (2023). • LLM multi-agentsサーベイ Talebirad, Yashar, and Amirhossein Nadiri. "Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents." arXiv preprint arXiv:2306.03314 (2023). 57

参考⽂献 LLMマルチエージェント • 競争 Fu, Yao, et al. "Improving language
model negotiation with self-play and in-context learning from ai feedback." arXiv preprint arXiv:2305.10142 (2023). • 競争 Zhao, Qinlin, et al. "CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents." arXiv preprint arXiv:2310.17512 (2023). • ソフトウェア開発 Chen, Weize, et al. "Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents." arXiv preprint arXiv:2308.10848 (2023). • ソフトウェア開発 Hong, Sirui, et al. "Metagpt: Meta programming for multi-agent collaborative framework." arXiv preprint arXiv:2308.00352 (2023). • ソフトウェア開発 Chan, Chi-Min, et al. "Chateval: Towards better llm-based evaluators through multi-agent debate." arXiv preprint arXiv:2308.07201 (2023). • ソフトウェア開発 Qian, Chen, et al. "Communicative agents for software development." arXiv preprint arXiv:2307.07924 (2023). • ユーザー⾏動 Wang, Lei, et al. "RecAgent: A Novel Simulation Paradigm for Recommender Systems." arXiv preprint arXiv:2306.02552 (2023). • ユーザー⾏動 Park, Joon Sung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 2023. • 推薦ユーザー⾏動 Zhang, An, et al. "On Generative Agents in Recommendation." arXiv preprint arXiv:2310.10108 (2023). 58

参考⽂献 LLMマルチエージェント • フレームワーク Li, Guohao, et al. "Camel: Communicative
agents for" mind" exploration of large scale language model society." arXiv preprint arXiv:2303.17760 (2023). • フレームワーク Vezhnevets, Alexander Sasha, et al. "Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia." arXiv preprint arXiv:2312.03664 (2023). • フレームワーク Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation framework." arXiv preprint arXiv:2308.08155 (2023). • MAシステム Nascimento, Nathalia, Paulo Alencar, and Donald Cowan. "GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems." arXiv preprint arXiv:2308.10435 (2023). • ロボット協働 Mandi, Zhao, Shreeya Jain, and Shuran Song. "Roco: Dialectic multi-robot collaboration with large language models." arXiv preprint arXiv:2307.04738 (2023). • スタンス分類 Lan, Xiaochong, et al. "Stance Detection with Collaborative Role-Infused LLM-Based Agents." arXiv preprint arXiv:2310.10467 (2023). • ⼼の理論 Li, Huao, et al. "Theory of mind for multi-agent collaboration via large language models." arXiv preprint arXiv:2310.10701 (2023). • コンセンサス Chen, Huaben, et al. "Multi-Agent Consensus Seeking via Large Language Models." arXiv preprint arXiv:2310.20151 (2023). 59

参考⽂献 LLMマルチエージェント • ⾦融取引 Yu, Yangyang, et al. "FinMe: A
Performance-Enhanced Large Language Model Trading Agent with Layered Memory and Character Design." arXiv preprint arXiv:2311.13743 (2023). • シミュレーション&タスク Li, Yuan, Yixuan Zhang, and Lichao Sun. "Metaagents: Simulating interactions of human behaviors for llm-based task-oriented coordination via collaborative generative agents." arXiv preprint arXiv:2310.06500 (2023). • 社会シミュレーション Gao, Chen, et al. "S $^ 3$: Social-network Simulation System with Large Language Model-Empowered Agents." arXiv preprint arXiv:2307.14984 (2023). • 国際問題 Hua, Wenyue, et al. "War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars." arXiv preprint arXiv:2311.17227 (2023). • ゲーム理論 Mao, Shaoguang, et al. "ALYMPICS: Language Agents Meet Game Theory." arXiv preprint arXiv:2311.03220 (2023). • 強化学習エッセンス Zhang, Bin, et al. "Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach." arXiv preprint arXiv:2311.13884 (2023). • ⽣成結果の評価 Nan, Linyong, et al. "On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering." arXiv preprint arXiv:2311.09721 (2023). 60

LLMマルチエージェントを俯瞰する

LLMマルチエージェントを俯瞰する

masatoto

More Decks by masatoto

Other Decks in Research

Featured

Transcript