Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMマルチエージェントを俯瞰する

masatoto
December 21, 2023

 LLMマルチエージェントを俯瞰する

社内のテックトークで紹介しました。

masatoto

December 21, 2023
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. (個⼈的に) 何が⾯⽩いのか • シミュレーションを通して様々な業務が事前評価できるようになること • 資料レビュー、ユーザービリティテスト、顧客評価、交渉、合意形成、ロープレなど • 各エージェントに様々なロールを与えたとき、どこまでロールが実⽤的か評価すること • 性格、キャラクター、NPC、歴史上の⼈物、ドメインエキスパート、UXデザイナー、上司など

    • エージェント同⼠をどのようにコミニケーションを取らせると最適か考えること • ⼈間社会と同様な関係で上下関係、フラット、階層構造、1on1、討論、裁判形式など 上記を組み合わせた研究や実⽤化に向けた取り組みが⾏われています。 1. LLMマルチエージェントの概要 僕たちの関係ってなに︖ 僕はだれ︖ 僕たち何するの︖ 7
  2. マルチエージェントの発展 2000年代︓マルチエージェントシステム(MAS)の研究が流⾏ • エージェントが個別モデリングの時代 • MASの研究では、エージェントベースのモデリングやシミュレーション • 応⽤︓サプライチェーン管理、電⼒市場、交通制御システム 2010年代後半︓分散深層学習やマルチエージェント強化学習(MARL)が流⾏ •

    エージェントが深層モデルの時代 • MARLの研究では、エージェントのスケーラビリティ問題、報酬分配の貢献度、集中訓練分散実⾏など • 応⽤︓IoT、スマートシティ、⾃動運転、ロボティクス、ゲーム(囲碁、将棋) • 分散深層学習の研究では、連合学習とその派⽣ • 応⽤︓セキュリティ、データの保護・管理、エッジAI、少データ学習、医療診断・⾦融業務データ活⽤ 2020年代︓LLMエージェントによるマルチエージェントシステムが来るか • エージェントがプロンプトの時代 2. 技術の歴史と進化 9
  3. LLMマルチエージェントの誕⽣ 2022年11⽉︓ChatGPTの登場から⽣成AIが誰でも利⽤できる時代に • プロンプトベースでLLMに指⽰をして様々な活⽤が⼀気に⾒出される 2023年11⽉︓OpenAI 社のAssistants API やGPTsでエージェントの開発がより簡単に 2023年に出版されていた論⽂の遷移 •

    LLMはプロンプトでロールにどの程度なりきれるのか • LLMは道具を使い⾃律型エージェントになれるのか • LLMマルチエージェントの討論形式はタスクの精度向上につながるのか • LLMマルチエージェント⽤のシミュレーション環境を構築 • LLMマルチエージェントのコミニケーションのフレームワークの提案 • LLMマルチエージェント応⽤︓社会シミュレーションやソフトウェア開発 • LLMマルチエージェント応⽤の⼟台が開発も技術も整ってきた 2. 技術の歴史と進化 10
  4. 3. LLMエージェントを俯瞰 • LLMエージェントの定義とは • LLMエージェントの4つの構成要素 • ⼼理的側⾯ • 歴史⼈物・キャラクターの模倣

    • エキスパートの模倣 • ⾃律型エージェントの素質 • ⾃律型エージェントの研究動向 • LLMエージェントの課題 11
  5. LLMエージェントの定義とは 3. LLMエージェントを俯瞰 • エージェントの定義は論⽂ごとにまちまちです。 • ⾃律性、計画性、⾃⼰反省、リスク評価、メタ認知能⼒がある • ⼈間に頼らずとも⾃律的にタスクを遂⾏できる •

    ⼈の仕事を⽀える場合はアシスタントとする • 役割の違うシステムプロンプトを使えば別のエージェントとする • 複数のLLMを使えばマルチエージェントとする • この資料でのLLMエージェントは上記を全て含むものとして紹介します。 12
  6. ⼼理的側⾯ 3. LLMエージェントを俯瞰 • ⼼の理論(Theory of Mind,ToM)をLLMは持ち合わせるのか • ⼼の理論は、他者の考えや感情、信念を理解する能⼒を指します ⾃⼰反省(Introspection)︓エージェントが⾃分の精神状態を説明する能⼒

    1次ToM︓エージェントが他者の隠された精神状態を推定する能⼒ 2次ToM︓エージェントが他者が⾃分⾃⾝の精神状態について推論する能⼒ 1次ToM: あの⼦は⼼配性だなー。 2次ToM: あの⼦は、きっと僕のことを「忘れっぽいやつ」と思っているに違いない。 ⾃⼰反省︓全て僕の計算通りだ。 14 詳しくはp33
  7. 歴史⼈物・キャラなどの模倣 • 特定の⼈物に模倣することで性格や思考や発⾔は変化するのか • 社会科学の研究、NPCの作成、教育、ロールプレイング、チャットボットなどで応⽤ • 評価観点︓キャラクターに関する情報を思い出す能⼒、価値観、話し⽅やトーンなどの 性格、キャラが持っていない知識を披露する幻覚、⻑時間演技できる安定性 3. LLMエージェントを俯瞰

    15 ⼈物の実データに基づきロールを割り当てる研究 When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm Character-LLM: A Trainable Agent for Role-Playing Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots GPT4で32キャラ性格評価 82.8%の精度
  8. ⾃律型エージェントの研究動向︓⾏動 • エージェントの⾏動はツール利⽤(別AIモデル、API Call やDB問い合わせ)がある • ツール評価観点 Level-1: 質問に対して、APIを正しく呼べるか Level-2:

    必要なAPIを探せるか Level-3: 複数のAPIを組み合わせて計画できるか 3. LLMエージェントを俯瞰 20 プロンプトにAPI descriptionを記述 正しくAPIを呼べるか API-Bank: A Benchmark for Tool-Augmented LLMs API-Bankは4⽉公開の論⽂ですが、10⽉にGPT-4の評価を含めた修正版を公開
  9. LLMエージェントの課題 計画に関して • 対話コンテキスト理解 • 複数のAPIを使う複雑な処理能⼒ ⾏動に関して • クエリからAPI検索 •

    API Call のフォーマットエラー 3. LLMエージェントを俯瞰 21 API-Bank: A Benchmark for Tool-Augmented LLMs/v2 10⽉25⽇版 ・API検索は⾃⼰修正で対応で きるか ・パラメータ類はChatGPTの JSONモードで解決するか
  10. 4. LLMマルチエージェントを俯瞰 • マルチエージェントの問題設定 • ⽬的は協⼒か競争か混合か • エージェント間のコミニケーションの取り⽅ • どんなプロフィールの組み合わせがあるのか

    • どんなプロフィールの組み合わせがよいのか • 同じ役割のエージェントはチームに不要なのか • エージェント数は多いほど良いのか • コミニケーション回数は多いほど良いのか • 誰が貢献したのか • エージェントは他のエージェントを思いやれるのか • エージェントは他者と効率的に協調できるのか • LLMマルチエージェントの課題 22
  11. マルチエージェントの問題設定 問題設定をするときは以下を定義しておく • 何をするのか • 最⼤何⼈で各ロールは何か • それぞれが何を観測するのか • どんな⾏動ができるのか

    • 環境との相互作⽤はあるか • 何ラウンドおこなうのか 4. LLMマルチエージェントを俯瞰 AI AI ・・・・ ⽬的︓QAを他者と討論し回答の質向上 ⼈数︓討論者2名+最終意思決定者1名 ロール︓利⼰的と楽観的 観測︓会話履歴と相⼿の前ラウンドの⽣成結果 ⾏動︓質問に対する回答の⽣成 環境︓なし ラウンド数︓3回、回答が⼀致した段階で終了 関係性 24
  12. ⽬的は協⼒か競争か混合か • ゲーム理論やマルチエージェント強化学習と同様です。 4. LLMマルチエージェントを俯瞰 協⼒ 競争 混合 AI AI

    AI AI AI AI 互いに協⼒関係 共同執筆 救助活動 利害が対⽴ 交渉タスク 戦略ゲーム 競争と協⼒が混合 チームゲーム 市場シミュレーション コンペティション 25 & VS VS
  13. どんなプロフィールの組み合わせがあるのか 役割 • 進⾏役と実⾏者 • AI ユーザーとAI アシスタント • 短期/⻑期報酬を優先する計画者と彼らの評価者

    職業 • プログラマーとテスターとUI/UXデザイナー • 先⽣と⽣徒 • メタレビュアーとレビュアー 性格 • 過信派と楽観派 • 頑固と柔軟 • リスク愛好とリスク回避 4. LLMマルチエージェントを俯瞰 AI 27
  14. エージェント数は多いほど良いのか • エージェント数が多くなると精度が頭打ちになる場合や3~5⼈がベストでその後に精度 が悪化する場合も⾒受けられる。 • エージェント数が増える分だけ、各エージェントの⽣成内容の同期コストが増える。 4. LLMマルチエージェントを俯瞰 [左] CHATEVAL:

    TOWARDS BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE [右] Improving Factuality and Reasoning in Language Models through Multiagent Debate a c b b,c の⽣成結果を 次のプロンプトに a,c の⽣成結果を 次のプロンプトに a,b の⽣成結果を 次のプロンプトに 30
  15. エージェントは他者を思いやれるのか • ⼼の理論(Theory of Mind,ToM)をマルチエージェント協⼒ゲームで評価 • 2次ToM まで推論するのはまだ難しい 4. LLMマルチエージェントを俯瞰

    Theory of Mind for Multi-Agent Collaboration via Large Language Models 爆弾解除ゲーム ⾃⼰反省(Introspection) 「あなたは、部屋の現在の内容を知っていますか︖」 「あなたは、爆弾の状態や残りの解除⼿順が変更されたことを知っていますか︖」 1次 ToM 「他のプレイヤーが特定の部屋の現在の内容を知っているか︖」 「他のプレイヤーが特定の爆弾の状態や残りの解除⼿順が変更されたことを知っているか︖」 2次ToM 「他のプレイヤーは、あなたが特定の部屋の現在の内容を知っていることを認識しているか︖」 「他のプレイヤーは、あなたが爆弾を解除したことを知っているか︖」 33
  16. エージェントは他者と効率的に協調できるのか • 他のエージェントのことを考えて計画を適応できる • いつ助けを求めるべきかを知っており、他のエージェントの要求に応えることができる • いつ共有すべきでないかを知っている 4. LLMマルチエージェントを俯瞰 34

    d) ⾃分が⼿伝ってほしいタイミングで依頼する b) 依頼を聞いた側は相⼿の状態を確認し⼿伝う c) ⼀⽅でタスク終了間際ではヘルプを無視する Building Cooperative Embodied Agents Modularly with Large Language Models
  17. LLMマルチエージェントの課題 ü 役割の反転 • ユーザーのプロンプトに従わず、別の役割に逆転。指⽰を受ける側が指⽰を出す側に変わる ü 回答をはぐらかす • エージェントが空返事して、実際には何もしない ü

    メッセージの無限ループ • アシスタントとユーザーが無意味な会話の無限ループに陥ること ü ⻑いコンテキストによる忘却 • システムプロンプトにあるタスクのルールが、会話履歴や他エージェントの状態を間に挟むことで回答⽣ 成時に⾒過ごされる ü スケーラビリティ • エージェントの数が増えるにつれて、計算・推論コストが⾼くなる ü ハルシネーションの伝播 • 幻覚や誤解がコミニケーションで伝播し、他のエージェントが混乱する 4. LLMマルチエージェントを俯瞰 [1] CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society [2] Theory of Mind for Multi-Agent Collaboration via Large Language Models [3] The Rise and Potential of Large Language Model Based Agents: A Survey 35 1 1 1 2 3 3
  18. 複雑なQAの回答品質の向上 • MAD(Multi-Agent Debate)アプローチがQAタスクの回答精度向上になる • 計算時間やコストと精度のトレードオフではある ディベート戦略が効果的な理由 • LLMがコンテキスト内で与えられた追加情報に適応する能⼒があること •

    推論時に他のエージェントから提供される情報に基づいて内部適応している 5. LLMマルチエージェントの応⽤事例 他のMAD⼿法 • Society of Minds (SoM) • Multi-Persona • ChatEval • Self-consistency • Ensemble Refinement Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A 37
  19. シミュレーションやロールプレイング 応⽤事例 • 法廷 • 採⽤活動 • 国際問題 • サービス評価

    • ⼈間の⽇々の⽣活 • 推薦におけるユーザー⾏動 • データ収集 • コンセンサスシーク • 合意形成 • 買い⼿と売り⼿の交渉 5. LLMマルチエージェントの応⽤事例 • シミュレーションを通して、物事を評価する。 • 変数や条件を変えて、様々なケースで検証 • 現実世界で起こることも発⾒される。 38
  20. ソフトウェア開発などの業務⾃動化 5. LLMマルチエージェントの応⽤事例 [左] Communicative Agents for Software Development [右]

    CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society ⼈間は、アイデアとロールを渡す。 ユーザー役とアシスタント役が会話しながら プロトタイプ開発 フェーズレベルとチャットレベルでグループを分けて開発 • 業務上のタスクを担当者をエージェントに置き換える取り組み • コンサルティング、デザイン、スクラム開発のチケット管理など 39
  21. GPTsで公開されたアプリケーション • Tango Multi-Agent Wizard • あらゆるペルソナ、エンティティ、スタイル、専⾨知識との 対話をシミュレートできます。 • MultiAgent

    Wizard • 特定のタスクのために新しいエージェントを⾃動的に作成し、 タスク完了に向けて協⼒できます。 • Ubbe: Multi-Domain Expert Solver • エージェントが質問に合わせて、最適なロールを宣⾔し、回 答を⽣成してくれます。 • マルチロールディスカッション • 4つの異なるロールのAIとディスカッションすることで、⼀ 度に複数の観点から物事を検討できます。(ファシリ/本質思 考/冗談/⽔平思考) 6. アプリケーション 41
  22. プロジェクト① • AutoGen /Microsoft • 複数のエージェントを使⽤した LLM アプリケーション開発⽤のフレームワーク • Concordia/DeepMind

    • エージェントが⾔語を介在して物理/社会/デジタル空間の環境と相互作⽤できる • MetaGPT/多くの⽅ • ソフトウェア会社の業務を様々なロールのエージェントが協⼒して解く • AgentVerse/OpenBMB • タスク解決(開発やコンサル)かシミュレーション(ゲーム)を検証できる • Alympics/Microsoft • LLMを活⽤したゲーム理論の研究を活性化するためのプラットフォーム • Camel/CAMEL-AI.org • ユーザー役とAssistant役のエージェントが会話ベースにタスクを解く • ChatDev/OpenBMB • ソフトウェア会社の業務を様々なロールのエージェントが協⼒して解く • SaaS プラットフォームも提供開始 6. アプリケーション 42
  23. プロジェクト② • Agent4Rec/精華⼤学 • 推薦システムにおけるユーザー⾏動のシミュレーター • LLM MultiAgent Debate/Google Brain

    • ディベート形式回答アプローチで最も精度が⾼いと⾔われる”society of minds”という⼿法 • Suspicion-Agent/東京⼤学 • 不完全情報ゲームのロールプレイングができる • Multi-GPT/SID • AutoGPTをベースに作られた複数のexpertGPTが協⼒してタスクを実⾏する 6. アプリケーション 43
  24. 7. 最近の研究動向 • ⼈間とエージェントのインタラクション • ロボット同⼠のインタラクション • IoTのマルチエージェントシステム • シミュレーションとタスクの統合

    • 議論による合意の取り⽅ • 交渉のシミュレーション • 分類タスクの精度向上 • データセットの作成 • ⽣成結果の評価 • マルチモーダルなマルチエージェント 44
  25. IoTのマルチエージェントシステム IoTのMASにおけるLLMエージェントの活⽤⽅法 • 分散型意思決定エンジン • LLMエージェントを各IoTデバイスの主要な意思決定者の役割を果たす • MASティーチング • LLMエージェントがMASの指導者としての役割を果たす

    7. 最新の研究動向 Smart Streetlights ⾃律型街灯がエネルギーを節約しつつ、⼈がスムーズに移 動できるよう照明を調整する。 エネルギー消費、経路移動⼈数、トリップ累積時間を基に 評価。従来⼿法と遜⾊ない結果に。 GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems 47
  26. 議論による合意の取り⽅ • 効果的な議論にはスタンスの選択、投票、説得、情報の交換、意⾒の多様性が必要とされる • ロールの性格によっては、コンセンサスの戦略が予期せぬ⽅向へ 7. 最新の研究動向 [左] On the

    Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts [右] Multi-Agent Consensus Seeking via Large Language Models お互いに相⼿に 合わせて振動する 固執するAgentに 他が引きづられる 49
  27. 交渉のシミュレーション • 競争設定の売買交渉シミュレーションができる。 • 第三者のエージェントからフィードバックをもらうと、交渉が上⼿になる。 7. 最新の研究動向 売り⼿がエージェントの場合 フィードバックを受けると値段を釣り上 げるが交渉の成功率が下がる。GPT4は値

    段上げてもタスク成功率が⾼い… 買い⼿がエージェントの場合 フィードバックを受けると値段を下げて も、50%の交渉成功率に留まる。 Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback 50
  28. データセットの作成 • 条件の多い設定で⼈⼯データセットを作成する場合、⽣成失敗の割合が課題 • 失敗の原因は、LLMに⼀度に多くの要求を与え、LLMが理解しきれないこと • 要求を複数の単純なタスクに分解し、LLMが⼀度に1つのタスクを実⾏する 7. 最新の研究動向 52

    API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs 5段階の処理でツール利⽤の⼈⼯データセット作成 • 1対話あたりわずか$0.1のコスト • ⼿動アノテーションと⽐較してコスト98%の節約 • 採⽤割合もGPT4でマルチエージェントにすると25%→65%に向上
  29. ⽣成結果の評価 • 学術的な査読システムをモデルとしたマルチエージェントから⽣成結果の評価 • 複数の多様な評価とメタ評価を集約することで、結果のばらつきが減少する 7. 最新の研究動向 53 On Evaluating

    the Integration of Reasoning and Action in LLM Agents with Database Question Answering マルチエージェントのレビュープロセス Perf. Rate ⽣成結果を完璧とみなした割合 Agree 3⼈の意⾒の⼀致度 • レビュアーよりメタレビュアーの⽅が厳しい評価 • 評価結果のばらつきは減少
  30. まとめ • LLMエージェントからLLMマルチエージェントの問題設定や評価の観点を俯瞰しました。 • 会話をベースにした協調/競争戦略で、様々なタスクで性能向上の報告があがっています。 • 既存研究のほとんどがGPT4やトークン数の多いモデルを使っていません。 • そのため、同じ問題設定でも今では違った結果になると思われます。 •

    シミュレーションに関しても、⼈間が解釈できる現象が数多く報告されています。 • 実⽤化が進むと、提供サービスの事前評価の質がロープレにより、どんどん上がってい くと思います。 • 全体感を俯瞰した次は、まずはLLMエージェントを作ってみるのはどうでしょうか。 55
  31. 参考⽂献 LLMエージェント • LLM Agentサーベイ Wang, Lei, et al. "A

    survey on large language model based autonomous agents." arXiv preprint arXiv:2308.11432 (2023). • ツール Li, Minghao, et al. "API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs." Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023. • エキスパート Xu, Benfeng, et al. "ExpertPrompting: Instructing Large Language Models to be Distinguished Experts." arXiv preprint arXiv:2305.14688 (2023). • 性格 Huang, Jen-tse, et al. "ChatGPT an ENFJ, Bard an ISTJ: Empirical Study on Personalities of Large Language Models." arXiv preprint arXiv:2305.19926 (2023). • キャラ Shao, Yunfan, et al. "Character-llm: A trainable agent for role-playing." arXiv preprint arXiv:2310.10158 (2023). • キャラ Li, Cheng, et al. "ChatHaruhi: Reviving Anime Character in Reality via Large Language Model." arXiv preprint arXiv:2308.09597 (2023). • ロープレ Wang, Xintao, et al. "Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots." arXiv preprint arXiv:2310.17976 (2023). 56
  32. 参考⽂献 LLMマルチエージェント • 協調効果 Zhang, Hongxin, et al. "Building cooperative

    embodied agents modularly with large language models." arXiv preprint arXiv:2307.02485 (2023). • 協調効果 Zhang, Jintian, Xin Xu, and Shumin Deng. "Exploring collaboration mechanisms for llm agents: A social psychology view." arXiv preprint arXiv:2310.02124 (2023). • 協調効果 Sun, Qiushi, et al. "Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration." arXiv preprint arXiv:2310.00280 (2023). • 対話精度向上 Du, Yilun, et al. "Improving Factuality and Reasoning in Language Models through Multiagent Debate." arXiv preprint arXiv:2305.14325 (2023). • 対話精度向上 Smit, Andries, et al. "Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A." arXiv preprint arXiv:2311.17371 (2023). • 対話精度向上 Chen, Justin Chih-Yao, Swarnadeep Saha, and Mohit Bansal. "Reconcile: Round-table conference improves reasoning via consensus among diverse llms." arXiv preprint arXiv:2309.13007 (2023). • 対話精度向上 Wang, Qineng, et al. "On the Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts." arXiv preprint arXiv:2311.07076 (2023). • LLM multi-agentsサーベイ Xi, Zhiheng, et al. "The rise and potential of large language model based agents: A survey." arXiv preprint arXiv:2309.07864 (2023). • LLM multi-agentsサーベイ Talebirad, Yashar, and Amirhossein Nadiri. "Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents." arXiv preprint arXiv:2306.03314 (2023). 57
  33. 参考⽂献 LLMマルチエージェント • 競争 Fu, Yao, et al. "Improving language

    model negotiation with self-play and in-context learning from ai feedback." arXiv preprint arXiv:2305.10142 (2023). • 競争 Zhao, Qinlin, et al. "CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents." arXiv preprint arXiv:2310.17512 (2023). • ソフトウェア開発 Chen, Weize, et al. "Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents." arXiv preprint arXiv:2308.10848 (2023). • ソフトウェア開発 Hong, Sirui, et al. "Metagpt: Meta programming for multi-agent collaborative framework." arXiv preprint arXiv:2308.00352 (2023). • ソフトウェア開発 Chan, Chi-Min, et al. "Chateval: Towards better llm-based evaluators through multi-agent debate." arXiv preprint arXiv:2308.07201 (2023). • ソフトウェア開発 Qian, Chen, et al. "Communicative agents for software development." arXiv preprint arXiv:2307.07924 (2023). • ユーザー⾏動 Wang, Lei, et al. "RecAgent: A Novel Simulation Paradigm for Recommender Systems." arXiv preprint arXiv:2306.02552 (2023). • ユーザー⾏動 Park, Joon Sung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 2023. • 推薦ユーザー⾏動 Zhang, An, et al. "On Generative Agents in Recommendation." arXiv preprint arXiv:2310.10108 (2023). 58
  34. 参考⽂献 LLMマルチエージェント • フレームワーク Li, Guohao, et al. "Camel: Communicative

    agents for" mind" exploration of large scale language model society." arXiv preprint arXiv:2303.17760 (2023). • フレームワーク Vezhnevets, Alexander Sasha, et al. "Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia." arXiv preprint arXiv:2312.03664 (2023). • フレームワーク Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation framework." arXiv preprint arXiv:2308.08155 (2023). • MAシステム Nascimento, Nathalia, Paulo Alencar, and Donald Cowan. "GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems." arXiv preprint arXiv:2308.10435 (2023). • ロボット協働 Mandi, Zhao, Shreeya Jain, and Shuran Song. "Roco: Dialectic multi-robot collaboration with large language models." arXiv preprint arXiv:2307.04738 (2023). • スタンス分類 Lan, Xiaochong, et al. "Stance Detection with Collaborative Role-Infused LLM-Based Agents." arXiv preprint arXiv:2310.10467 (2023). • ⼼の理論 Li, Huao, et al. "Theory of mind for multi-agent collaboration via large language models." arXiv preprint arXiv:2310.10701 (2023). • コンセンサス Chen, Huaben, et al. "Multi-Agent Consensus Seeking via Large Language Models." arXiv preprint arXiv:2310.20151 (2023). 59
  35. 参考⽂献 LLMマルチエージェント • ⾦融取引 Yu, Yangyang, et al. "FinMe: A

    Performance-Enhanced Large Language Model Trading Agent with Layered Memory and Character Design." arXiv preprint arXiv:2311.13743 (2023). • シミュレーション&タスク Li, Yuan, Yixuan Zhang, and Lichao Sun. "Metaagents: Simulating interactions of human behaviors for llm-based task-oriented coordination via collaborative generative agents." arXiv preprint arXiv:2310.06500 (2023). • 社会シミュレーション Gao, Chen, et al. "S $^ 3$: Social-network Simulation System with Large Language Model-Empowered Agents." arXiv preprint arXiv:2307.14984 (2023). • 国際問題 Hua, Wenyue, et al. "War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars." arXiv preprint arXiv:2311.17227 (2023). • ゲーム理論 Mao, Shaoguang, et al. "ALYMPICS: Language Agents Meet Game Theory." arXiv preprint arXiv:2311.03220 (2023). • 強化学習エッセンス Zhang, Bin, et al. "Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach." arXiv preprint arXiv:2311.13884 (2023). • ⽣成結果の評価 Nan, Linyong, et al. "On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering." arXiv preprint arXiv:2311.09721 (2023). 60