15 ⼈物の実データに基づきロールを割り当てる研究 When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm Character-LLM: A Trainable Agent for Role-Playing Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots GPT4で32キャラ性格評価 82.8%の精度
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies エージェントに限らず、LLMでは⾃⼰修正 (self-correction)することはHot Topic
TOWARDS BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE [右] Improving Factuality and Reasoning in Language Models through Multiagent Debate a c b b,c の⽣成結果を 次のプロンプトに a,c の⽣成結果を 次のプロンプトに a,b の⽣成結果を 次のプロンプトに 30
[左] CHATEVAL: TOWARDS BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE [右] Improving Factuality and Reasoning in Language Models through Multiagent Debate 31
Theory of Mind for Multi-Agent Collaboration via Large Language Models 爆弾解除ゲーム ⾃⼰反省(Introspection) 「あなたは、部屋の現在の内容を知っていますか︖」 「あなたは、爆弾の状態や残りの解除⼿順が変更されたことを知っていますか︖」 1次 ToM 「他のプレイヤーが特定の部屋の現在の内容を知っているか︖」 「他のプレイヤーが特定の爆弾の状態や残りの解除⼿順が変更されたことを知っているか︖」 2次ToM 「他のプレイヤーは、あなたが特定の部屋の現在の内容を知っていることを認識しているか︖」 「他のプレイヤーは、あなたが爆弾を解除したことを知っているか︖」 33
メッセージの無限ループ • アシスタントとユーザーが無意味な会話の無限ループに陥ること ü ⻑いコンテキストによる忘却 • システムプロンプトにあるタスクのルールが、会話履歴や他エージェントの状態を間に挟むことで回答⽣ 成時に⾒過ごされる ü スケーラビリティ • エージェントの数が増えるにつれて、計算・推論コストが⾼くなる ü ハルシネーションの伝播 • 幻覚や誤解がコミニケーションで伝播し、他のエージェントが混乱する 4. LLMマルチエージェントを俯瞰 [1] CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society [2] Theory of Mind for Multi-Agent Collaboration via Large Language Models [3] The Rise and Potential of Large Language Model Based Agents: A Survey 35 1 1 1 2 3 3
推論時に他のエージェントから提供される情報に基づいて内部適応している 5. LLMマルチエージェントの応⽤事例 他のMAD⼿法 • Society of Minds (SoM) • Multi-Persona • ChatEval • Self-consistency • Ensemble Refinement Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A 37
CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society ⼈間は、アイデアとロールを渡す。 ユーザー役とアシスタント役が会話しながら プロトタイプ開発 フェーズレベルとチャットレベルでグループを分けて開発 • 業務上のタスクを担当者をエージェントに置き換える取り組み • コンサルティング、デザイン、スクラム開発のチケット管理など 39
Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts [右] Multi-Agent Consensus Seeking via Large Language Models お互いに相⼿に 合わせて振動する 固執するAgentに 他が引きづられる 49
段上げてもタスク成功率が⾼い… 買い⼿がエージェントの場合 フィードバックを受けると値段を下げて も、50%の交渉成功率に留まる。 Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback 50
the Integration of Reasoning and Action in LLM Agents with Database Question Answering マルチエージェントのレビュープロセス Perf. Rate ⽣成結果を完璧とみなした割合 Agree 3⼈の意⾒の⼀致度 • レビュアーよりメタレビュアーの⽅が厳しい評価 • 評価結果のばらつきは減少
survey on large language model based autonomous agents." arXiv preprint arXiv:2308.11432 (2023). • ツール Li, Minghao, et al. "API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs." Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023. • エキスパート Xu, Benfeng, et al. "ExpertPrompting: Instructing Large Language Models to be Distinguished Experts." arXiv preprint arXiv:2305.14688 (2023). • 性格 Huang, Jen-tse, et al. "ChatGPT an ENFJ, Bard an ISTJ: Empirical Study on Personalities of Large Language Models." arXiv preprint arXiv:2305.19926 (2023). • キャラ Shao, Yunfan, et al. "Character-llm: A trainable agent for role-playing." arXiv preprint arXiv:2310.10158 (2023). • キャラ Li, Cheng, et al. "ChatHaruhi: Reviving Anime Character in Reality via Large Language Model." arXiv preprint arXiv:2308.09597 (2023). • ロープレ Wang, Xintao, et al. "Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots." arXiv preprint arXiv:2310.17976 (2023). 56
embodied agents modularly with large language models." arXiv preprint arXiv:2307.02485 (2023). • 協調効果 Zhang, Jintian, Xin Xu, and Shumin Deng. "Exploring collaboration mechanisms for llm agents: A social psychology view." arXiv preprint arXiv:2310.02124 (2023). • 協調効果 Sun, Qiushi, et al. "Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration." arXiv preprint arXiv:2310.00280 (2023). • 対話精度向上 Du, Yilun, et al. "Improving Factuality and Reasoning in Language Models through Multiagent Debate." arXiv preprint arXiv:2305.14325 (2023). • 対話精度向上 Smit, Andries, et al. "Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A." arXiv preprint arXiv:2311.17371 (2023). • 対話精度向上 Chen, Justin Chih-Yao, Swarnadeep Saha, and Mohit Bansal. "Reconcile: Round-table conference improves reasoning via consensus among diverse llms." arXiv preprint arXiv:2309.13007 (2023). • 対話精度向上 Wang, Qineng, et al. "On the Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts." arXiv preprint arXiv:2311.07076 (2023). • LLM multi-agentsサーベイ Xi, Zhiheng, et al. "The rise and potential of large language model based agents: A survey." arXiv preprint arXiv:2309.07864 (2023). • LLM multi-agentsサーベイ Talebirad, Yashar, and Amirhossein Nadiri. "Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents." arXiv preprint arXiv:2306.03314 (2023). 57
model negotiation with self-play and in-context learning from ai feedback." arXiv preprint arXiv:2305.10142 (2023). • 競争 Zhao, Qinlin, et al. "CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents." arXiv preprint arXiv:2310.17512 (2023). • ソフトウェア開発 Chen, Weize, et al. "Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents." arXiv preprint arXiv:2308.10848 (2023). • ソフトウェア開発 Hong, Sirui, et al. "Metagpt: Meta programming for multi-agent collaborative framework." arXiv preprint arXiv:2308.00352 (2023). • ソフトウェア開発 Chan, Chi-Min, et al. "Chateval: Towards better llm-based evaluators through multi-agent debate." arXiv preprint arXiv:2308.07201 (2023). • ソフトウェア開発 Qian, Chen, et al. "Communicative agents for software development." arXiv preprint arXiv:2307.07924 (2023). • ユーザー⾏動 Wang, Lei, et al. "RecAgent: A Novel Simulation Paradigm for Recommender Systems." arXiv preprint arXiv:2306.02552 (2023). • ユーザー⾏動 Park, Joon Sung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 2023. • 推薦ユーザー⾏動 Zhang, An, et al. "On Generative Agents in Recommendation." arXiv preprint arXiv:2310.10108 (2023). 58
agents for" mind" exploration of large scale language model society." arXiv preprint arXiv:2303.17760 (2023). • フレームワーク Vezhnevets, Alexander Sasha, et al. "Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia." arXiv preprint arXiv:2312.03664 (2023). • フレームワーク Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation framework." arXiv preprint arXiv:2308.08155 (2023). • MAシステム Nascimento, Nathalia, Paulo Alencar, and Donald Cowan. "GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems." arXiv preprint arXiv:2308.10435 (2023). • ロボット協働 Mandi, Zhao, Shreeya Jain, and Shuran Song. "Roco: Dialectic multi-robot collaboration with large language models." arXiv preprint arXiv:2307.04738 (2023). • スタンス分類 Lan, Xiaochong, et al. "Stance Detection with Collaborative Role-Infused LLM-Based Agents." arXiv preprint arXiv:2310.10467 (2023). • ⼼の理論 Li, Huao, et al. "Theory of mind for multi-agent collaboration via large language models." arXiv preprint arXiv:2310.10701 (2023). • コンセンサス Chen, Huaben, et al. "Multi-Agent Consensus Seeking via Large Language Models." arXiv preprint arXiv:2310.20151 (2023). 59
Performance-Enhanced Large Language Model Trading Agent with Layered Memory and Character Design." arXiv preprint arXiv:2311.13743 (2023). • シミュレーション&タスク Li, Yuan, Yixuan Zhang, and Lichao Sun. "Metaagents: Simulating interactions of human behaviors for llm-based task-oriented coordination via collaborative generative agents." arXiv preprint arXiv:2310.06500 (2023). • 社会シミュレーション Gao, Chen, et al. "S $^ 3$: Social-network Simulation System with Large Language Model-Empowered Agents." arXiv preprint arXiv:2307.14984 (2023). • 国際問題 Hua, Wenyue, et al. "War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars." arXiv preprint arXiv:2311.17227 (2023). • ゲーム理論 Mao, Shaoguang, et al. "ALYMPICS: Language Agents Meet Game Theory." arXiv preprint arXiv:2311.03220 (2023). • 強化学習エッセンス Zhang, Bin, et al. "Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach." arXiv preprint arXiv:2311.13884 (2023). • ⽣成結果の評価 Nan, Linyong, et al. "On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering." arXiv preprint arXiv:2311.09721 (2023). 60