Slide 1

Slide 1 text

LLM マルチエージェントを俯瞰する 2023年12⽉22⽇ 株式会社 電通国際情報サービス X(クロス)イノベーション本部 AIトランスフォーメーションセンター 太⽥真⼈

Slide 2

Slide 2 text

はじめに • ISIDで製品開発と技術開発をしているエンジニアの太⽥です。 • この資料は、研究開発で調査した内容を公開⽤にまとめました。 • 論⽂を執筆する研究向けではなく、開発エンジニアやAI新規事業企画者向けに作成しま した。 • 発展が早い業界ですので、記述内容が2024年では古いものになっているかもしれません。 • OpenAIが提供するAssistants APIを使って何をしたらいいのか、エージェントを作って何を したらいいのか興味がある⼈はぜひ、読んでほしいです。 2

Slide 3

Slide 3 text

アジェンダ 1.LLMマルチエージェントの概要 2.技術の歴史と進化 3.LLMエージェントを俯瞰 4.LLMマルチエージェントを俯瞰 5.LLMマルチエージェントの応⽤事例 6.アプリケーション 7.最新の研究動向 3

Slide 4

Slide 4 text

1. LLMマルチエージェントの概要 • LLM マルチエージェントとは • なぜLLM マルチエージェントなのか • 何が⾯⽩いのか 4

Slide 5

Slide 5 text

LLMマルチエージェントとは • Large Language Models(⼤規模⾔語モデル)を基盤とする複数のエージェントが協⼒ /競争し合い、複雑なタスクを達成するためのシステム • ⾃然⾔語を⽤いる複数のエージェントが相互作⽤することによる効率の向上に期待 協⼒ 競争 混合 1. LLMマルチエージェントの概要 AI AI AI AI AI AI 5 & VS VS

Slide 6

Slide 6 text

なぜ LLM マルチエージェントなのか 様々なタスクで期待され始めています。 • 複雑なQAの回答品質の向上 • シミュレーションやロールプレイング • ソフトウェア開発などの業務⾃動化 詳しくは、「5. LLMマルチエージェントの応⽤事例」 1. LLMマルチエージェントの概要 6

Slide 7

Slide 7 text

(個⼈的に) 何が⾯⽩いのか • シミュレーションを通して様々な業務が事前評価できるようになること • 資料レビュー、ユーザービリティテスト、顧客評価、交渉、合意形成、ロープレなど • 各エージェントに様々なロールを与えたとき、どこまでロールが実⽤的か評価すること • 性格、キャラクター、NPC、歴史上の⼈物、ドメインエキスパート、UXデザイナー、上司など • エージェント同⼠をどのようにコミニケーションを取らせると最適か考えること • ⼈間社会と同様な関係で上下関係、フラット、階層構造、1on1、討論、裁判形式など 上記を組み合わせた研究や実⽤化に向けた取り組みが⾏われています。 1. LLMマルチエージェントの概要 僕たちの関係ってなに︖ 僕はだれ︖ 僕たち何するの︖ 7

Slide 8

Slide 8 text

2. 技術の歴史と進化 • マルチエージェントの発展 • LLMマルチエージェントの誕⽣ 8

Slide 9

Slide 9 text

マルチエージェントの発展 2000年代︓マルチエージェントシステム(MAS)の研究が流⾏ • エージェントが個別モデリングの時代 • MASの研究では、エージェントベースのモデリングやシミュレーション • 応⽤︓サプライチェーン管理、電⼒市場、交通制御システム 2010年代後半︓分散深層学習やマルチエージェント強化学習(MARL)が流⾏ • エージェントが深層モデルの時代 • MARLの研究では、エージェントのスケーラビリティ問題、報酬分配の貢献度、集中訓練分散実⾏など • 応⽤︓IoT、スマートシティ、⾃動運転、ロボティクス、ゲーム(囲碁、将棋) • 分散深層学習の研究では、連合学習とその派⽣ • 応⽤︓セキュリティ、データの保護・管理、エッジAI、少データ学習、医療診断・⾦融業務データ活⽤ 2020年代︓LLMエージェントによるマルチエージェントシステムが来るか • エージェントがプロンプトの時代 2. 技術の歴史と進化 9

Slide 10

Slide 10 text

LLMマルチエージェントの誕⽣ 2022年11⽉︓ChatGPTの登場から⽣成AIが誰でも利⽤できる時代に • プロンプトベースでLLMに指⽰をして様々な活⽤が⼀気に⾒出される 2023年11⽉︓OpenAI 社のAssistants API やGPTsでエージェントの開発がより簡単に 2023年に出版されていた論⽂の遷移 • LLMはプロンプトでロールにどの程度なりきれるのか • LLMは道具を使い⾃律型エージェントになれるのか • LLMマルチエージェントの討論形式はタスクの精度向上につながるのか • LLMマルチエージェント⽤のシミュレーション環境を構築 • LLMマルチエージェントのコミニケーションのフレームワークの提案 • LLMマルチエージェント応⽤︓社会シミュレーションやソフトウェア開発 • LLMマルチエージェント応⽤の⼟台が開発も技術も整ってきた 2. 技術の歴史と進化 10

Slide 11

Slide 11 text

3. LLMエージェントを俯瞰 • LLMエージェントの定義とは • LLMエージェントの4つの構成要素 • ⼼理的側⾯ • 歴史⼈物・キャラクターの模倣 • エキスパートの模倣 • ⾃律型エージェントの素質 • ⾃律型エージェントの研究動向 • LLMエージェントの課題 11

Slide 12

Slide 12 text

LLMエージェントの定義とは 3. LLMエージェントを俯瞰 • エージェントの定義は論⽂ごとにまちまちです。 • ⾃律性、計画性、⾃⼰反省、リスク評価、メタ認知能⼒がある • ⼈間に頼らずとも⾃律的にタスクを遂⾏できる • ⼈の仕事を⽀える場合はアシスタントとする • 役割の違うシステムプロンプトを使えば別のエージェントとする • 複数のLLMを使えばマルチエージェントとする • この資料でのLLMエージェントは上記を全て含むものとして紹介します。 12

Slide 13

Slide 13 text

LLMエージェントの構成要素 3. LLMエージェントを俯瞰 ⼼理的側⾯ 歴史⼈物・キャラなどの模倣 ⾃律型エージェントの要素 エキスパートの模倣 ⾃分や相⼿の考えが理解できるか 特定の⼈物になりきれるのか 専⾨家の役割を担うと精度が⾼まるのか 認知、計画、実⾏できるのか 13

Slide 14

Slide 14 text

⼼理的側⾯ 3. LLMエージェントを俯瞰 • ⼼の理論(Theory of Mind,ToM)をLLMは持ち合わせるのか • ⼼の理論は、他者の考えや感情、信念を理解する能⼒を指します ⾃⼰反省(Introspection)︓エージェントが⾃分の精神状態を説明する能⼒ 1次ToM︓エージェントが他者の隠された精神状態を推定する能⼒ 2次ToM︓エージェントが他者が⾃分⾃⾝の精神状態について推論する能⼒ 1次ToM: あの⼦は⼼配性だなー。 2次ToM: あの⼦は、きっと僕のことを「忘れっぽいやつ」と思っているに違いない。 ⾃⼰反省︓全て僕の計算通りだ。 14 詳しくはp33

Slide 15

Slide 15 text

歴史⼈物・キャラなどの模倣 • 特定の⼈物に模倣することで性格や思考や発⾔は変化するのか • 社会科学の研究、NPCの作成、教育、ロールプレイング、チャットボットなどで応⽤ • 評価観点︓キャラクターに関する情報を思い出す能⼒、価値観、話し⽅やトーンなどの 性格、キャラが持っていない知識を披露する幻覚、⻑時間演技できる安定性 3. LLMエージェントを俯瞰 15 ⼈物の実データに基づきロールを割り当てる研究 When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm Character-LLM: A Trainable Agent for Role-Playing Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots GPT4で32キャラ性格評価 82.8%の精度

Slide 16

Slide 16 text

エキスパートの模倣 • 専⾨家のロールをプロンプトに与えることで精度が向上するのか • プロンプトの与え⽅に依存。モデルによって性能の差が⼤きい 3. LLMエージェントを俯瞰 16 ExpertPrompting: Instructing Large Language Models to be Distinguished Experts

Slide 17

Slide 17 text

⾃律型エージェントの要素 • ⾃律型エージェントは、認知、計画、⾏動ができる • この世界観を実現するためにOpenAI は Assistants API を提供したと思われます 3. LLMエージェントを俯瞰 17 The Rise and Potential of Large Language Model Based Agents: A Survey

Slide 18

Slide 18 text

⾃律型エージェントの研究動向︓認知 • プロンプトではテキストだけだったのが動画像を⼊⼒できるようになった • モダリティが増えることで、⼀般的に回答の品質は向上する 3. LLMエージェントを俯瞰 18 動画に⾳声の⽂字起こしがあると回答精度向上 画像をインプットし、画像をアプトプット [左] UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework [右] PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

Slide 19

Slide 19 text

⾃律型エージェントの研究動向︓計画 • 計画はユーザーの⼊⼒に対して、タスクを遂⾏するめの⼿順をサブタスクに分解する。 • タスクが失敗した場合は、評価し修正をしていく必要がある。 • 計画の質を⾼めるために、マルチエージェント同⼠で議論することもある。 3. LLMエージェントを俯瞰 19 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies エージェントに限らず、LLMでは⾃⼰修正 (self-correction)することはHot Topic

Slide 20

Slide 20 text

⾃律型エージェントの研究動向︓⾏動 • エージェントの⾏動はツール利⽤(別AIモデル、API Call やDB問い合わせ)がある • ツール評価観点 Level-1: 質問に対して、APIを正しく呼べるか Level-2: 必要なAPIを探せるか Level-3: 複数のAPIを組み合わせて計画できるか 3. LLMエージェントを俯瞰 20 プロンプトにAPI descriptionを記述 正しくAPIを呼べるか API-Bank: A Benchmark for Tool-Augmented LLMs API-Bankは4⽉公開の論⽂ですが、10⽉にGPT-4の評価を含めた修正版を公開

Slide 21

Slide 21 text

LLMエージェントの課題 計画に関して • 対話コンテキスト理解 • 複数のAPIを使う複雑な処理能⼒ ⾏動に関して • クエリからAPI検索 • API Call のフォーマットエラー 3. LLMエージェントを俯瞰 21 API-Bank: A Benchmark for Tool-Augmented LLMs/v2 10⽉25⽇版 ・API検索は⾃⼰修正で対応で きるか ・パラメータ類はChatGPTの JSONモードで解決するか

Slide 22

Slide 22 text

4. LLMマルチエージェントを俯瞰 • マルチエージェントの問題設定 • ⽬的は協⼒か競争か混合か • エージェント間のコミニケーションの取り⽅ • どんなプロフィールの組み合わせがあるのか • どんなプロフィールの組み合わせがよいのか • 同じ役割のエージェントはチームに不要なのか • エージェント数は多いほど良いのか • コミニケーション回数は多いほど良いのか • 誰が貢献したのか • エージェントは他のエージェントを思いやれるのか • エージェントは他者と効率的に協調できるのか • LLMマルチエージェントの課題 22

Slide 23

Slide 23 text

4. LLMマルチエージェントを俯瞰 • このセクションでは、マルチエージェントの問題設定を紹介します。 • また、研究者はどういった観点でマルチエージェントを評価しているのかも紹介します。 • 評価結果は問題設定に依存するので、注意が必要です。 23

Slide 24

Slide 24 text

マルチエージェントの問題設定 問題設定をするときは以下を定義しておく • 何をするのか • 最⼤何⼈で各ロールは何か • それぞれが何を観測するのか • どんな⾏動ができるのか • 環境との相互作⽤はあるか • 何ラウンドおこなうのか 4. LLMマルチエージェントを俯瞰 AI AI ・・・・ ⽬的︓QAを他者と討論し回答の質向上 ⼈数︓討論者2名+最終意思決定者1名 ロール︓利⼰的と楽観的 観測︓会話履歴と相⼿の前ラウンドの⽣成結果 ⾏動︓質問に対する回答の⽣成 環境︓なし ラウンド数︓3回、回答が⼀致した段階で終了 関係性 24

Slide 25

Slide 25 text

⽬的は協⼒か競争か混合か • ゲーム理論やマルチエージェント強化学習と同様です。 4. LLMマルチエージェントを俯瞰 協⼒ 競争 混合 AI AI AI AI AI AI 互いに協⼒関係 共同執筆 救助活動 利害が対⽴ 交渉タスク 戦略ゲーム 競争と協⼒が混合 チームゲーム 市場シミュレーション コンペティション 25 & VS VS

Slide 26

Slide 26 text

エージェント間のコミニケーションの取り⽅ 4. LLMマルチエージェントを俯瞰 順番か、⼀⻫に話すか 複数案出す、絞るを交互 進⾏役に従って話す • 同時会話か、決められた順番か、動的な順番か、これらの組み合わせで会話は実現 • コミニケーションのグラフ構造は様々 • ⽣成内容の伝達速度が変化する • 誰から話すかの初期値問題はある 26

Slide 27

Slide 27 text

どんなプロフィールの組み合わせがあるのか 役割 • 進⾏役と実⾏者 • AI ユーザーとAI アシスタント • 短期/⻑期報酬を優先する計画者と彼らの評価者 職業 • プログラマーとテスターとUI/UXデザイナー • 先⽣と⽣徒 • メタレビュアーとレビュアー 性格 • 過信派と楽観派 • 頑固と柔軟 • リスク愛好とリスク回避 4. LLMマルチエージェントを俯瞰 AI 27

Slide 28

Slide 28 text

どんなプロフィールの組み合わせがよかったのか エージェントの組み合わせを変えて実験をおこなう。性格違いの場合、⼤きな差はない ⼀⽅で、協⼒の仕⽅(ディベートと⾃⼰修正の順番)次第で精度に影響がでる 4. LLMマルチエージェントを俯瞰 EXPLORING COLLABORATION MECHANISMS FOR LLM AGENTS: A SOCIAL PSYCHOLOGY VIEW ⾏⽅向で⽐較し、⻘が精度が⾼い。⾚は精度が低い。 縦がロールの組み合わせ、横が協調戦略。 ディベート中⼼で最後に⾃⼰修正が最も良い性能な結果 28

Slide 29

Slide 29 text

同じ役割のエージェントはチームに不要か • 同じ役割のエージェントが複数いる場合、シングルエージェントと同様の精度結果に近 づく可能性もある。 • なるべく異なる役割を⽤意するのが良さそう 4. LLMマルチエージェントを俯瞰 CHATEVAL: TOWARDS BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE a a a a b c < 役割 General Public Critic News Author Psychologist Scientist ディベートベースでQAタスク 29

Slide 30

Slide 30 text

エージェント数は多いほど良いのか • エージェント数が多くなると精度が頭打ちになる場合や3~5⼈がベストでその後に精度 が悪化する場合も⾒受けられる。 • エージェント数が増える分だけ、各エージェントの⽣成内容の同期コストが増える。 4. LLMマルチエージェントを俯瞰 [左] CHATEVAL: TOWARDS BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE [右] Improving Factuality and Reasoning in Language Models through Multiagent Debate a c b b,c の⽣成結果を 次のプロンプトに a,c の⽣成結果を 次のプロンプトに a,b の⽣成結果を 次のプロンプトに 30

Slide 31

Slide 31 text

コミニケーション回数は多いほど良いのか • コミニケーション回数が多くなると精度が頭打ちになる場合や精度が悪化する場合も⾒ 受けられる。 • コミニケーション回数が増える分だけ、幻覚や無駄な会話が⽣まれるリスクがある。 • 適切な終了条件を設定する必要がある。 4. LLMマルチエージェントを俯瞰 [左] CHATEVAL: TOWARDS BETTER LLM-BASED EVALUA- TORS THROUGH MULTI-AGENT DEBATE [右] Improving Factuality and Reasoning in Language Models through Multiagent Debate 31

Slide 32

Slide 32 text

誰が貢献したのか • 誰かを除いたときの精度劣化具合で評価。劣化具合が激しいほど、重要なエージェント • SHAP値を計算するように全てのエージェントの組み合わせで精度を⾒るわけではない 4. LLMマルチエージェントを俯瞰 ⼀番上の⾏から専⾨家がいなくなるとどれだけ精度が劣化したかが重要。 下から⼆⾏⽬は専⾨家が誰もいない場合の結果。⼤きく劣化するケース もあるし、落ちないケースもある。 協⼒して開発するケースでは、プログラマーだけとそれ以外のロー ルがいることで成果物の電卓がどう変化するかを⽰している。 [左] Stance Detection with Collaborative Role-Infused LLM-Based Agents [右] AGENTVERSE: FACILITATING MULTI-AGENT COLLAB- ORATION AND EXPLORING EMERGENT BEHAVIORS 32

Slide 33

Slide 33 text

エージェントは他者を思いやれるのか • ⼼の理論(Theory of Mind,ToM)をマルチエージェント協⼒ゲームで評価 • 2次ToM まで推論するのはまだ難しい 4. LLMマルチエージェントを俯瞰 Theory of Mind for Multi-Agent Collaboration via Large Language Models 爆弾解除ゲーム ⾃⼰反省(Introspection) 「あなたは、部屋の現在の内容を知っていますか︖」 「あなたは、爆弾の状態や残りの解除⼿順が変更されたことを知っていますか︖」 1次 ToM 「他のプレイヤーが特定の部屋の現在の内容を知っているか︖」 「他のプレイヤーが特定の爆弾の状態や残りの解除⼿順が変更されたことを知っているか︖」 2次ToM 「他のプレイヤーは、あなたが特定の部屋の現在の内容を知っていることを認識しているか︖」 「他のプレイヤーは、あなたが爆弾を解除したことを知っているか︖」 33

Slide 34

Slide 34 text

エージェントは他者と効率的に協調できるのか • 他のエージェントのことを考えて計画を適応できる • いつ助けを求めるべきかを知っており、他のエージェントの要求に応えることができる • いつ共有すべきでないかを知っている 4. LLMマルチエージェントを俯瞰 34 d) ⾃分が⼿伝ってほしいタイミングで依頼する b) 依頼を聞いた側は相⼿の状態を確認し⼿伝う c) ⼀⽅でタスク終了間際ではヘルプを無視する Building Cooperative Embodied Agents Modularly with Large Language Models

Slide 35

Slide 35 text

LLMマルチエージェントの課題 ü 役割の反転 • ユーザーのプロンプトに従わず、別の役割に逆転。指⽰を受ける側が指⽰を出す側に変わる ü 回答をはぐらかす • エージェントが空返事して、実際には何もしない ü メッセージの無限ループ • アシスタントとユーザーが無意味な会話の無限ループに陥ること ü ⻑いコンテキストによる忘却 • システムプロンプトにあるタスクのルールが、会話履歴や他エージェントの状態を間に挟むことで回答⽣ 成時に⾒過ごされる ü スケーラビリティ • エージェントの数が増えるにつれて、計算・推論コストが⾼くなる ü ハルシネーションの伝播 • 幻覚や誤解がコミニケーションで伝播し、他のエージェントが混乱する 4. LLMマルチエージェントを俯瞰 [1] CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society [2] Theory of Mind for Multi-Agent Collaboration via Large Language Models [3] The Rise and Potential of Large Language Model Based Agents: A Survey 35 1 1 1 2 3 3

Slide 36

Slide 36 text

5. LLMマルチエージェントの応⽤事例 • 複雑なQAの回答品質の向上 • シミュレーションやロールプレイング • ソフトウェア開発などの業務⾃動化 36

Slide 37

Slide 37 text

複雑なQAの回答品質の向上 • MAD(Multi-Agent Debate)アプローチがQAタスクの回答精度向上になる • 計算時間やコストと精度のトレードオフではある ディベート戦略が効果的な理由 • LLMがコンテキスト内で与えられた追加情報に適応する能⼒があること • 推論時に他のエージェントから提供される情報に基づいて内部適応している 5. LLMマルチエージェントの応⽤事例 他のMAD⼿法 • Society of Minds (SoM) • Multi-Persona • ChatEval • Self-consistency • Ensemble Refinement Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A 37

Slide 38

Slide 38 text

シミュレーションやロールプレイング 応⽤事例 • 法廷 • 採⽤活動 • 国際問題 • サービス評価 • ⼈間の⽇々の⽣活 • 推薦におけるユーザー⾏動 • データ収集 • コンセンサスシーク • 合意形成 • 買い⼿と売り⼿の交渉 5. LLMマルチエージェントの応⽤事例 • シミュレーションを通して、物事を評価する。 • 変数や条件を変えて、様々なケースで検証 • 現実世界で起こることも発⾒される。 38

Slide 39

Slide 39 text

ソフトウェア開発などの業務⾃動化 5. LLMマルチエージェントの応⽤事例 [左] Communicative Agents for Software Development [右] CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society ⼈間は、アイデアとロールを渡す。 ユーザー役とアシスタント役が会話しながら プロトタイプ開発 フェーズレベルとチャットレベルでグループを分けて開発 • 業務上のタスクを担当者をエージェントに置き換える取り組み • コンサルティング、デザイン、スクラム開発のチケット管理など 39

Slide 40

Slide 40 text

6. LLMマルチエージェントアプリケーション • GPTsで公開されたアプリケーション • プロジェクト 40

Slide 41

Slide 41 text

GPTsで公開されたアプリケーション • Tango Multi-Agent Wizard • あらゆるペルソナ、エンティティ、スタイル、専⾨知識との 対話をシミュレートできます。 • MultiAgent Wizard • 特定のタスクのために新しいエージェントを⾃動的に作成し、 タスク完了に向けて協⼒できます。 • Ubbe: Multi-Domain Expert Solver • エージェントが質問に合わせて、最適なロールを宣⾔し、回 答を⽣成してくれます。 • マルチロールディスカッション • 4つの異なるロールのAIとディスカッションすることで、⼀ 度に複数の観点から物事を検討できます。(ファシリ/本質思 考/冗談/⽔平思考) 6. アプリケーション 41

Slide 42

Slide 42 text

プロジェクト① • AutoGen /Microsoft • 複数のエージェントを使⽤した LLM アプリケーション開発⽤のフレームワーク • Concordia/DeepMind • エージェントが⾔語を介在して物理/社会/デジタル空間の環境と相互作⽤できる • MetaGPT/多くの⽅ • ソフトウェア会社の業務を様々なロールのエージェントが協⼒して解く • AgentVerse/OpenBMB • タスク解決(開発やコンサル)かシミュレーション(ゲーム)を検証できる • Alympics/Microsoft • LLMを活⽤したゲーム理論の研究を活性化するためのプラットフォーム • Camel/CAMEL-AI.org • ユーザー役とAssistant役のエージェントが会話ベースにタスクを解く • ChatDev/OpenBMB • ソフトウェア会社の業務を様々なロールのエージェントが協⼒して解く • SaaS プラットフォームも提供開始 6. アプリケーション 42

Slide 43

Slide 43 text

プロジェクト② • Agent4Rec/精華⼤学 • 推薦システムにおけるユーザー⾏動のシミュレーター • LLM MultiAgent Debate/Google Brain • ディベート形式回答アプローチで最も精度が⾼いと⾔われる”society of minds”という⼿法 • Suspicion-Agent/東京⼤学 • 不完全情報ゲームのロールプレイングができる • Multi-GPT/SID • AutoGPTをベースに作られた複数のexpertGPTが協⼒してタスクを実⾏する 6. アプリケーション 43

Slide 44

Slide 44 text

7. 最近の研究動向 • ⼈間とエージェントのインタラクション • ロボット同⼠のインタラクション • IoTのマルチエージェントシステム • シミュレーションとタスクの統合 • 議論による合意の取り⽅ • 交渉のシミュレーション • 分類タスクの精度向上 • データセットの作成 • ⽣成結果の評価 • マルチモーダルなマルチエージェント 44

Slide 45

Slide 45 text

⼈間とエージェントのインタラクション ⼈間とエージェントが協働でタスクを遂⾏するとエージェント同⼠より性能は良いのか︖ ⼈間はエージェントをどう感じるのか︖ 7. 最新の研究動向 移動歩数が少ない⽅が良い ⼀般的な家庭活動がタスク アフタヌーンティーの準備、⾷器洗い ⾷事の準備、⾷料品の準備、⾷卓の準備 [左]⼈間とエージェントの協調の⽅が若⼲精度が⾼い。 [右] エージェントに会話があった⽅が信頼でき、役⽴つ。 事後アンケート7段階評価 Building Cooperative Embodied Agents Modularly with Large Language Models 45

Slide 46

Slide 46 text

ロボット同⼠のインタラクション • ロボット同⼠が協調してタスクを遂⾏する。 • RoCoでは、ロボット同⼠が対話し、制約条件を満たすまで繰り返しサブタスクの計画をする • ⾏動計画では、障害物のある環境でオブジェクト取得までの経路をLLMが⽣成する • 5回まで失敗を許容し、その度に修正フィードバックをかけるとGPT-4は30回の実⾏で平均2.73回の試⾏で86.7% の成功率。環境が複雑化すると精度は悪化 7. 最新の研究動向 RoCo: Dialectic Multi-Robot Collaboration with Large Language Models 46

Slide 47

Slide 47 text

IoTのマルチエージェントシステム IoTのMASにおけるLLMエージェントの活⽤⽅法 • 分散型意思決定エンジン • LLMエージェントを各IoTデバイスの主要な意思決定者の役割を果たす • MASティーチング • LLMエージェントがMASの指導者としての役割を果たす 7. 最新の研究動向 Smart Streetlights ⾃律型街灯がエネルギーを節約しつつ、⼈がスムーズに移 動できるよう照明を調整する。 エネルギー消費、経路移動⼈数、トリップ累積時間を基に 評価。従来⼿法と遜⾊ない結果に。 GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems 47

Slide 48

Slide 48 text

シミュレーションとタスクの統合 • シミュレーション上のLLMエージェントがそれぞれ⾃⾝のタスク遂⾏のために⾏動する。 • MetaAgentsではリクルーターと求職者がそれぞれLLMエージェントとして⾏動する。 • エラー分析で最も多いミスは、現実でも起こりうるMisplacement問題が挙げられていた。 • 求職者がリクルーターの募集内容に対して出来ないことをできると⾔い誤って採⽤されること 7. 最新の研究動向 METAAGENTS: SIMULATING INTERACTIONS OF HU- MAN BEHAVIORS FOR LLM-BASED TASK-ORIENTED COORDINATION VIA COLLABORATIVE GENERATIVE AGENTS 求職者︓スキルが活かせ る職に就く。 リクルーター︓プロジェ クトに必要な求職者を雇 う。 48

Slide 49

Slide 49 text

議論による合意の取り⽅ • 効果的な議論にはスタンスの選択、投票、説得、情報の交換、意⾒の多様性が必要とされる • ロールの性格によっては、コンセンサスの戦略が予期せぬ⽅向へ 7. 最新の研究動向 [左] On the Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts [右] Multi-Agent Consensus Seeking via Large Language Models お互いに相⼿に 合わせて振動する 固執するAgentに 他が引きづられる 49

Slide 50

Slide 50 text

交渉のシミュレーション • 競争設定の売買交渉シミュレーションができる。 • 第三者のエージェントからフィードバックをもらうと、交渉が上⼿になる。 7. 最新の研究動向 売り⼿がエージェントの場合 フィードバックを受けると値段を釣り上 げるが交渉の成功率が下がる。GPT4は値 段上げてもタスク成功率が⾼い… 買い⼿がエージェントの場合 フィードバックを受けると値段を下げて も、50%の交渉成功率に留まる。 Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback 50

Slide 51

Slide 51 text

分類タスクの精度向上 • SNSに投稿された⽂章のスタンス(賛成、反対など)を分類するタスクにも応⽤ • 最初に専⾨家ロールに⾒解を⽣成させ、クラス名ごとに議論し最終判断をする • 議論が判断根拠にもなり、スタンス分類では精度も最も⾼い⼿法になっている 7. 最新の研究動向 51 Stance Detection with Collaborative Role-Infused LLM-Based Agents

Slide 52

Slide 52 text

データセットの作成 • 条件の多い設定で⼈⼯データセットを作成する場合、⽣成失敗の割合が課題 • 失敗の原因は、LLMに⼀度に多くの要求を与え、LLMが理解しきれないこと • 要求を複数の単純なタスクに分解し、LLMが⼀度に1つのタスクを実⾏する 7. 最新の研究動向 52 API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs 5段階の処理でツール利⽤の⼈⼯データセット作成 • 1対話あたりわずか$0.1のコスト • ⼿動アノテーションと⽐較してコスト98%の節約 • 採⽤割合もGPT4でマルチエージェントにすると25%→65%に向上

Slide 53

Slide 53 text

⽣成結果の評価 • 学術的な査読システムをモデルとしたマルチエージェントから⽣成結果の評価 • 複数の多様な評価とメタ評価を集約することで、結果のばらつきが減少する 7. 最新の研究動向 53 On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering マルチエージェントのレビュープロセス Perf. Rate ⽣成結果を完璧とみなした割合 Agree 3⼈の意⾒の⼀致度 • レビュアーよりメタレビュアーの⽅が厳しい評価 • 評価結果のばらつきは減少

Slide 54

Slide 54 text

マルチモーダルなマルチエージェント 個⼈的な思い • 既存研究のLLMマルチエージェントは仮想/現実環境との相互作⽤がテキストベースでし た。 • それゆえに問題設定、プロフィール、さらに別エージェントの観測内容も含め、環境の 状態を⾔語で受け取るとトークン消費が激しいです。 • 最近ではトークン⻑も128kまで増えているため、より複雑な問題に挑戦できます。 • さらに動画像がプロンプトに⼊れられ、環境とのインタラクションが⾃然になります。 • スマートシティや防災など環境センシングではより⾼度な活⽤が期待できます。 7. 最新の研究動向 54

Slide 55

Slide 55 text

まとめ • LLMエージェントからLLMマルチエージェントの問題設定や評価の観点を俯瞰しました。 • 会話をベースにした協調/競争戦略で、様々なタスクで性能向上の報告があがっています。 • 既存研究のほとんどがGPT4やトークン数の多いモデルを使っていません。 • そのため、同じ問題設定でも今では違った結果になると思われます。 • シミュレーションに関しても、⼈間が解釈できる現象が数多く報告されています。 • 実⽤化が進むと、提供サービスの事前評価の質がロープレにより、どんどん上がってい くと思います。 • 全体感を俯瞰した次は、まずはLLMエージェントを作ってみるのはどうでしょうか。 55

Slide 56

Slide 56 text

参考⽂献 LLMエージェント • LLM Agentサーベイ Wang, Lei, et al. "A survey on large language model based autonomous agents." arXiv preprint arXiv:2308.11432 (2023). • ツール Li, Minghao, et al. "API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs." Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023. • エキスパート Xu, Benfeng, et al. "ExpertPrompting: Instructing Large Language Models to be Distinguished Experts." arXiv preprint arXiv:2305.14688 (2023). • 性格 Huang, Jen-tse, et al. "ChatGPT an ENFJ, Bard an ISTJ: Empirical Study on Personalities of Large Language Models." arXiv preprint arXiv:2305.19926 (2023). • キャラ Shao, Yunfan, et al. "Character-llm: A trainable agent for role-playing." arXiv preprint arXiv:2310.10158 (2023). • キャラ Li, Cheng, et al. "ChatHaruhi: Reviving Anime Character in Reality via Large Language Model." arXiv preprint arXiv:2308.09597 (2023). • ロープレ Wang, Xintao, et al. "Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots." arXiv preprint arXiv:2310.17976 (2023). 56

Slide 57

Slide 57 text

参考⽂献 LLMマルチエージェント • 協調効果 Zhang, Hongxin, et al. "Building cooperative embodied agents modularly with large language models." arXiv preprint arXiv:2307.02485 (2023). • 協調効果 Zhang, Jintian, Xin Xu, and Shumin Deng. "Exploring collaboration mechanisms for llm agents: A social psychology view." arXiv preprint arXiv:2310.02124 (2023). • 協調効果 Sun, Qiushi, et al. "Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration." arXiv preprint arXiv:2310.00280 (2023). • 対話精度向上 Du, Yilun, et al. "Improving Factuality and Reasoning in Language Models through Multiagent Debate." arXiv preprint arXiv:2305.14325 (2023). • 対話精度向上 Smit, Andries, et al. "Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A." arXiv preprint arXiv:2311.17371 (2023). • 対話精度向上 Chen, Justin Chih-Yao, Swarnadeep Saha, and Mohit Bansal. "Reconcile: Round-table conference improves reasoning via consensus among diverse llms." arXiv preprint arXiv:2309.13007 (2023). • 対話精度向上 Wang, Qineng, et al. "On the Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts." arXiv preprint arXiv:2311.07076 (2023). • LLM multi-agentsサーベイ Xi, Zhiheng, et al. "The rise and potential of large language model based agents: A survey." arXiv preprint arXiv:2309.07864 (2023). • LLM multi-agentsサーベイ Talebirad, Yashar, and Amirhossein Nadiri. "Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents." arXiv preprint arXiv:2306.03314 (2023). 57

Slide 58

Slide 58 text

参考⽂献 LLMマルチエージェント • 競争 Fu, Yao, et al. "Improving language model negotiation with self-play and in-context learning from ai feedback." arXiv preprint arXiv:2305.10142 (2023). • 競争 Zhao, Qinlin, et al. "CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents." arXiv preprint arXiv:2310.17512 (2023). • ソフトウェア開発 Chen, Weize, et al. "Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents." arXiv preprint arXiv:2308.10848 (2023). • ソフトウェア開発 Hong, Sirui, et al. "Metagpt: Meta programming for multi-agent collaborative framework." arXiv preprint arXiv:2308.00352 (2023). • ソフトウェア開発 Chan, Chi-Min, et al. "Chateval: Towards better llm-based evaluators through multi-agent debate." arXiv preprint arXiv:2308.07201 (2023). • ソフトウェア開発 Qian, Chen, et al. "Communicative agents for software development." arXiv preprint arXiv:2307.07924 (2023). • ユーザー⾏動 Wang, Lei, et al. "RecAgent: A Novel Simulation Paradigm for Recommender Systems." arXiv preprint arXiv:2306.02552 (2023). • ユーザー⾏動 Park, Joon Sung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 2023. • 推薦ユーザー⾏動 Zhang, An, et al. "On Generative Agents in Recommendation." arXiv preprint arXiv:2310.10108 (2023). 58

Slide 59

Slide 59 text

参考⽂献 LLMマルチエージェント • フレームワーク Li, Guohao, et al. "Camel: Communicative agents for" mind" exploration of large scale language model society." arXiv preprint arXiv:2303.17760 (2023). • フレームワーク Vezhnevets, Alexander Sasha, et al. "Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia." arXiv preprint arXiv:2312.03664 (2023). • フレームワーク Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation framework." arXiv preprint arXiv:2308.08155 (2023). • MAシステム Nascimento, Nathalia, Paulo Alencar, and Donald Cowan. "GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems." arXiv preprint arXiv:2308.10435 (2023). • ロボット協働 Mandi, Zhao, Shreeya Jain, and Shuran Song. "Roco: Dialectic multi-robot collaboration with large language models." arXiv preprint arXiv:2307.04738 (2023). • スタンス分類 Lan, Xiaochong, et al. "Stance Detection with Collaborative Role-Infused LLM-Based Agents." arXiv preprint arXiv:2310.10467 (2023). • ⼼の理論 Li, Huao, et al. "Theory of mind for multi-agent collaboration via large language models." arXiv preprint arXiv:2310.10701 (2023). • コンセンサス Chen, Huaben, et al. "Multi-Agent Consensus Seeking via Large Language Models." arXiv preprint arXiv:2310.20151 (2023). 59

Slide 60

Slide 60 text

参考⽂献 LLMマルチエージェント • ⾦融取引 Yu, Yangyang, et al. "FinMe: A Performance-Enhanced Large Language Model Trading Agent with Layered Memory and Character Design." arXiv preprint arXiv:2311.13743 (2023). • シミュレーション&タスク Li, Yuan, Yixuan Zhang, and Lichao Sun. "Metaagents: Simulating interactions of human behaviors for llm-based task-oriented coordination via collaborative generative agents." arXiv preprint arXiv:2310.06500 (2023). • 社会シミュレーション Gao, Chen, et al. "S $^ 3$: Social-network Simulation System with Large Language Model-Empowered Agents." arXiv preprint arXiv:2307.14984 (2023). • 国際問題 Hua, Wenyue, et al. "War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars." arXiv preprint arXiv:2311.17227 (2023). • ゲーム理論 Mao, Shaoguang, et al. "ALYMPICS: Language Agents Meet Game Theory." arXiv preprint arXiv:2311.03220 (2023). • 強化学習エッセンス Zhang, Bin, et al. "Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach." arXiv preprint arXiv:2311.13884 (2023). • ⽣成結果の評価 Nan, Linyong, et al. "On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering." arXiv preprint arXiv:2311.09721 (2023). 60