(論文読み)MMAU: 「LLMエージェントの評価」に特化したベンチマーク

LLM論文輪読会 MMAU: A Holistic Benchmark of Agent Capabilities Across
Diverse Domains https://arxiv.org/abs/2407.18961 1

目次 1.Introduction ▶ 2.Related Work ▶ 3.The MMAU Benchmark ▶
4.Evaluation ▶ 5.Analysis and Discussion ▶ 6.Conclusion ▶ 2

想定読者 AI研究者および開発者 ▶ 大規模言語モデル（LLM）の性能評価に関心がある専門家 ▶ AIエージェントの能力評価に興味を持つ学生や実務者 ▶ AIの倫理と社会的影響に関心がある政策立案者 ▶ 3

1. Introduction (1/2) LLMの急速な進歩により、人間のようなエージェントとしての能力評価が喫緊の課題となっている ▶ 既存のベンチマークの問題点: ▶ タスク完了に焦点を当てすぎており、根本的な能力の評価が不十分 - 複雑な数学問題の場合、理解不足、推論エラー、計算ミスのどれが原因か判別困難
- 環境設定に多大な労力が必要 - 特に対話型タスクでの実装と評価が困難 - 信頼性と再現性に欠ける - 環境のフィードバックの確率的性質により、一貫した結果を得ることが困難 - 4

1. Introduction (2/2) MMAUベンチマークの特徴: ▶ 5つの本質的な能力を評価: 理解、推論、計画、問題解決、自己修正 - 5つのドメインにわたる評価: ツール使用、DAG
QA、データサイエンス＆機械学習コーディング、コンテストレベルのプログラミング、数学 - 20の綿密に設計されたタスクを含み、3000以上の異なるプロンプトを網羅 - 静的なデータセットを使用し、環境の不安定性を排除 - 複雑な環境設定を不要とし、評価の再現性を向上 - 能力別の詳細な評価により、モデルの長所と短所を明確に識別可能 - 5

2. Related Work (1/3) LLMベースの汎用エージェントフレームワークの発展: ▶ Auto-GPT: 目標を実行可能なステップに分解し、補助ツールを使用 - AutoGen:
複数エージェント間の自律的な協調を実現 - LangChain: 実用的なアプリケーションを容易に構築 - Camel: 制御とカスタマイズを重視 - AGENTS: 動的に特化したエージェントを生成 - AutoAgents, XAgent: 複雑なタスクを効果的に管理 - 6

2. Related Work (2/3) エージェントベンチマークの多様化: ▶ 機能呼び出し: Berkeley Function Calling
Leaderboard, NexusRaven V2, ToolBench - ウェブ環境操作: Webshop, WebArena, Mind2Web, MiniWoB++ - UIオートメーション: PixelHelp, MetaGUI, MoTIF, AITW, OmniACT - ソフトウェアエンジニアリング: SWE-bench - 包括的ベンチマーク: - AgentBench: コーディング、ゲーム、数学タスクを統合 - AgentBoard: ウェブ閲覧、ツール使用、具現化AI、ゲームドメインを評価 - 7

2. Related Work (3/3) MMAUの独自性: ▶ 基本的な能力の分離評価に焦点 - より広範な能力セットを評価（理解、推論、計画、問題解決、自己修正） -
静的データセットを使用し、評価の簡素化と再現性の向上を実現 - 64の科目にわたる3000以上の独自プロンプトを含む包括的なデータセット - 8

3. The MMAU Benchmark: Capabilities (1/2) 5つの基本的能力の詳細: ▶ Understanding: -
複雑な指示理解、ユーザー意図理解、統計解析、視覚的理解を評価 - 多様なドメインでの長文理解能力を測定 - Reasoning: - 複雑な要因から論理的に推論する能力 - 因果関係の把握、仮説の立案と検証能力を評価 - Planning: - 問題解決のための戦略を立てる能力 - 段階的なアプローチ、リソース配分、時間管理能力を測定 - 9

3. The MMAU Benchmark: Capabilities (2/2) Problem-solving: ▶ 理解と計画が適切な場合に、タスクを実行する能力 -
実装スキル、エラー処理、最適化能力を評価 - Self-correction: ▶ エラーを特定し、環境や過去の行動から学び、修正する能力 - フィードバックの解釈、適応能力、継続的な改善能力を測定 - 10

3. The MMAU Benchmark: Planner-shift and Solver-shift 2段階の生成プロセスを通じて、推論/計画と問題解決能力を分離評価 ▶ Planner-shift:
▶ プランナーモデルのみを変更し、ソルバーモデルを固定 - 高レベルの計画生成能力を独立して評価 - Solver-shift: ▶ ソルバーモデルのみを変更し、プランナーモデルを固定 - 与えられた計画に基づく実行能力を独立して評価 - この設計により、計画能力と実行能力の個別評価が可能に ▶ 11

1.Tool-Use: 独自のツール使用データセットを作成 ▶ RapidAPI Hubの一部の機能を選択し、現実的なシナリオを人間のアノテーターが作成 - 409の単一ステップと258の複数ステップのツール使用会話を含む ▶ 単一ツール使用、並列ツール使用、複数ツール使用の評価 ▶
DAG QAタスク: ツールの選択と順序付けの能力を評価 ▶ ツール使用自己修正タスク: 一時的なエラーや不正確な呼び出しへの対応を評価 ▶ 12

2.Data Science & Machine Learning: Meta Kaggle Codeデータセットを活用し、28のPythonノートブックスタイルの会話を作成 ▶ 123の会話ターンを含み、83のテキスト出力要求と40の画像出力要求を含む
▶ コード生成とQAを組み合わせたタスクを設計 ▶ E2Eコード生成とQA、コード生成とGPT-4 QA、オラクルコードからのQA、自己修正 - テキストと画像の出力を含む多様なタスク ▶ 13

3.Contest-Level Coding: CodeContestsデータセットから261問を選択 ▶ E2E標準: 多様なコーディング問題を解決する能力を評価 ▶ Planner-shift、Solver-shift: 計画と問題解決能力を分離評価 ▶
問題解析: コードを書かずに問題を理解する能力を評価 ▶ 自己修正: エラーメッセージを基にコードを修正する能力を評価 ▶ 14

4.Mathematics: DeepMind-Mathから1000問を選択、56の科目をカバー ▶ E2E標準: Chain-of-Thought (CoT)を使用した数学問題解決能力を評価 ▶ Planner-shift、Solver-shift: 数学的推論と計算能力を分離評価 ▶
Comprehend+: ▶ 数学的に単純だが記述が複雑な676問の新しい問題を生成 - LLMを使用して問題の記述を複雑化し、理解能力を重点的に評価 - 15

4. Evaluation 16

4. Evaluation: Overview 18のモデルを評価（GPT-4、Claude3、Gemini、Mixtral、Llama2など） ▶ ドメイン中心の評価と能力中心の評価を実施 ▶ 17

4. Evaluation: ドメイン中心の評価結果 API型商用モデルがオープンソースモデルを全ドメインで上回る ▶ GPT-4ファミリーが最も高いパフォーマンスを示す - Claude3-OpusとGemini-1.5-proも良好な性能を示す - オープンソースモデル間の差異:
▶ Hermes-2-Pro-Mistral-7Bがツール使用で強い性能を示す - Mixtral-8x22Bが数学とDAG-QAで高性能 - Phi-3がモデルサイズを考慮すると数学で良好な性能 - Llama2ファミリーは難しいコーディングタスクで苦戦 - 18

4. Evaluation: 能力中心の評価結果理解能力: ▶ GPT-4oが他を大きく上回り、複雑な指示や暗黙の意図の理解に優れる - GPT-4、Gemini-1.5-pro、Claude3-Opusも強い理解能力を示す - 推論と計画:
▶ GPT-4ファミリーが最強の性能を示す - 他のモデルとの差が顕著 - 問題解決: ▶ モデル間の差が比較的小さい - 「オラクル」プランが与えられた場合、多くのモデルが問題を解決可能 - 自己修正: ▶ モデル間で大きな差が存在 - 多くのオープンソースモデルが自己修正能力に欠ける - Mixtral-8x22Bを除く他のオープンソースモデルは効果的な自己修正が困難 - 19

5. Analysis and Discussion 20

計画能力の重要性高品質な計画が全モデルのパフォーマンスを向上 ▶ Command Rの性能が8.21%から33.33%に向上 - Llama-2-70Bの性能が8.43%から32.10%に向上 - Mixtral-8x22Bでも50%から60.02%に改善 -
自身を計画者として使用しても性能が向上 ▶ GPT-4oの性能が53.4%から61.2%に向上 - 高レベル戦略の明示的な計画がパフォーマンス向上の鍵 ▶ 21

能力の難易度の違い問題解決は比較的容易に達成可能 ▶ モデル間の性能差が小さく、普遍的に獲得しやすい能力 - 自己修正は多くのモデルにとって困難 ▶ モデル間で大きな性能差があり、今後の研究開発が必要な重要な能力 - 22

バランスの取れた能力の重要性強力なモデル（GPT-4ファミリーなど）は全能力でバランスの取れたパフォーマンスを示す ▶ 能力間の高い相関と相互依存性を示唆 ▶ 一つの能力が弱いモデルは他の能力も弱い傾向がある ▶ 23

モデルサイズと性能の関係 MistralAIファミリーではモデルサイズの増加に伴い一貫して性能が向上 ▶ Llama-2ファミリーでは必ずしもそうではない ▶ コード関連ドメインでは全サイズ変種が低性能 - DAG-QAではLlama-2-7Bが大型モデルより良好な性能 - 訓練戦略とモデルアーキテクチャもスケーリング則に影響を与える
▶ AgentBenchの結果と一貫性があり、スケーリング則の複雑性を示唆 ▶ 24

6. Conclusion 25

6. Conclusion: MMAUの主な貢献アプリケーションシナリオと基本的能力の両面から包括的な評価を提供 ▶ 20の綿密に設計されたタスクを通じて能力を分解し、より細かい洞察を可能に ▶ 静的データセットを使用し、評価の再現性と信頼性を向上 ▶ 26

6. Conclusion: 限界と今後の課題対話型環境の含有が必要 ▶ 実世界のシナリオをより正確に反映するため - より多くのドメインと能力の追加 ▶ 情報検索、記憶、逐次的意思決定などの能力の評価
- 複合能力のさらなる分解と評価方法の改善 ▶ より精緻な能力評価手法の開発 - 27

6. Conclusion: 倫理的配慮と社会的影響評価が偏見や有害なコンテンツを強化しないよう注意が必要 ▶ データセットとプロンプトにおける個人識別情報や不適切なコンテンツの検出と緩和 ▶ LLMエージェントの発展が社会に与える潜在的影響の継続的な検討 ▶ 28

まとめ MMAUは、LLMエージェントの能力を包括的に評価する新しいベンチマーク ▶ 5つの基本能力（理解、推論、計画、問題解決、自己修正）を5つのドメインで評価 ▶ 静的データセットを使用し、再現性と信頼性を向上 ▶ 商用APIモデルがオープンソースモデルを性能で上回る傾向 ▶ 計画能力の重要性と、自己修正能力の困難さを明確化
▶ モデルサイズと性能の関係は単純ではなく、訓練戦略とアーキテクチャも重要 ▶ 今後の課題として、対話型環境の導入やより多くの能力の評価が必要 ▶ 29

用語 DAG QA: Directed Acyclic Graph Question Answering（有向非巡回グラフを用いた質問応答） ▶ Chain-of-Thought
(CoT): 思考の連鎖。問題解決過程を段階的に示す手法 ▶ API: Application Programming Interface（アプリケーションプログラミングインターフェース） ▶ Planner-shift: 計画立案者を変更するタスク設計 ▶ Solver-shift: 問題解決者を変更するタスク設計 ▶ E2E: End-to-End（エンドツーエンド）。全過程を一貫して行うこと ▶ GPT: Generative Pre-trained Transformer（生成的事前学習済みトランスフォーマー） ▶ Mixtral, Llama: 特定のLLMモデルの名称 ▶ 30

(論文読み)MMAU: 「LLMエージェントの評価」に特化したベンチマーク

(論文読み)MMAU: 「LLMエージェントの評価」に特化したベンチマーク

ymgc

More Decks by ymgc

Other Decks in Technology

Featured

Transcript

LLM論文輪読会 MMAU: A Holistic Benchmark of Agent Capabilities Across

目次 1.Introduction ▶ 2.Related Work ▶ 3.The MMAU Benchmark ▶

想定読者 AI研究者および開発者 ▶ 大規模言語モデル（LLM）の性能評価に関心がある専門家 ▶ AIエージェントの能力評価に興味を持つ学生や実務者 ▶ AIの倫理と社会的影響に関心がある政策立案者 ▶ 3

1. Introduction (2/2) MMAUベンチマークの特徴: ▶ 5つの本質的な能力を評価: 理解、推論、計画、問題解決、自己修正 - 5つのドメインにわたる評価: ツール使用、DAG

2. Related Work (1/3) LLMベースの汎用エージェントフレームワークの発展: ▶ Auto-GPT: 目標を実行可能なステップに分解し、補助ツールを使用 - AutoGen:

2. Related Work (2/3) エージェントベンチマークの多様化: ▶ 機能呼び出し: Berkeley Function Calling

2. Related Work (3/3) MMAUの独自性: ▶ 基本的な能力の分離評価に焦点 - より広範な能力セットを評価（理解、推論、計画、問題解決、自己修正） -

3. The MMAU Benchmark: Capabilities (1/2) 5つの基本的能力の詳細: ▶ Understanding: -

3. The MMAU Benchmark: Capabilities (2/2) Problem-solving: ▶ 理解と計画が適切な場合に、タスクを実行する能力 -

3. The MMAU Benchmark: Planner-shift and Solver-shift 2段階の生成プロセスを通じて、推論/計画と問題解決能力を分離評価 ▶ Planner-shift:

2.Data Science & Machine Learning: Meta Kaggle Codeデータセットを活用し、28のPythonノートブックスタイルの会話を作成 ▶ 123の会話ターンを含み、83のテキスト出力要求と40の画像出力要求を含む

3.Contest-Level Coding: CodeContestsデータセットから261問を選択 ▶ E2E標準: 多様なコーディング問題を解決する能力を評価 ▶ Planner-shift、Solver-shift: 計画と問題解決能力を分離評価 ▶

4.Mathematics: DeepMind-Mathから1000問を選択、56の科目をカバー ▶ E2E標準: Chain-of-Thought (CoT)を使用した数学問題解決能力を評価 ▶ Planner-shift、Solver-shift: 数学的推論と計算能力を分離評価 ▶

4. Evaluation 16

4. Evaluation: Overview 18のモデルを評価（GPT-4、Claude3、Gemini、Mixtral、Llama2など） ▶ ドメイン中心の評価と能力中心の評価を実施 ▶ 17

4. Evaluation: 能力中心の評価結果理解能力: ▶ GPT-4oが他を大きく上回り、複雑な指示や暗黙の意図の理解に優れる - GPT-4、Gemini-1.5-pro、Claude3-Opusも強い理解能力を示す - 推論と計画:

5. Analysis and Discussion 20

計画能力の重要性高品質な計画が全モデルのパフォーマンスを向上 ▶ Command Rの性能が8.21%から33.33%に向上 - Llama-2-70Bの性能が8.43%から32.10%に向上 - Mixtral-8x22Bでも50%から60.02%に改善 -

6. Conclusion 25

6. Conclusion: 限界と今後の課題対話型環境の含有が必要 ▶ 実世界のシナリオをより正確に反映するため - より多くのドメインと能力の追加 ▶ 情報検索、記憶、逐次的意思決定などの能力の評価

用語 DAG QA: Directed Acyclic Graph Question Answering（有向非巡回グラフを用いた質問応答） ▶ Chain-of-Thought