# MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Slide 1

Slide 1 text

MLGym: A New Framework and Benchmark for Advancing AI Research Agents Deepak Nathani, et al., 2025. arXiv preprint arXiv:2502.14499 https://arxiv.org/abs/2502.14499 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28

Slide 2

Slide 2 text

論文著者第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 2/71

Slide 3

Slide 3 text

概要 MLGym, MLGym-Bench: LLMエージェントをAI研究タスクで評価・開発するためのフレームワーク・ベンチマーク Gym環境: 強化学習アルゴリズム等を用いてエージェントを訓練 AI研究タスク: コンピュータビジョン・自然言語処理・強化学習・ゲーム理論など 13のオープンエンドなタスク AI研究スキル: 新しいアイデアや仮説の生成・データ作成と処理・ML手法の実装・モデルのトレーニング・実験実施・結果分析・プロセス全体の改善と反復最先端LLMの評価: Claude-3.5-Sonnet, Llama-3.1, GPT-4o, o1, Gemini-1.5 Pro フレームワーク: 新タスクの追加・モデルやエージェントの統合と評価・スケーラブルな合成データ生成・新たな学習アルゴリズムの開発・オープンソース第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 3/71

Slide 4

Slide 4 text

MLGym全体像 LLMエージェントをAI研究タスクで評価・開発するためのフレームワーク第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 4/71

Slide 5

Slide 5 text

目次 1 Introduction 2 Related Work 3 MLGym 4 MLGym-Bench 5 Experimental Setup 6 Evaluation 7 Results 8 Discussion and Limitations 9 Ethical Considerations 10 Conclusions 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 5/71

Slide 6

Slide 6 text

背景 AI研究の長期目標: 科学的発見を加速すること未来のビジョン AI研究エージェントが、文献検索・仮説生成・実験計画・新手法の実装・結果の分析・論文執筆・製品への応用・研究プロセスの全ての部分を支援完全自律 or 人間の監督下これまでの成功例新薬の発見 (Hessler and Baringhaus, 2018), (Schneider et al., 2020) マテリアルサイエンス (Guo et al., 2021) 膨大な知識グラフを分析することで、隠れた分野横断的関係性 (interdisciplinary relationships)を明らかにし、斬新な洞察と解決策を導く第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 6/71

Slide 7

Slide 7 text

AI研究タスクの課題科学的方法研究結果の信頼性と再現性を保証する必要実験的検証・厳密な評価・標準化されたベンチマークが求められる AI研究タスクの課題 AI研究タスクを実施する能力を評価するためのフレームワークやベンチマークがなく、客観的に進歩を測定し、改善すべき分野を特定することが困難第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 7/71

Slide 8

Slide 8 text

先行研究近年、ソフトウェアエンジニアリング(SWE)・機械学習(ML)タスクで、大規模言語モデル(LLM)のエージェント能力を評価する論文が増加問題点オープンエンドの研究課題ではなく、狭い研究領域のみ様々な学習アルゴリズム(強化学習・カリキュラム学習・オープンエンド学習など)の研究を可能にするように設計されていない様々な研究成果物(モデル・アルゴリズム・予測セットなど)を評価できない第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 8/71

Slide 9

Slide 9 text

本研究の貢献 MLGym LLMエージェントをオープンエンドなAI研究タスクに対して開発・評価するためのフレームワーク強化学習(RL)・カリキュラム学習・オープンエンド学習など、様々なAIエージェントの学習アルゴリズムの研究が可能 MLGym-Bench 13のオープンエンドなAI研究タスクコンピュータビジョン(CV)・自然言語処理(NLP)・強化学習・ゲーム理論など LLMエージェントの相対的な性能をより公平に評価するための評価指標の提案 5つの最先端LLMを一貫した実験設定のもと比較第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 9/71

Slide 10

Slide 10 text

AI研究エージェントの能力分類レベル説明 Level 0: Reproduction LLMエージェントは、元のコードへのアクセスの有無にかかわらず、既存の研究論文を再現することができる Level 1: Baseline Improvement (MLGym-Benchのフォーカス) 最先端(SOTA)ではないベースライン・コードが与えられた場合、ベンチマークの性能を改善することができる Level 2: SOTA Achievement タスクの説明と SOTA 手法の発明以前に発表された文献へのアクセスのみが与えられた場合、ベンチマークで SOTA の性能を達成することができる Level 3: Novel Scientific Contribution NeurIPSのようなトップMLカンファレンスで発表する価値のある新規の科学的貢献を提供することができる Level 4: Groundbreaking Scientific Contribution NeurIPSのような権威あるMLカンファレンスで口頭発表または最優秀論文賞として発表するに値する科学的貢献をすることができる Level 5: Long-Term Research Agenda ノーベル賞やチューリング賞といった賞に値する、パラダイムシフトを起こすような研究のブレークスルーを提供することができる第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 10/71

Slide 11

Slide 11 text

Slide 12

Slide 12 text

既存のAI研究フレームワーク・ベンチマークとの比較 Algorithmic Tasks: 新しいアルゴリズムを考え出す必要のあるタスク(強化学習・ゲーム理論・SAT 問題など) Open-ended Research: 研究コミュニティによって完全に解決されていないタスク(言語モデリング・ゲーム理論・SAT 問題など) Flexible Artifacts: 様々な研究成果物(モデルの重み・強化学習アルゴリズム・コードなど)の許容第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 12/71

Slide 13

Slide 13 text

既存のAI研究ベンチマーク MLE-Bench (Chan et al., 2024) Kaggleコンペティションの狭い範囲の機械学習タスク SWE-Bench / SWE-Agent (Yang et al., 2024) Githubのissuesを解決することに焦点 MLAgentBench (Huang et al., 2024) ML専門のタスク(回帰・分類・コードの高速化)と最近の研究課題に焦点 RE-bench (METR, 2024) 広範なMLエンジニアリングタスク ScienceAgentBench (Chen et al., 2024) 査読付き論文から抽出されたデータ駆動型の科学的発見タスク第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 13/71

Slide 14

Slide 14 text

評価方法の比較 MLGym Pythonコードを提供するだけでよく、エージェントが現在の解決策の品質を調べることができる簡単にモデルとエージェントの両方を評価することができる MLE-Bench 各質問の採点にCSVファイルを提出 SWE-Bench / SWE-Agent ユニットテストのコレクションを通じてコードを評価 MLAgentBench, RE-Bench, ScienceAgentBench 評価スコアを計算するためのPythonスクリプトを提供第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 14/71

Slide 15

Slide 15 text

エージェント型LLM ツール拡張型LLMの研究に触発され、エージェント型LLM("agentic" LLMs)という研究課題が提案されている既存研究 LLMにツールやAPIを使わせる・Webをナビゲートさせる・OSとの接続・ゲームをプレイ・シミュレーション世界 or 物理的世界との相互作用エージェント型LLMの評価環境の設計・ツールの提供・タスクと目標の定義・システムの性能を測定するための定量的指標の設定が必要エージェント型LLMのベンチマーク複雑なタスクに対する、体系的で多面的な評価、結果の検証可能性・再現性を担保するベンチマークが求められている第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 15/71

Slide 16

Slide 16 text

既存のLLMエージェント研究ソフトウェアエンジニアリング(SWE)エージェント体系的な評価が可能な管理された環境において、エージェントがコードレベルの課題を解決する能力を評価データサイエンスエージェントデータサイエンス作業の自動化・テキスト to SQL・自律型マルチモーダルエージェントなど探索指向エージェントモンテカルロツリーサーチ(MCTS)・最良優先探索(best-first search)・テストタイム探索(test-time search)・エージェントレスシステムなど第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 16/71

Slide 17

Slide 17 text

ソフトウェアエンジニアリングエージェント SWE-Agent (Yang et al., 2024) ファイル作成・リポジトリナビゲーション・コードテスト OpenHands (Wang et al., 2024c) 安全なコマンド実行・検証可能なWebブラウジング Magentic-One (Fourney et al., 2024) Webナビゲーション機能 AutoCodeRover (Zhang et al., 2024b) LLMベースのプログラミングと、抽象構文木としてのプログラム表現を組み合わせて、Githubのissuesを解決第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 17/71

Slide 18

Slide 18 text

データサイエンスエージェント AutoKaggle (Li et al., 2024) マルチエージェントの人間支援システム AgentK v1.0 (Grosnit et al., 2024) エンドツーエンドの自律型データサイエンスエージェント Spider 2.0 (Lei et al., 2024) テキストからSQLへのワークフローの自動化 Spider 2-V (Cao et al., 2024) 自律的なマルチモーダルエージェント企業データサイエンス・エンジニアリングワークフローの自動化第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 18/71

Slide 19

Slide 19 text

探索指向エージェント SWE-Search (Antoniades et al., 2024) MCTSと反復改良を組み合わせたマルチエージェントフレームワーク (Koh et al., 2024b) LLMエージェントに最良優先探索(best-first search)を組み込む (Yu et al., 2025) MCTSベースのテストタイム探索(test-time search)と自己学習技術 (Xia et al., 2024) 3ステッププロセスに従う比較的単純なエージェントレスシステム SWE-bench Liteで複雑なエージェントベースの方法を上回る第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 19/71

Slide 20

Slide 20 text

科学研究エージェント制御されたソフトウェア工学タスク研究は、より複雑な自動化の基盤を築く一方で、再現可能で検証可能なアプローチも維持しかし、ソフトウェア基盤だけでは、科学研究の加速という目標には不十分限定された環境と評価指標のある明確に定義された課題から、オープンエンド課題というあまり定義されていない領域に向かうには、研究エージェントの能力を高めるために多大な努力が必要例科学的な新規性を測定する自動化可能な基準の提案異分野からの自動化された発見を継承した理論の構築(constructing theories inheriting the automated findings from heterogeneous disciplines) 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 20/71

Slide 21

Slide 21 text

科学研究エージェントに向けた最初の一歩 ML研究とデータサイエンスの分野から始めることができる明確な定義形式的な基準(formal criteria) 検証可能性(verifiability) ベンチマークとテスト反証可能性(falsifiability) データリーク・記憶・ドメイン外汎化に対するアブレーション研究とテスト再現性(reproducibility) 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 21/71

Slide 22

Slide 22 text

データサイエンスタスク最近の研究古典的なデータサイエンスタスクと実際のリポジトリベースのタスクエージェントの自律性のレベルに差がある ML-Bench (Tang et al., 2024) GitHubリポジトリ内の明示的なタスクに焦点 Data Interpreter (Hong et al., 2024) コーディングタスク・数学的推論・OCR・Web検索・ミニゲーム生成などのオープンエンドアプリケーション SUPER (Bogin et al., 2024) エージェントがタスクを自ら定義し、NLP関連のデータとタスクについて繰り返し反復する第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 22/71

Slide 23

Slide 23 text

AI研究モデルとシミュレーションの存在により、機械学習自体が自動化の対象となるタスクを自ら定義しオープンエンドタスクに取り組むエージェントは、機械学習方法自体の自動的エージェント強化(automatic agentic enhancement)につながる AutoML手法とNAS手法は、制約のある環境(明示的な手順セット・探索空間・戦略の定義)におけるML自動化の基盤を築いてきた一方、エージェントアプローチは、そのような仕様なしにオープンエンドの解決策を提案できる第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 23/71

Slide 24

Slide 24 text

AI研究タスク MLAgentBench (Huang et al., 2024) 画像分類の改善から言語モデリングまでの13の複雑なタスク RE-Bench (METR, 2024) 7つの多様で難しいMLタスクで、人間の専門家と比較 2時間が与えられた場合、トップエージェントが人間の専門家の4倍のスコアを達成。ただし、32時間では人間がエージェントの2倍のスコアを達成 MLE-bench (Chan et al., 2024) Kaggleタスクをエージェント評価のソースとして使用。試行時間は24時間 AI Scientist (Lu et al., 2024) 論文生成のためのエンドツーエンドの実験サイクルに基づくタスク第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 24/71

Slide 25

Slide 25 text

科学的発見タスク (DiscoveryWorld) DiscoveryWorld (Jansen et al., 2024) ゲームのような仮想発見環境で評価される科学エージェントのベンチマークエージェントに、仮説の生成・実験計画と実行・結果の分析・結論に基づいた行動を求める 120のタスク: プロテオミクス・化学・考古学・物理学・農学・ロケット科学・言語学・疫学などの分野カスタムシミュレーションエンジンは、限られた対象と14の行動のみタスクに特化した解決策ではなく、一般的な発見スキルに焦点評価・対象空間・行動空間がすべての科学的ドメインに共通している第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 25/71

Slide 26

Slide 26 text

科学的発見タスク (ScienceAgentBench) ScienceAgentBench (Chen et al., 2024) 44の厳選された査読付き論文に基づくデータ駆動型の発見タスク分野: バイオインフォマティクス・計算化学・地理情報科学・神経科学 102のタスク: データ処理・モデリング・可視化など各タスクはPythonベースの評価環境、最終結果の評価、中間評価基準で定義データ汚染とエージェントのショートカット問題を制御する特別な評価基準プロンプトを用いた純粋なLLMを含む異なるベースラインを比較エージェントが有用な解を生成するためには、実行フィードバックが必要第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 26/71

Slide 27

Slide 27 text

科学的発見タスク (ResearchAgent) ResearchAgent (Baek et al., 2024) 実行フィードバックと反復的改善のアイデア文献ベースの発見に基づくエージェント的な概念ベースのアプローチが、エンドツーエンドの反復的な解決策生成を大幅に改善エージェントは、主観的な人間の好みのアノテーションと、自動的な人間の好みだけで評価エンドツーエンドの実験パイプラインの構造化された側面をカバー問題の明確さ・実現可能性・重要性・関連性・独創性・方法の汎用性・革新性・実験の再現性・妥当性など客観的な評価基準で補完された人間の判断だけに依存することは不十分第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 27/71

Slide 28

Slide 28 text

Slide 29

Slide 29 text

MLGym 全体像第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 29/71

Slide 30

Slide 30 text

LLMエージェントによるML研究開発 LLMエージェントは、シェル環境とやり取りすることで、MLの研究開発が可能タスクの説明・初期コード・行動と観測履歴が与えられた場合、適切なシェルコマンドを生成し、以下のような研究目的を達成アイデア生成・データ処理・新手法の実装、モデルの訓練と評価・結果の分析・次に実行すべき実験の推論などエージェントは、タスクの説明と以前のコマンドの実行フィードバックに基づいて、繰り返し行動を促され、インコンテキストで解決策を開発し自己改善できる第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 30/71

Slide 31

Slide 31 text

MLGymフレームワーク既存の強化学習分野から着想を得て、AI研究エージェント向け Gym (Brockman et al., 2016) 環境を構築ローカルのdockerコンテナのシェルでコマンドを実行できるエージェント・環境・データセット・タスクの4つのコアコンポーネント MLGymのモジュラー設計により、ライブラリを簡単に利用・拡張可能他のエージェントハーネスを実装して性能向上ツールを追加して環境を拡張タスクに対するデータセットを追加例: CIFAR-10の画像分類タスクにImageNetを追加ベンチマークにタスクを追加第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 31/71

Slide 32

Slide 32 text

エージェントエージェントクラスは、ベースLLMをラップし、さまざまなモデル・履歴プロセッサ・コスト管理を統合エージェントと環境を分離しているため、外部エージェントを簡単に統合できる過去の全ての観測と行動の履歴を入力として受け取り、次の行動を返す行動は環境に渡され、コマンドが実行され、コマンドの出力に基づいて次の観測が返される環境で任意のbashコマンドを実行できるファイルの編集などのbashスクリプトのセットにアクセスでき、他のbashコマンドと同様に使用できるデフォルトのエージェントとしてSWE-Agentを適応したエージェントを提供第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 32/71

Slide 33

Slide 33 text

環境 MLGym環境は、Gymnasium (gym) 環境として設計シェル環境をローカルのdockerマシンで初期化ツールのインストール・Python依存関係のインストール・全ての必要なデータとコードを別々のエージェントワークスペースにコピー・LLMエージェントとシステムの間のやり取りを管理ファイルとディレクトリの権限を管理ツールとACI (Agent-Computer Interface)をエージェントから分離して、エージェントと環境が緊密に結合されることを防ぐ環境が初期化されると、作業環境のツールも初期化され、ツールのドキュメントが作成され、LLMエージェントのプロンプトに追加できる第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 33/71

Slide 34

Slide 34 text

データセットデータセットの定義を簡単な構成ファイルを使用して抽象化ローカルのデータセットとHugging Faceデータセットの両方をサポートデータセットの定義をタスクの定義から分離単一のデータセットを複数のタスクで使用可能単一のタスクに複数のデータセットを持たせることができ、エージェントのコードをすべてのデータセットで評価することで、実装された手法の汎用性を実証ローカルのデータセットの場合、環境は関連ファイルを読み取り専用でコピーエージェントがデータセットファイルを変更できないようにし、再現性と不正行為を防止第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 34/71

Slide 35

Slide 35 text

タスク設定ファイルを使って、任意のML研究タスクを簡単に定義各タスクには、1つ以上のデータセット・評価スクリプト(読み取り専用)・conda 環境・オプションのスターターコードなどを組み込むことができる評価: すべてのMLタスクにとって重要なコンポーネントタスクごとに異なる評価プロトコルが必要 KaggleのようなCSVファイルの提出させる評価方法は、すべての問題に適しているわけではないタスク定義で、評価スクリプトと提出成果物の指示を提供 LLMエージェントは、提出指示に従い適切なコードを書くよう促される第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 35/71

Slide 36

Slide 36 text

ツールとACI 外部ツールを使用できるようにすることは、知識集約的なタスクを進める上で重要なコンポーネント SWE-Agentで導入されたACI (agent-computer interface) を拡張検索・ナビゲーション・ファイルビューア・ファイルエディタ・コンテキスト管理を、権限管理システム付きで拡張新しいコマンドとして、文献検索とメモリモジュールを導入文献検索と実験ログをメモリに保持する機能は、エージェントがオープンエンドの研究タスクでSOTA解を超えるために重要ツールは、BashまたはPythonスクリプトとして定義システムプロンプトですべてのツールのドキュメントを提供第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 36/71

Slide 37

Slide 37 text

ツールのリスト第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 37/71

Slide 38

Slide 38 text

文献検索とPDFパーサー外部ソースから知識を検索・抽出するための2つのツールを提供文献検索ツール: Semantic Scholar APIに問い合わせ、指定されたクエリに関する研究論文を検索し、オープンアクセスのPDFをダウンロード PDFパーサーツール: PDFをダウンロードして、テキストベースの表現に変換論文の内容は、コンテキストウィンドウとメモリモジュールに保存可能 2つのツールを組み合わせることで、研究論文の検索・分析をワークフローの一部として組み込むことができる第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 38/71

Slide 39

Slide 39 text

メモリモジュールエージェントの長期的なAI研究タスクのパフォーマンスを向上させるための重要なツール構造化されたメモリシステムを使用して、重要な発見と成功した訓練構成を永続的に保存し、長いタスクにおけるコンテキスト保持という課題を克服メモリモジュールがある場合、エージェントはメモリから最適な訓練構成を取得し、それに続いて反復し続けることができることが観察されたメモリモジュールがない場合、エージェントの軌跡がモデルのコンテキスト長よりも長くなり、最適な設定を取り出すことが出来ず、古い実験を忘れ、最近の構成に対してのみ局所的に反復してしまう第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 39/71

Slide 40

Slide 40 text

メモリモジュールから訓練構成を取得し探索を再開 memory_read コマンドで最適な訓練構成を取得 (上から 2番目の緑色のセル) その訓練構成を基に解の探索を再開 (3番目以降のセル) 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 40/71

Slide 41

Slide 41 text

メモリモジュールの機能 memory_writeとmemory_readという2つのコア機能 memory_write: テキストデータをJSON形式で保存し、それに対応する埋め込みとタグを保存して、主要な洞察と効果的な構成を保存 memory_read: 与えられたクエリとのコサイン類似度に基づいて、最も関連性の高い上位k個のエントリを取得し、以前に成功した構成から反復可能実験結果は、メモリモジュールが長期的なタスクに与えるポジティブな影響を示しているさらにこの機能を強化するために、システムプロンプトにメモリの状態(メモリタグとレコード数)を追加し、エージェントが保存されているデータの種類を認識できるようにした第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 41/71

Slide 42

Slide 42 text

メモリモジュールの改善の方向性改善の方向性より構造化されたメモリ形式を導入する (例: 階層モデルや関係モデル) メモリ操作をモデルの訓練やファインチューニングプロセスに直接組み込む重要な洞察を選択し、不要なエントリを削除し、メモリを更新するサブエージェントを使用堅牢性と拡張性を確保するために、広範な実験と厳密なテストが必要第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 42/71

Slide 43

Slide 43 text

Slide 44

Slide 44 text

MLGym-Bench 動機: データ処理・モデルアーキテクチャ・戦略的意思決定など、機械学習のさまざまな側面を解決できるエージェントの作成に挑戦することカテゴリ: データサイエンス・ゲーム理論・コンピュータビジョン・自然言語処理・強化学習実世界の課題を表すように注意深く選択し、モデルが様々なシナリオにわたって汎化し、効果的に実行する能力をテスト標準化された評価スクリプト・ベースライン実装第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 44/71

Slide 45

Slide 45 text

タスクのリスト第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 45/71

Slide 46

Slide 46 text

参考: Multi-Genre Natural Language Inference (MultiNLI) (Williams et al., 2018) 自然言語推論含意関係認識 (recognizing textual entailment) 文のペアを提示して、含意 (E)・中立(N)・矛盾(C)の3つのカテゴリに分類第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 46/71

Slide 47

Slide 47 text

参考: MountainCar Continuous (Lange, 2022) 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 47/71

Slide 48

Slide 48 text

参考: Breakout MinAtar (Young et al., 2019) (Lange, 2022) 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 48/71

Slide 49

Slide 49 text

Slide 50

Slide 50 text

実験セットアップエージェント SWE-Agentベースのエージェントを使用シンプルなReActスタイルの思考と行動のループに従う (Yao et al., 2023) ACIドキュメント・タスクとデータセットの説明・短い一般的な指示を提示され、ML研究者として行動ステップ毎に単一のコマンドを使用し、対話的なセッションコマンド (例: Python REPL, vim) は使用不可 5つの最先端言語モデルを temperature=0.0 と top-p=0.95 で使用 OpenAI O1-preview, Gemini 1.5 Pro, Claude-3.5-Sonnet, Llama-3-405b- instruct, GPT-4o 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 50/71

Slide 51

Slide 51 text

環境設定ウィンドウ設定: 1000行のウィンドウサイズ、2行のオーバーラップコンテキスト管理: 直近の5つのインタラクション (行動と観測) を保持コマンドインターフェース: 標準のbash操作・ファイル操作コマンド・ファイル編集コマンド・ファイルとディレクトリの検索コマンド・評価コマンドを提供 1回のエージェントの実行は50ステップまで制限され、最後のコードベースの状態が自動的に提出エージェントの実行時間を制御し、モデルのパラメータ数を単に増やすことを防ぐために、トレーニングコマンドのタスク固有のタイムアウトを設定第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 51/71

Slide 52

Slide 52 text

Slide 53

Slide 53 text

評価各手法(エージェントアーキテクチャと言語モデルのペア)のスコアを13個のタスク全体で集計スコアや順位をナイーブに平均するのではなく、パフォーマンスプロファイル曲線(Dolan and Moré, 2002)を採用し、方法とタスクの相対的なパフォーマンス向上を比較パフォーマンスプロファイルは、最適化問題のセットを横断して最適化手法を比較するために開発された AutoMLコミュニティでは、異なるドメインでのAutoML手法を比較するために使用され、それぞれのドメインに特化した測定基準が存在 (Tu et al., 2022; Roberts et al., 2022b). 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 53/71

Slide 54

Slide 54 text

パフォーマンスプロファイル曲線パフォーマンスプロファイル曲線を以下のように定義 (ただしMLGymでは評価基準は最小ではなく最大スコアを使用) パフォーマンスプロファイルは、各タスクにおける手法とベストスコア手法との距離の閾値によってパラメータ化第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 54/71

Slide 55

Slide 55 text

Best Submission と Best Attempt 各タスクで各モデルを 4 回独立に実行したスコアを報告 (Best Submission@4 と Best Attempt@4) Best Submissionは、LLMエージェントがタスクに対して有効な最終解を生成する能力と、いくつかの実験がうまくいかなかった場合に最適な中間解を記憶する能力を示す Best Attemptは、与えられたタスクを解決するLLMエージェントの潜在的な能力の上限を示す後述の図2は Best Attempt@4 (左) と Best Submission@4 (右) のパフォーマンスプロファイル曲線第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 55/71

Slide 56

Slide 56 text

Slide 57

Slide 57 text

パフォーマンスプロファイルの結果軸はパフォーマンス比の閾値、軸はモデルがベストモデルから以内のパフォーマンスを達成したタスクの割合第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 57/71

Slide 58

Slide 58 text

言語モデル毎の AUP スコア Area Under the Performance Profile (AUP) スコア (面積に相当) OpenAI O1-previewが、Best AttemptとBest Submissionの両方において、タスクセット全体で最も優れた性能を発揮するモデル Claude-3.5-Sonnet と Gemini 1.5 Pro が僅差で続く第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 58/71

Slide 59

Slide 59 text

タスク毎のRAW スコア青がベストスコア第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 59/71

Slide 60

Slide 60 text

計算コストと AUP スコア Gemini-1.5-Proは、 OpenAI O1のAUPの 99％を達成しながら、 OpenAIのO1より約9 倍安価第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 60/71

Slide 61

Slide 61 text

行動分布ファイルの編集(Edit) と閲覧(View)の反復開発サイクルにかなりの時間を費やしている定期的な実験評価 (Python)と、定期的な解の検証(Validate)の傾向第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 61/71

Slide 62

Slide 62 text

言語モデル毎の行動分布 GPT-4oは最適解に到達することなくエラーアウト or 早すぎるタイミングでサブミット Gemini-1.5-Proの軌跡が短いことが、最もコスト効率の高いモデルであることに寄与第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 62/71

Slide 63

Slide 63 text

ステップ毎の行動分布初期はBashとViewが多く、基本コマンドで環境をチェックしてセットアップしているステップが進むにつれてコードの修正と改良を反映して Editが増加 EditとViewによって頻繁に変更点を見直す反復開発パターンを示唆 PythonとValidateは実験と評価の反復サイクルを示唆し、全体を通して着実に使用第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 63/71

Slide 64

Slide 64 text

ステップ毎の行動分布 (続き) Submitは、まばらだが最終ステップで増加ステップ5の時点でSubmitが使用されており、これは、一部のモデルが解を提出するのが早すぎ、最適解に到達できない可能性が高いことを示唆 Searchはほとんど使用されておらず、エージェントはコード編集中の効率を高めるために検索戦略を改善することで利益を得られる可能性がある全体として、エージェントが環境とタスクに慣れることから始め、実験と検証を何度も繰り返し、最後に提出するという構造化されたアプローチを強調第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 64/71

Slide 65

Slide 65 text

Slide 66

Slide 66 text

議論と制限 MLタスク以外の拡張: データセット・タスク・フレームワークの拡張が不可欠異分野間の汎化とアブレーション異なるドメインに対する新しい手法の適用性を自動的に評価 (例: Mamba) アブレーションの自動化により、MLシステムの特定のコンポーネントを系統的に削除または変更し、それらが性能に与える影響を評価科学的新規性への取り組み: 分野横断的手法の外挿は、"新規性"と"発見"に対するより広範な科学的理解の一側面に過ぎない科学的な新規性の概念を自動化できるか、あるいはエージェントに適した形で正式に定義できるかは、まだ明らかではない科学的進歩を推進する上でオープンなデータが重要第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 66/71

Slide 67

Slide 67 text

Slide 68

Slide 68 text

倫理的考察未解決の研究課題に取り組むことに長けたAIエージェントは、科学の進歩を著しく加速させる可能性があるため、その進歩を慎重に理解することが求められる MLGym-Benchはモデルの自律性の指標として機能する可能性がある AIエージェントがAI研究を自律的に実行できるようになれば、医療・気候科学などの分野での科学的進歩の加速、モデルの安全性と整合性の研究の迅速化、新製品の開発による経済成長など、多面的なポジティブな影響が期待される高品質な研究を提供できるエージェントは、経済において変革的な進歩を意味する可能性がある第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 68/71

Slide 69

Slide 69 text

倫理的考察 (続き) 一方で、自己の訓練コードを強化するなど、オープンエンドなAI研究タスクを実行できるエージェントは、人間の研究者を上回るペースで最先端モデルの能力を増強する可能性がある技術革新がその影響を理解する我々の能力を上回れば、そのようなモデルの安全確保・調整・制御が並行して進歩することなく、壊滅的な危害や悪用の可能性を持つモデルが開発される危険性がある MLGym-Benchのかなりの部分を解くことに出来るモデルは、おそらく多くのオープンエンドなAIタスクを実行する能力を持つと考えられる AI研究エージェントの能力に関する理解と研究を促進し、フロンティアAIラボにおける加速リスクに関する透明性を促進するために、MLGymとMLGym-Benchをオープンソース化し、さらなる開発を強く推奨する第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 69/71

Slide 70

Slide 70 text

結論 AI研究のためのLLMエージェントを構築するフレームワークMLGymとベンチマークMLGym-Benchを提案 LLMの潜在能力を科学的発見全般およびAI研究で十分に活用するためには、長いコンテキストの推論・より良いエージェントアーキテクチャ・学習と推論アルゴリズム・豊かな評価方法の改善が重要機械学習・科学計算・様々な応用領域の研究者間の協力を促進することで、AI駆動のエージェントが科学研究を加速し、検証可能性・再現性・完全性を維持しつつ、より良い未来に近づくことができる第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 70/71

Slide 71

Slide 71 text

参考文献 Deepak Nathani, et al. MLGym: A New Framework and Benchmark for Advancing AI Research Agents. arXiv preprint arXiv:2502.14499. 2025. https://arxiv.org/abs/2502.14499 Repository: https://github.com/facebookresearch/MLGym Greg Brockman, et al. OpenAI Gym. arXiv preprint arXiv:1606.01540. 2016. https://arxiv.org/abs/1606.01540 Repository: https://github.com/openai/gym Adina Williams, et al. A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference. NAACL 2018. 2018. https://aclanthology.org/N18-1101/ Kenny Young, et al. MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments. arXiv preprint arXiv:1903.03176. 2019. https://arxiv.org/abs/1903.03176 Repository: https://github.com/kenjyoung/MinAtar Robert Tjarko Lange. gymnax: A JAX-based Reinforcement Learning Environment Library. GitHub repository. 2022. http://github.com/RobertTLange/gymnax 第109回汎用人工知能輪読会担当: 太田晋 2025-02-28 71/71