ALE-Bench AIの長期的推論能力を測るコーディングベンチマーク

Sakana AI Research Engineer 今宿祐希 ALE-Bench AIの長期的推論能力を測るコーディングベンチマーク W&Bミートアップ
#24 in 東京

組合せ最適化問題 ALE-Bench 実験結果知見とまとめ 01 02 03 04

組合せ最適化問題とは 4 与えられた制約条件を満たす複数の組合せの中から最適解を探す（問題例）距離が短くなるよう、1000件の配達注文から50件を選び、配達順序を決める制約条件①：荷物受取地点を通ってから配達先へ向かう制約条件②：始点と終点は配達拠点ルート決定 50件
選ぶ 02 03 04 01

組合せ最適化問題の解き方 5 コンピュータシミュレーションで解くことができるが…… 今回の問題では（50件の選び方）×（配達順序）通りの解候補がある具体的に概算してみると 1000 C 50 × 100!
/ 250 ≈ 7.84 × 10227 通り全ての候補に対して移動距離を算出し最適解を導く（全探索）は事実上不可能こうした問題で近似最適解を求めるためのアルゴリズムが多数存在 • 貪欲法（局所最適の積み重ね） • モンテカルロ法（ランダムに解候補をサンプリング） • 焼きなまし法（確率的に性能が悪化することを許容しながら徐々に改善） • ビームサーチ（複数の候補を保持した貪欲法） • 遺伝的アルゴリズム（交叉や突然変異といった自然界に着想を得た解生成） 02 03 04 01

実社会でも使われる組合せ最適化問題 6 問題設定・制約条件・解空間の大きさ等により有効なアプローチが異なる →現状は専門家が試行錯誤しながら性能の良いアルゴリズムを探している 02 03 04 01 こうしたアルゴリズムエンジニアリングをAIが行うことは可能なのか？つまり問題文から最終的なソースコードまでをAIが全自動で生成できるか？
もし可能であればより多くの課題を解決できるようになり産業的インパクト大配送ルートシフト作成生産計画電力需給

ベンチマーク化する研究的意義 7 長期的な問題解決能力を測るベンチマークが必要とされている • Codeforcesレート等の従来のコーディングベンチマークが飽和しつつある • AIが扱うことのできるタスクの長さに関するスケーリング則が提唱 02 03 04
01 *1 OpenAI. “Competitive programming with large reasoning models." arXiv preprint arXiv:2502.06807 (2025). *2 METR. “Measuring AI Ability to Complete Long Tasks.” arXiv preprint arXiv:2503.14499 (2025). Codeforcesにおけるo3のレート*1 50%の成功率でLLMが完遂できるSWEタスクの長さ*2 7ヶ月で2倍

ALE-Benchの概要 9 AtCoder Heuristic Contest (AHC) 40問を使用特徴①：答えがない1つの問題に4時間〜10日間かけて取り組む特徴②：実務者や専門家を含めた1000人近い参加者 01
03 04 02 AtCoderの採点環境を再現するsoftwareを配布 AtCoder社の協力により今まで非公開だったデータも一部提供 →人間との完全な比較が可能に AIは問題文を受け取った後、全自動でコードを生成して提出するツールを使ってもよく、手元でデバッグしたり性能確認しても良いただしAHCに関係するWeb検索だけは禁止

*3 https://atcoder.jp/contests/ahc006/tasks/ahc006_a *4 https://img.atcoder.jp/ahc006/c21daebb77aa4d38d65f4d7f7c7249.html ALE-Benchで提供されるデータ 10 • 問題文：条件や目的関数などが書かれたもの • スコア計算用ツール：自分の回答の性能を数値化するツール
• 回答可視化ツール：自分の回答の挙動を視覚的に表すツール（Visualizer） 01 03 04 02 AHC006の問題文*3 AHC006で提供されているWeb Visualizer*4

AIが取ることのできる行動 11 人間の参加者がコンテスト中にAtCoder上で取る行動を再現 • 問題文を読む • テストケースを生成する • エラーメッセージを確認するなどデバッグしながらコードを実装 •
実装したコードの性能をテストケースを用いて評価 • 実装したコードの挙動をVisualizerで可視化 • スコア計算・Visualizerのソースコードを確認 01 03 04 02 外部ツールを使う場合もあるがサポート外 • Google検索 • Optunaを使ったハイパーパラメータ最適化

評価指標 13 AtCoderでも実際に使用されている指標を採用 01 02 04 03 コンテストごとに算出される指標： • 問題特有のスコア（スコア計算ツールで算出されるスコア）
• 順位（問題特有のスコアを参加者間で競った結果の順位） • パフォーマンス（順位から算出される問題内容に依存しない数値）複数コンテストから集計される指標： • 平均パフォーマンス（パフォーマンスの単純平均） • パフォーマンス分布（パフォーマンスが N 以上のコンテストの割合など） • レーティング（パフォーマンスの加重平均で上振れ＆多い参加回数が有利）今回は集計指標を主に確認するが、コンテストごとにAIを競わせることも可能

One-Shotでの結果 14 最初に実装されるコードの性能はそれほど高くない 01 02 04 03

4時間改善させ続けた結果 15 スコアが徐々に伸び全体的な性能が向上→試行錯誤の必要性が実証 01 02 04 03

最新のモデルの結果 16 01 02 04 03 GPT-5-mini GPT-5 Gemini 2.5
Pro Claude Sonnet 4 GPT-5-nano o3 GPT-OSS

ALE-Agent 17 強力なベースラインAIエージェントとしてALE-Agentを開発 01 02 04 03 特徴①：ドメイン知識プロンプト（アルゴリズム・評価関数・高速化手法等）特徴②：幅つき最良優先探索（ビームサーチやMCTSと近いアルゴリズム）

ALE-Agentを使った結果 18 平均パフォーマンスが大きく向上し上位に食い込む結果に •短期（4時間）と長期（10日間）との間でパフォーマンスギャップがある •各種メソッドのablation studyの結果...... 1.ドメイン知識でわずかに性能向上 2.横幅を増やした最良優先探索で大きく性能向上 01 02
04 03

ALE-Agentがコンテストに参加 19 01 02 04 03

ALE-Benchでモデルを比較した感想 21 1. 長期的な問題解決能力が求められるタスクになっている • 長期的な問題解決能力が求められるタスクである証 2. AIの能力が着実に進歩してきている • o3/o4-mini→GPT-5でも性能向上が見られた
3. 推論時スケーリングが機能する • 思考トークンを多く使うことで同じモデルでも性能が向上 • フィードバックを入力して長く試行錯誤させることでも性能が向上 4. 図がなくてもしっかり定式化されていればAIは問題を解ける • Visualizerを理解の補助に使う人間との違い • 今のAIはそもそもGrid画像などの理解能力が弱い 01 02 03 04

ALE-Agentを作った・使った感想 22 ALE-Agentは現状でも強いけど弱点もある 1. 効率よく筋のいい改善を見つける能力に改善の余地あり ◦ スコア改善のために必要な試行回数（横幅）が人間と比べると圧倒的に多い ◦ Claude Codeなどを使っていても謎の改善案出してきたりする現象
2. コンテキストエンジニアリングも重要 ◦ コンテストを超えた経験の蓄積が必要 ◦ ドメイン知識も依然不足 3. 自律度と実装の複雑度・制御しづらさのバランスが難しい ◦ ツール・MCPサーバ等の整備が必要 ◦ 現状は決められた通りの探索アルゴリズムや行動を元に試行錯誤している 4. 問題作成についても難しく研究テーマになりうる ◦ コンテストで成績が出るからといってすぐ産業応用できるわけではない 01 02 03 04

プロジェクトを進めてきた中での感想 23 1. ドメインエキスパートとの協力は必須 ◦ 思いもよらない観点から・とても詳細な分析が可能になり深みが出る ◦ 出力の解釈が難しい時に判断の参考になる ◦ ベンチマーク整備の段階で出てくる細かい疑問点・仕様も意外と重要
◦ （ドメイン知識を知っていくと楽しい） 2. LLMの種類・思考予算による性能差は結構大きい ◦ 自分に必要な性能を達成するための調整が効くこともある ◦ コスト感の把握も予算面で重要なので、なるべくトラックした方が良い 3. 外部ライブラリ（litellmなど）に頼り過ぎない複数LLM providerの共通化 ◦ 共通インターフェースを自分で持っておくと最新機能をすぐ試せて楽 ◦ バグも少なく指定パラメータ/仕様もきちんと把握した上で使える 01 02 03 04

まとめ 24 ALE-Benchを開発 • 組合せ最適化を題材としたコーディングベンチマーク • 長期的な問題解決能力が求められる 01 02 03
04 ALE-Benchで見えたこと • AIは着実に進歩しつつある • 長期的な課題もある程度解けるようになりつつあるが、問題点もある ◦ コンテキストをどう管理するか？ ◦ 自律度を上げた時にどのように実装し制御するか？ ◦ 筋よく長期的なタスクを解かせるためにはどうすれば良いか？

Thank you! arxiv.org/abs/2506.09050 Paper: sakana.ai/ale-bench-jp/ Blog: Code: github.com/SakanaAI/ALE-Bench

ALE-Bench AIの長期的推論能力を測るコーディングベンチマーク

ALE-Bench AIの長期的推論能力を測るコーディングベンチマーク

YuyaYAMAMOTO

More Decks by YuyaYAMAMOTO

Featured

Transcript

Sakana AI Research Engineer 今宿祐希 ALE-Bench AIの長期的推論能力を測るコーディングベンチマーク W&Bミートアップ

組合せ最適化問題 ALE-Bench 実験結果知見とまとめ 01 02 03 04

組合せ最適化問題 ALE-Bench 実験結果知見とまとめ 01 02 03 04

組合せ最適化問題の解き方 5 コンピュータシミュレーションで解くことができるが…… 今回の問題では（50件の選び方）×（配達順序）通りの解候補がある具体的に概算してみると 1000 C 50 × 100!

組合せ最適化問題 ALE-Bench 実験結果知見とまとめ 01 02 03 04

ALE-Benchの概要 9 AtCoder Heuristic Contest (AHC) 40問を使用特徴①：答えがない1つの問題に4時間〜10日間かけて取り組む特徴②：実務者や専門家を含めた1000人近い参加者 01

AIが取ることのできる行動 11 人間の参加者がコンテスト中にAtCoder上で取る行動を再現 • 問題文を読む • テストケースを生成する • エラーメッセージを確認するなどデバッグしながらコードを実装 •

組合せ最適化問題 ALE-Bench 実験結果知見とまとめ 01 02 03 04

評価指標 13 AtCoderでも実際に使用されている指標を採用 01 02 04 03 コンテストごとに算出される指標： • 問題特有のスコア（スコア計算ツールで算出されるスコア）

One-Shotでの結果 14 最初に実装されるコードの性能はそれほど高くない 01 02 04 03

4時間改善させ続けた結果 15 スコアが徐々に伸び全体的な性能が向上→試行錯誤の必要性が実証 01 02 04 03

最新のモデルの結果 16 01 02 04 03 GPT-5-mini GPT-5 Gemini 2.5

ALE-Agentがコンテストに参加 19 01 02 04 03

組合せ最適化問題 ALE-Bench 実験結果知見とまとめ 01 02 03 04

まとめ 24 ALE-Benchを開発 • 組合せ最適化を題材としたコーディングベンチマーク • 長期的な問題解決能力が求められる 01 02 03

Thank you! arxiv.org/abs/2506.09050 Paper: sakana.ai/ale-bench-jp/ Blog: Code: github.com/SakanaAI/ALE-Bench

ALE-Bench AIの長期的推論能力を測る コーディングベンチマーク

ALE-Bench AIの長期的推論能力を測る コーディングベンチマーク

More Decks by YuyaYAMAMOTO

Featured

Transcript

ALE-Bench AIの長期的推論能力を測るコーディングベンチマーク

ALE-Bench AIの長期的推論能力を測るコーディングベンチマーク