Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ALE-Bench AIの長期的推論能力を測る コーディングベンチマーク

Avatar for YuyaYAMAMOTO YuyaYAMAMOTO
September 04, 2025
140

ALE-Bench AIの長期的推論能力を測る コーディングベンチマーク

AIの長期的な推論・問題解決能力を測る新しいベンチマーク「ALE-Bench」を紹介します。AtCoder Heuristic Contestを基盤に、実務レベルの組合せ最適化タスクを用いてモデルの性能を比較・評価。最新LLMの結果や、Sakana AIが開発したAIエージェント「ALE-Agent」の取り組みについて解説します。

Avatar for YuyaYAMAMOTO

YuyaYAMAMOTO

September 04, 2025
Tweet

Transcript

  1. 組合せ最適化問題の解き方 5 コンピュータシミュレーションで解くことができるが…… 今回の問題では(50件の選び方)×(配達順序)通りの解候補がある 具体的に概算してみると 1000 C 50 × 100!

    / 250 ≈ 7.84 × 10227 通り 全ての候補に対して移動距離を算出し最適解を導く(全探索)は事実上不可能 こうした問題で近似最適解を求めるためのアルゴリズムが多数存在 • 貪欲法(局所最適の積み重ね) • モンテカルロ法(ランダムに解候補をサンプリング) • 焼きなまし法(確率的に性能が悪化することを許容しながら徐々に改善) • ビームサーチ(複数の候補を保持した貪欲法) • 遺伝的アルゴリズム(交叉や突然変異といった自然界に着想を得た解生成) 02 03 04 01
  2. ベンチマーク化する研究的意義 7 長期的な問題解決能力を測るベンチマークが必要とされている • Codeforcesレート等の従来のコーディングベンチマークが飽和しつつある • AIが扱うことのできるタスクの長さに関するスケーリング則が提唱 02 03 04

    01 *1 OpenAI. “Competitive programming with large reasoning models." arXiv preprint arXiv:2502.06807 (2025). *2 METR. “Measuring AI Ability to Complete Long Tasks.” arXiv preprint arXiv:2503.14499 (2025). Codeforcesにおけるo3のレート*1 50%の成功率でLLMが完遂できるSWEタスクの長さ*2 7ヶ月で2倍
  3. ALE-Benchの概要 9 AtCoder Heuristic Contest (AHC) 40問を使用 特徴①:答えがない1つの問題に4時間〜10日間かけて取り組む 特徴②:実務者や専門家を含めた1000人近い参加者 01

    03 04 02 AtCoderの採点環境を再現するsoftwareを配布 AtCoder社の協力により今まで非公開だったデータも一部提供 →人間との完全な比較が可能に AIは問題文を受け取った後、全自動でコードを生成して提出する ツールを使ってもよく、手元でデバッグしたり性能確認しても良い ただしAHCに関係するWeb検索だけは禁止
  4. AIが取ることのできる行動 11 人間の参加者がコンテスト中にAtCoder上で取る行動を再現 • 問題文を読む • テストケースを生成する • エラーメッセージを確認するなどデバッグしながらコードを実装 •

    実装したコードの性能をテストケースを用いて評価 • 実装したコードの挙動をVisualizerで可視化 • スコア計算・Visualizerのソースコードを確認 01 03 04 02 外部ツールを使う場合もあるがサポート外 • Google検索 • Optunaを使ったハイパーパラメータ最適化
  5. 評価指標 13 AtCoderでも実際に使用されている指標を採用 01 02 04 03 コンテストごとに算出される指標: • 問題特有のスコア(スコア計算ツールで算出されるスコア)

    • 順位(問題特有のスコアを参加者間で競った結果の順位) • パフォーマンス(順位から算出される問題内容に依存しない数値) 複数コンテストから集計される指標: • 平均パフォーマンス(パフォーマンスの単純平均) • パフォーマンス分布(パフォーマンスが N 以上のコンテストの割合など) • レーティング(パフォーマンスの加重平均で上振れ&多い参加回数が有利) 今回は集計指標を主に確認するが、コンテストごとにAIを競わせることも可能
  6. ALE-Benchでモデルを比較した感想 21 1. 長期的な問題解決能力が求められるタスクになっている • 長期的な問題解決能力が求められるタスクである証 2. AIの能力が着実に進歩してきている • o3/o4-mini→GPT-5でも性能向上が見られた

    3. 推論時スケーリングが機能する • 思考トークンを多く使うことで同じモデルでも性能が向上 • フィードバックを入力して長く試行錯誤させることでも性能が向上 4. 図がなくてもしっかり定式化されていればAIは問題を解ける • Visualizerを理解の補助に使う人間との違い • 今のAIはそもそもGrid画像などの理解能力が弱い 01 02 03 04
  7. ALE-Agentを作った・使った感想 22 ALE-Agentは現状でも強いけど弱点もある 1. 効率よく筋のいい改善を見つける能力に改善の余地あり ◦ スコア改善のために必要な試行回数(横幅)が人間と比べると圧倒的に多い ◦ Claude Codeなどを使っていても謎の改善案出してきたりする現象

    2. コンテキストエンジニアリングも重要 ◦ コンテストを超えた経験の蓄積が必要 ◦ ドメイン知識も依然不足 3. 自律度と実装の複雑度・制御しづらさのバランスが難しい ◦ ツール・MCPサーバ等の整備が必要 ◦ 現状は決められた通りの探索アルゴリズムや行動を元に試行錯誤している 4. 問題作成についても難しく研究テーマになりうる ◦ コンテストで成績が出るからといってすぐ産業応用できるわけではない 01 02 03 04
  8. プロジェクトを進めてきた中での感想 23 1. ドメインエキスパートとの協力は必須 ◦ 思いもよらない観点から・とても詳細な分析が可能になり深みが出る ◦ 出力の解釈が難しい時に判断の参考になる ◦ ベンチマーク整備の段階で出てくる細かい疑問点・仕様も意外と重要

    ◦ (ドメイン知識を知っていくと楽しい) 2. LLMの種類・思考予算による性能差は結構大きい ◦ 自分に必要な性能を達成するための調整が効くこともある ◦ コスト感の把握も予算面で重要なので、なるべくトラックした方が良い 3. 外部ライブラリ(litellmなど)に頼り過ぎない複数LLM providerの共通化 ◦ 共通インターフェースを自分で持っておくと最新機能をすぐ試せて楽 ◦ バグも少なく指定パラメータ/仕様もきちんと把握した上で使える 01 02 03 04
  9. まとめ 24 ALE-Benchを開発 • 組合せ最適化を題材としたコーディングベンチマーク • 長期的な問題解決能力が求められる 01 02 03

    04 ALE-Benchで見えたこと • AIは着実に進歩しつつある • 長期的な課題もある程度解けるようになりつつあるが、問題点もある ◦ コンテキストをどう管理するか? ◦ 自律度を上げた時にどのように実装し制御するか? ◦ 筋よく長期的なタスクを解かせるためにはどうすれば良いか?