Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

AtCoder Conference 2025「LLM時代のAHC」

Avatar for Yuki Imajuku Yuki Imajuku
December 13, 2025

AtCoder Conference 2025「LLM時代のAHC」

2025年12月13日に行われたAtCoder Conference 2025 (https://atcoder.jp/contests/atcoderconference2025) の発表資料です。

Avatar for Yuki Imajuku

Yuki Imajuku

December 13, 2025
Tweet

More Decks by Yuki Imajuku

Other Decks in Programming

Transcript

  1. LLMによるコーディング性能の進歩 7 より難しいコーディングベンチマークが必要とされている • Codeforcesレート等の従来のコーディングベンチマークが飽和しつつある • Pass/Fail(テストを通過するかどうか)だけでない継続的な改善能力も重要 02 03 04

    01 *1 OpenAI. “Competitive programming with large reasoning models." arXiv preprint arXiv:2502.06807 (2025). *2 C. E. Jimenez, et al. “SWE-bench: Can Language Models Resolve Real-world Github Issues?” In ICLR (2024). Codeforcesにおけるo3のレート*1 コーディングの代表的なベンチマーク*2
  2. より自律的なAIのために長期的な問題解決能力を測る必要がある • AIが扱うことのできるタスクの長さに関するスケーリング則*1が提唱 • Codingエージェントもより長い時間自律的に動けるよう進化 長時間取り組むタスクへの注目 8 02 03 04

    01 *1 METR. “Measuring AI Ability to Complete Long Tasks.” arXiv preprint arXiv:2503.14499 (2025). *2 METR. “Details about METR’s evaluation of OpenAI GPT-5.1-Codex-Max.” https://evaluations.metr.org/gpt-5-1-codex-max-report/ 50%の成功率でLLMが完遂できるSWEタスクの長さ*2 7ヶ月で2倍
  3. AHCは次世代AIの最前線 10 Sakana AIの社内では2024年夏の時点で度々話題に…… • より難しいコーディング×より長期間のタスクとしてAHCは最適な題材 • 組合せ最適化問題は産業応用にもつながりインパクトが大きい • 参加者も多く人間とAIの比較が可能

    当時具体的な話は無かったが、MLE-Benchにより転機が訪れる ベンチマーク名のALE-Benchはこの影響を受けている 02 03 04 01 Machine Learning Engineering ALgorithm Engineering ALE MLE = = ※TLEは関係ない
  4. ALE-Benchの概要 12 AHC046までの過去問40問をベンチマーク化 • 著作権などの問題で一部コンテストは除外 Pythonフレームワークによる容易なAIの評価 • AI分野ではPythonが使われることが多い • コードはOSS(https://github.com/SakanaAI/ALE-Bench)

    AtCoderの採点環境を再現するコードを公開 • 2023年の言語アップデート後の環境をできる限り再現 ※完全な再現ではないため、公認ではあるものの非公式 • 今まで非公開だったデータ(短期コンのテストケース等)も提供 →人間との比較を可能に 01 03 04 02
  5. ALE-Benchの概要 13 AIは参加者と同じようにAHCに参加し、参加者と同じ指標が算出される 01 03 04 02 問題 コード実行環境 Visualizer

    実装 デバッグ 分析 微調整 ALE-Bench AI 問題取得 テスト実行 Visualization 提出 順位表 🥇Score: 2691447336 🥈Score: 2661813425 🥉Score: 2632720176 ⋮ Tester LLM + Scaffolding
  6. ALE-Benchが出来るまで 15 2025/2 2025/3 2025/4 2025/5 2025/6 01 03 04

    02 プロジェクトが本格始動 ALE-Benchのフレームワークが大体完成 エチレンさんが加入!エージェントの実装を開始 実験をしながらフレームワークの完成度を上げる AIエージェントも完成してAHC046に参加 NeurIPS(AI系の国際会議)に投稿するため論文執筆 fishyleneがAHC047に参加して21位 ALE-Bench公開&AHCのAIルール改定 左図: https://x.com/ethylene_66/status/1902204090291028047 右図: https://x.com/ethylene_66/status/1902204229621837978 ←きっかけ
  7. ALE-Benchが出来たあと 16 2025/7 2025/8 2025/9 2025/10 2025/11 2025/12 01 03

    04 02 NeurIPSのrebuttal期間 エージェントのアップデート AWTF(Heuristic)に非公式で同タイミングで参加 AHC051(長期コン)で22位 NeurIPSに採択 評価結果を示すWebページを一新 AHC053 & AHC054 AHC055 AHC056 & AHC057 NeurIPS@San Diegoで発表 AtCoder Conference
  8. fishyleneの内部 20 01 02 04 03 特徴①:ドメイン知識プロンプト(アルゴリズム・評価関数・高速化手法等) 特徴②:幅つき最良優先探索(ビームサーチに近いアルゴリズム) プロンプト例 •

    現在のコードの速度のボトルネックを推定し高速化せよ • 焼きなまし法を使っているならば、より高速に解が収束する状態の持ち方に 変更せよ • 焼きなまし法を使っているならば、(略)に注目して近傍を改善せよ • ビームサーチを使っているならば、評価関数や多様性を改善せよ
  9. fishyleneの内部 21 01 02 04 03 Initial Score 40.4 Score

    58.8 Score 30.1 Score 62.5 Score 61.9 Score 67.3 Score 79.2 Score 77.7 Score 87.6 Score 92.1 Score 70.0 Score 81.9 特徴①:ドメイン知識プロンプト(アルゴリズム・評価関数・高速化手法等) 特徴②:幅つき最良優先探索(ビームサーチに近いアルゴリズム)
  10. fishyleneの今後 23 01 02 04 03 エージェントの新バージョンを開発中 • 複数の LLM

    をいい感じに混ぜて呼びだす • 評価サーバの構築 • etc. fishyleneの改善案があればポストお願いします! 今後もAHCの順位表でお会いしましょう! 明日のAHC057も出場します! アイデアをポスト!
  11. LLM x AHC 26 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 •

    雑なアイデアの具体化 不得手 • 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 アイデアをポスト!
  12. fishyleneでの対応 27 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化 不得手

    • 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 生成回数でゴリ押す アイデアをポスト!
  13. 人間の伴走者としてのLLM 28 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化 不得手

    • 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 対話によるbrainstorming 時間短縮+解法選択 複数回生成して最良を採用 アイデアをポスト!
  14. 人間の伴走者としてのLLM 29 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化 不得手

    • 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 人間が担う アイデアをポスト!
  15. 人間の伴走者としてのLLM 30 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化 不得手

    • 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 部分問題の考察 疑似コードを渡す ビジュアライザの機能追加 予備実験用のコード生成 アイデアをポスト!