AtCoder Conference 2025「LLM時代のAHC」

Sakana AI 今宿祐希＆エチレン LLM時代の AHC AtCoder Conference

fishyleneはご存じですか？ 2

fishyleneはご存じですか？ 3 Unratedの謎なアカウント AHCでしか見かけない所属がSakana AI たまにXで言及されているなんかAIらしい ALE-Benchが関係している？異様に実装が速い
なにそれおいしいの？

fishyleneとは 4 Sakana AIが開発したAIエージェントのアカウント同時期にALE-Benchという研究をAtCoderと共同で発表 Heuristicのコンテストに全自動で参加している最新の成績（Heuristic） fishylene Sakana AI
+ ethylene 名前の由来

AHCに着目した理由プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

LLMによるコーディング性能の進歩 7 より難しいコーディングベンチマークが必要とされている • Codeforcesレート等の従来のコーディングベンチマークが飽和しつつある • Pass/Fail（テストを通過するかどうか）だけでない継続的な改善能力も重要 02 03 04
01 *1 OpenAI. “Competitive programming with large reasoning models." arXiv preprint arXiv:2502.06807 (2025). *2 C. E. Jimenez, et al. “SWE-bench: Can Language Models Resolve Real-world Github Issues?” In ICLR (2024). Codeforcesにおけるo3のレート*1 コーディングの代表的なベンチマーク*2

より自律的なAIのために長期的な問題解決能力を測る必要がある • AIが扱うことのできるタスクの長さに関するスケーリング則*1が提唱 • Codingエージェントもより長い時間自律的に動けるよう進化長時間取り組むタスクへの注目 8 02 03 04
01 *1 METR. “Measuring AI Ability to Complete Long Tasks.” arXiv preprint arXiv:2503.14499 (2025). *2 METR. “Details about METR’s evaluation of OpenAI GPT-5.1-Codex-Max.” https://evaluations.metr.org/gpt-5-1-codex-max-report/ 50%の成功率でLLMが完遂できるSWEタスクの長さ*2 7ヶ月で2倍

コンテストをベンチマーク化する前例 9 OpenAIが2024年秋にMLE-Bench*1というベンチマークを発表 • Kaggleという機械学習コンテストサイトの問題をAI向けにベンチマーク化実はベンチマークとしてAtCoder（Algo）の問題も既に使われている • Big TechのLLMの性能アピールに使われているもの*2も… 02
03 04 01 *1 OpenAI. “MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering." In ICLR (2025). *2 N. Jain, et al. “LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code.” In ICLR (2025).

AHCは次世代AIの最前線 10 Sakana AIの社内では2024年夏の時点で度々話題に…… • より難しいコーディング×より長期間のタスクとしてAHCは最適な題材 • 組合せ最適化問題は産業応用にもつながりインパクトが大きい • 参加者も多く人間とAIの比較が可能
当時具体的な話は無かったが、MLE-Benchにより転機が訪れるベンチマーク名のALE-Benchはこの影響を受けている 02 03 04 01 Machine Learning Engineering ALgorithm Engineering ALE MLE = = ※TLEは関係ない

ALE-Benchの概要 12 AHC046までの過去問40問をベンチマーク化 • 著作権などの問題で一部コンテストは除外 Pythonフレームワークによる容易なAIの評価 • AI分野ではPythonが使われることが多い • コードはOSS（https://github.com/SakanaAI/ALE-Bench）
AtCoderの採点環境を再現するコードを公開 • 2023年の言語アップデート後の環境をできる限り再現 ※完全な再現ではないため、公認ではあるものの非公式 • 今まで非公開だったデータ（短期コンのテストケース等）も提供 →人間との比較を可能に 01 03 04 02

ALE-Benchの概要 13 AIは参加者と同じようにAHCに参加し、参加者と同じ指標が算出される 01 03 04 02 問題コード実行環境 Visualizer
実装デバッグ分析微調整 ALE-Bench AI 問題取得テスト実行 Visualization 提出順位表 🥇Score: 2691447336 🥈Score: 2661813425 🥉Score: 2632720176 ⋮ Tester LLM + Scaffolding

ALE-Benchで見る最新LLM 14 o3/GPT-5が強かったが、Gemini 3 Proの登場で勢力図が変わる… 01 03 04 02 Webページはこちら
Gemini 3 Pro Claude 4.5 Opus GPT-OSS GPT-5.1 (Codex Max) Grok 4.1 DeepSeek v3.1

ALE-Benchが出来るまで 15 2025/2 2025/3 2025/4 2025/5 2025/6 01 03 04
02 プロジェクトが本格始動 ALE-Benchのフレームワークが大体完成エチレンさんが加入！エージェントの実装を開始実験をしながらフレームワークの完成度を上げる AIエージェントも完成してAHC046に参加 NeurIPS（AI系の国際会議）に投稿するため論文執筆 fishyleneがAHC047に参加して21位 ALE-Bench公開＆AHCのAIルール改定左図: https://x.com/ethylene_66/status/1902204090291028047 右図: https://x.com/ethylene_66/status/1902204229621837978 ←きっかけ

ALE-Benchが出来たあと 16 2025/7 2025/8 2025/9 2025/10 2025/11 2025/12 01 03
04 02 NeurIPSのrebuttal期間エージェントのアップデート AWTF（Heuristic）に非公式で同タイミングで参加 AHC051（長期コン）で22位 NeurIPSに採択評価結果を示すWebページを一新 AHC053 & AHC054 AHC055 AHC056 & AHC057 NeurIPS@San Diegoで発表 AtCoder Conference

fishyleneの目的 18 ベンチマークを作ってはい終わり、じゃない！ ALE-Bench特化型AIエージェントを作成 • 将来のAIエージェントのベースライン • LLMのエージェント化による利得の調査 • 産業応用の可能性
• AIでAHC1位を取ってドヤりたい 01 02 04 03

fishyleneの内部 19 01 02 04 03 特徴①：ドメイン知識プロンプト（アルゴリズム・評価関数・高速化手法等）特徴②：幅つき最良優先探索（ビームサーチに近いアルゴリズム）

fishyleneの内部 20 01 02 04 03 特徴①：ドメイン知識プロンプト（アルゴリズム・評価関数・高速化手法等）特徴②：幅つき最良優先探索（ビームサーチに近いアルゴリズム）プロンプト例 •
現在のコードの速度のボトルネックを推定し高速化せよ • 焼きなまし法を使っているならば、より高速に解が収束する状態の持ち方に変更せよ • 焼きなまし法を使っているならば、（略）に注目して近傍を改善せよ • ビームサーチを使っているならば、評価関数や多様性を改善せよ

fishyleneの内部 21 01 02 04 03 Initial Score 40.4 Score
58.8 Score 30.1 Score 62.5 Score 61.9 Score 67.3 Score 79.2 Score 77.7 Score 87.6 Score 92.1 Score 70.0 Score 81.9 特徴①：ドメイン知識プロンプト（アルゴリズム・評価関数・高速化手法等）特徴②：幅つき最良優先探索（ビームサーチに近いアルゴリズム）

fishyleneの内部 22 01 02 04 03 特徴①：ドメイン知識プロンプト（アルゴリズム・評価関数・高速化手法等）特徴②：幅つき最良優先探索（ビームサーチに近いアルゴリズム） fishylene化 +
700 perf.

fishyleneの今後 23 01 02 04 03 エージェントの新バージョンを開発中 • 複数の LLM
をいい感じに混ぜて呼びだす • 評価サーバの構築 • etc. fishyleneの改善案があればポストお願いします！今後もAHCの順位表でお会いしましょう！明日のAHC057も出場します！アイデアをポスト！

AHC057 25 01 02 03 04 LLMが全て実装 LLMが全て実装？アイデアをポスト！

LLM x AHC 26 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 •
雑なアイデアの具体化不得手 • 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 アイデアをポスト！

fishyleneでの対応 27 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化不得手
• 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 生成回数でゴリ押すアイデアをポスト！

人間の伴走者としてのLLM 28 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化不得手
• 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 対話によるbrainstorming 時間短縮+解法選択複数回生成して最良を採用アイデアをポスト！

• 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 人間が担うアイデアをポスト！

• 問題特性を考慮したアイデアの提案 • 複雑なアイデアの実装 • ビジュアライザや予備実験を用いた考察 01 02 03 04 部分問題の考察疑似コードを渡すビジュアライザの機能追加予備実験用のコード生成アイデアをポスト！

31 01 02 03 04 AHCはまだまだ人間が活躍できる競技

Thank you ↑AtCoderJobs Sakana AIは採用強化中！ Applied Research Engineer Software Engineer

AtCoder Conference 2025「LLM時代のAHC」

AtCoder Conference 2025「LLM時代のAHC」

Yuki Imajuku

More Decks by Yuki Imajuku

Other Decks in Programming

Featured

Transcript

Sakana AI 今宿祐希＆エチレン LLM時代の AHC AtCoder Conference

fishyleneはご存じですか？ 2

fishyleneはご存じですか？ 3 Unratedの謎なアカウント AHCでしか見かけない所属がSakana AI たまにXで言及されているなんかAIらしい ALE-Benchが関係している？異様に実装が速い

fishyleneとは 4 Sakana AIが開発したAIエージェントのアカウント同時期にALE-Benchという研究をAtCoderと共同で発表 Heuristicのコンテストに全自動で参加している最新の成績（Heuristic） fishylene Sakana AI

AHCに着目した理由プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

AHCに着目した理由プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

AHCに着目した理由プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

ALE-Benchの概要 13 AIは参加者と同じようにAHCに参加し、参加者と同じ指標が算出される 01 03 04 02 問題コード実行環境 Visualizer

ALE-Benchで見る最新LLM 14 o3/GPT-5が強かったが、Gemini 3 Proの登場で勢力図が変わる… 01 03 04 02 Webページはこちら

ALE-Benchが出来るまで 15 2025/2 2025/3 2025/4 2025/5 2025/6 01 03 04

ALE-Benchが出来たあと 16 2025/7 2025/8 2025/9 2025/10 2025/11 2025/12 01 03

AHCに着目した理由プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

fishyleneの目的 18 ベンチマークを作ってはい終わり、じゃない！ ALE-Bench特化型AIエージェントを作成 • 将来のAIエージェントのベースライン • LLMのエージェント化による利得の調査 • 産業応用の可能性

fishyleneの内部 19 01 02 04 03 特徴①：ドメイン知識プロンプト（アルゴリズム・評価関数・高速化手法等）特徴②：幅つき最良優先探索（ビームサーチに近いアルゴリズム）

fishyleneの内部 20 01 02 04 03 特徴①：ドメイン知識プロンプト（アルゴリズム・評価関数・高速化手法等）特徴②：幅つき最良優先探索（ビームサーチに近いアルゴリズム）プロンプト例 •

fishyleneの内部 21 01 02 04 03 Initial Score 40.4 Score

fishyleneの内部 22 01 02 04 03 特徴①：ドメイン知識プロンプト（アルゴリズム・評価関数・高速化手法等）特徴②：幅つき最良優先探索（ビームサーチに近いアルゴリズム） fishylene化 +

fishyleneの今後 23 01 02 04 03 エージェントの新バージョンを開発中 • 複数の LLM

AHCに着目した理由プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

AHC057 25 01 02 03 04 LLMが全て実装 LLMが全て実装？アイデアをポスト！

LLM x AHC 26 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 •

fishyleneでの対応 27 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化不得手

人間の伴走者としてのLLM 28 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化不得手

人間の伴走者としてのLLM 29 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化不得手

人間の伴走者としてのLLM 30 得意 • 典型的なアイデアの提案 • 簡単なアイデアの実装 • 雑なアイデアの具体化不得手

31 01 02 03 04 AHCはまだまだ人間が活躍できる競技

Thank you ↑AtCoderJobs Sakana AIは採用強化中！ Applied Research Engineer Software Engineer