Slide 1

Slide 1 text

Sakana AI 今宿 祐希 & エチレン LLM時代の AHC AtCoder Conference

Slide 2

Slide 2 text

fishyleneはご存じですか? 2

Slide 3

Slide 3 text

fishyleneはご存じですか? 3 Unratedの謎なアカウント AHCでしか見かけない 所属がSakana AI たまにXで言及されている なんかAIらしい ALE-Benchが関係している? 異様に実装が速い なにそれおいしいの?

Slide 4

Slide 4 text

fishyleneとは 4 Sakana AIが開発したAIエージェントのアカウント 同時期にALE-Benchという研究をAtCoderと共同で発表 Heuristicのコンテストに全自動で参加している 最新の成績(Heuristic) fishylene Sakana AI + ethylene 名前の由来

Slide 5

Slide 5 text

AHCに着目した理由 プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

Slide 6

Slide 6 text

AHCに着目した理由 プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

Slide 7

Slide 7 text

LLMによるコーディング性能の進歩 7 より難しいコーディングベンチマークが必要とされている ● Codeforcesレート等の従来のコーディングベンチマークが飽和しつつある ● Pass/Fail(テストを通過するかどうか)だけでない継続的な改善能力も重要 02 03 04 01 *1 OpenAI. “Competitive programming with large reasoning models." arXiv preprint arXiv:2502.06807 (2025). *2 C. E. Jimenez, et al. “SWE-bench: Can Language Models Resolve Real-world Github Issues?” In ICLR (2024). Codeforcesにおけるo3のレート*1 コーディングの代表的なベンチマーク*2

Slide 8

Slide 8 text

より自律的なAIのために長期的な問題解決能力を測る必要がある ● AIが扱うことのできるタスクの長さに関するスケーリング則*1が提唱 ● Codingエージェントもより長い時間自律的に動けるよう進化 長時間取り組むタスクへの注目 8 02 03 04 01 *1 METR. “Measuring AI Ability to Complete Long Tasks.” arXiv preprint arXiv:2503.14499 (2025). *2 METR. “Details about METR’s evaluation of OpenAI GPT-5.1-Codex-Max.” https://evaluations.metr.org/gpt-5-1-codex-max-report/ 50%の成功率でLLMが完遂できるSWEタスクの長さ*2 7ヶ月で2倍

Slide 9

Slide 9 text

コンテストをベンチマーク化する前例 9 OpenAIが2024年秋にMLE-Bench*1というベンチマークを発表 ● Kaggleという機械学習コンテストサイトの問題をAI向けにベンチマーク化 実はベンチマークとしてAtCoder(Algo)の問題も既に使われている ● Big TechのLLMの性能アピールに使われているもの*2も… 02 03 04 01 *1 OpenAI. “MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering." In ICLR (2025). *2 N. Jain, et al. “LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code.” In ICLR (2025).

Slide 10

Slide 10 text

AHCは次世代AIの最前線 10 Sakana AIの社内では2024年夏の時点で度々話題に…… ● より難しいコーディング×より長期間のタスクとしてAHCは最適な題材 ● 組合せ最適化問題は産業応用にもつながりインパクトが大きい ● 参加者も多く人間とAIの比較が可能 当時具体的な話は無かったが、MLE-Benchにより転機が訪れる ベンチマーク名のALE-Benchはこの影響を受けている 02 03 04 01 Machine Learning Engineering ALgorithm Engineering ALE MLE = = ※TLEは関係ない

Slide 11

Slide 11 text

AHCに着目した理由 プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

Slide 12

Slide 12 text

ALE-Benchの概要 12 AHC046までの過去問40問をベンチマーク化 ● 著作権などの問題で一部コンテストは除外 Pythonフレームワークによる容易なAIの評価 ● AI分野ではPythonが使われることが多い ● コードはOSS(https://github.com/SakanaAI/ALE-Bench) AtCoderの採点環境を再現するコードを公開 ● 2023年の言語アップデート後の環境をできる限り再現 ※完全な再現ではないため、公認ではあるものの非公式 ● 今まで非公開だったデータ(短期コンのテストケース等)も提供 →人間との比較を可能に 01 03 04 02

Slide 13

Slide 13 text

ALE-Benchの概要 13 AIは参加者と同じようにAHCに参加し、参加者と同じ指標が算出される 01 03 04 02 問題 コード実行環境 Visualizer 実装 デバッグ 分析 微調整 ALE-Bench AI 問題取得 テスト実行 Visualization 提出 順位表 🥇Score: 2691447336 🥈Score: 2661813425 🥉Score: 2632720176 ⋮ Tester LLM + Scaffolding

Slide 14

Slide 14 text

ALE-Benchで見る最新LLM 14 o3/GPT-5が強かったが、Gemini 3 Proの登場で勢力図が変わる… 01 03 04 02 Webページはこちら Gemini 3 Pro Claude 4.5 Opus GPT-OSS GPT-5.1 (Codex Max) Grok 4.1 DeepSeek v3.1

Slide 15

Slide 15 text

ALE-Benchが出来るまで 15 2025/2 2025/3 2025/4 2025/5 2025/6 01 03 04 02 プロジェクトが本格始動 ALE-Benchのフレームワークが大体完成 エチレンさんが加入!エージェントの実装を開始 実験をしながらフレームワークの完成度を上げる AIエージェントも完成してAHC046に参加 NeurIPS(AI系の国際会議)に投稿するため論文執筆 fishyleneがAHC047に参加して21位 ALE-Bench公開&AHCのAIルール改定 左図: https://x.com/ethylene_66/status/1902204090291028047 右図: https://x.com/ethylene_66/status/1902204229621837978 ←きっかけ

Slide 16

Slide 16 text

ALE-Benchが出来たあと 16 2025/7 2025/8 2025/9 2025/10 2025/11 2025/12 01 03 04 02 NeurIPSのrebuttal期間 エージェントのアップデート AWTF(Heuristic)に非公式で同タイミングで参加 AHC051(長期コン)で22位 NeurIPSに採択 評価結果を示すWebページを一新 AHC053 & AHC054 AHC055 AHC056 & AHC057 NeurIPS@San Diegoで発表 AtCoder Conference

Slide 17

Slide 17 text

AHCに着目した理由 プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

Slide 18

Slide 18 text

fishyleneの目的 18 ベンチマークを作ってはい終わり、じゃない! ALE-Bench特化型AIエージェントを作成 ● 将来のAIエージェントのベースライン ● LLMのエージェント化による利得の調査 ● 産業応用の可能性 ● AIでAHC1位を取ってドヤりたい 01 02 04 03

Slide 19

Slide 19 text

fishyleneの内部 19 01 02 04 03 特徴①:ドメイン知識プロンプト(アルゴリズム・評価関数・高速化手法等) 特徴②:幅つき最良優先探索(ビームサーチに近いアルゴリズム)

Slide 20

Slide 20 text

fishyleneの内部 20 01 02 04 03 特徴①:ドメイン知識プロンプト(アルゴリズム・評価関数・高速化手法等) 特徴②:幅つき最良優先探索(ビームサーチに近いアルゴリズム) プロンプト例 ● 現在のコードの速度のボトルネックを推定し高速化せよ ● 焼きなまし法を使っているならば、より高速に解が収束する状態の持ち方に 変更せよ ● 焼きなまし法を使っているならば、(略)に注目して近傍を改善せよ ● ビームサーチを使っているならば、評価関数や多様性を改善せよ

Slide 21

Slide 21 text

fishyleneの内部 21 01 02 04 03 Initial Score 40.4 Score 58.8 Score 30.1 Score 62.5 Score 61.9 Score 67.3 Score 79.2 Score 77.7 Score 87.6 Score 92.1 Score 70.0 Score 81.9 特徴①:ドメイン知識プロンプト(アルゴリズム・評価関数・高速化手法等) 特徴②:幅つき最良優先探索(ビームサーチに近いアルゴリズム)

Slide 22

Slide 22 text

fishyleneの内部 22 01 02 04 03 特徴①:ドメイン知識プロンプト(アルゴリズム・評価関数・高速化手法等) 特徴②:幅つき最良優先探索(ビームサーチに近いアルゴリズム) fishylene化 + 700 perf.

Slide 23

Slide 23 text

fishyleneの今後 23 01 02 04 03 エージェントの新バージョンを開発中 ● 複数の LLM をいい感じに混ぜて呼びだす ● 評価サーバの構築 ● etc. fishyleneの改善案があればポストお願いします! 今後もAHCの順位表でお会いしましょう! 明日のAHC057も出場します! アイデアをポスト!

Slide 24

Slide 24 text

AHCに着目した理由 プロジェクト概要と経緯 fishyleneを作ってみて AHCにおけるLLM活用 01 02 03 04

Slide 25

Slide 25 text

AHC057 25 01 02 03 04 LLMが全て実装 LLMが全て実装? アイデアをポスト!

Slide 26

Slide 26 text

LLM x AHC 26 得意 ● 典型的なアイデアの提案 ● 簡単なアイデアの実装 ● 雑なアイデアの具体化 不得手 ● 問題特性を考慮したアイデアの提案 ● 複雑なアイデアの実装 ● ビジュアライザや予備実験を用いた考察 01 02 03 04 アイデアをポスト!

Slide 27

Slide 27 text

fishyleneでの対応 27 得意 ● 典型的なアイデアの提案 ● 簡単なアイデアの実装 ● 雑なアイデアの具体化 不得手 ● 問題特性を考慮したアイデアの提案 ● 複雑なアイデアの実装 ● ビジュアライザや予備実験を用いた考察 01 02 03 04 生成回数でゴリ押す アイデアをポスト!

Slide 28

Slide 28 text

人間の伴走者としてのLLM 28 得意 ● 典型的なアイデアの提案 ● 簡単なアイデアの実装 ● 雑なアイデアの具体化 不得手 ● 問題特性を考慮したアイデアの提案 ● 複雑なアイデアの実装 ● ビジュアライザや予備実験を用いた考察 01 02 03 04 対話によるbrainstorming 時間短縮+解法選択 複数回生成して最良を採用 アイデアをポスト!

Slide 29

Slide 29 text

人間の伴走者としてのLLM 29 得意 ● 典型的なアイデアの提案 ● 簡単なアイデアの実装 ● 雑なアイデアの具体化 不得手 ● 問題特性を考慮したアイデアの提案 ● 複雑なアイデアの実装 ● ビジュアライザや予備実験を用いた考察 01 02 03 04 人間が担う アイデアをポスト!

Slide 30

Slide 30 text

人間の伴走者としてのLLM 30 得意 ● 典型的なアイデアの提案 ● 簡単なアイデアの実装 ● 雑なアイデアの具体化 不得手 ● 問題特性を考慮したアイデアの提案 ● 複雑なアイデアの実装 ● ビジュアライザや予備実験を用いた考察 01 02 03 04 部分問題の考察 疑似コードを渡す ビジュアライザの機能追加 予備実験用のコード生成 アイデアをポスト!

Slide 31

Slide 31 text

31 01 02 03 04 AHCは まだまだ人間が活躍できる競技

Slide 32

Slide 32 text

Thank you ↑AtCoderJobs Sakana AIは採用強化中! Applied Research Engineer Software Engineer