KaggleはAIに解けるか？ MLE-Benchのいま (2025/08/23; 第4回関東Kaggler会)

KaggleはAIに解けるか？ MLE-Benchのいま第4回関東Kaggler会 2025/08/23 秋葉拓哉 (@iwiwi)

自己紹介 @iwiwi 2016〜2023 2023〜

MLE-Benchとは？

MLE-Bench https://arxiv.org/abs/2410.07095 2024年10月にOpenAIが公開

Kaggleの問題をAIエージェントに解かせるベンチマーク MLE-Bench https://arxiv.org/abs/2410.07095

smlyさんがAI扱い(?) されたことも話題に… MLE-Bench https://arxiv.org/abs/2410.07095

最新の状況は？

公式Leaderboard https://github.com/openai/mle-bench GitHub上にLeaderboardがある Metricは「メダル獲得率」（何メダルでもOK）

公式Leaderboard https://github.com/openai/mle-bench 2024年10月のリリース後、何個か提出あり（GitHub上でPRを出せば自己申告可能）

AIDE https://arxiv.org/abs/2502.13138

AIDE https://arxiv.org/abs/2502.13138 基本は最良優先探索一番スコアが良いコードを改善させることを繰り返す

AIDE https://arxiv.org/abs/2502.13138 一定確率でデバッグ正常終了してないコードを選び修正しようとしてみる

AIDE https://arxiv.org/abs/2502.13138 経験を要約しながら引き継ぐ

ML-Master https://arxiv.org/abs/2506.16499

ML-Master https://arxiv.org/abs/2506.16499 MCTS風の木探索ちゃんとしたMCTSにならず若干意味が壊れてるが気にせずUCTを使う、みたいなヒューリスティック流行ってきてる気がする？

ML-Master https://arxiv.org/abs/2506.16499 経験を要約した記憶を、 instructionではなくreasoning trace内に注入(!?)

ML-Master https://arxiv.org/abs/2506.16499 17.3%のコンテストで金メダル圏内 ※ただしMLE-Benchの結果の解釈にはかなり色々な注意があります！「今コンテストに出たら17.3%の確率で金メダル」では多分ないです！

Neo https://heyneo.so/

Neo https://heyneo.so/ 技術的な情報はほぼなし

周辺の進展

ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782 2025年5月リリース

AIが途中でも提出しLB情報を得られる（MLE-Benchはできず一発勝負）ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782

推論時スケーリング手法の進展 AB-MCTS https://arxiv.org/abs/2503.04412 AlphaEvolve https://arxiv.org/abs/2506.13131

AB-MCTS https://arxiv.org/abs/2503.04412 AB-MCTSはMLE-Benchでも試してます

周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 AtCoder Heuristic Contest (AHC) に AIエージェントが取り組むベンチマーク

周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 https://speakerdeck.com/chettub/di-3hui-guan-dong-kagglerhui-atcoderhakagglenoyi-nili-tu AtCoder Heuristic Contestについては↑ （雑な説明：サンタコンペみたいなやつ）

周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 我々の「ALE-Agent」が5位相当獲得

周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 現在開催中のAHC052では暫定3位！コンテストは19時まで

KaggleはAIにいつ解けるか？

Measuring AI Ability to Complete Long Tasks https://arxiv.org/abs/2503.14499 クソ雑に3ヶ月に外挿すると、2028〜2030頃……？？？そもそもKaggleはsoftware
tasksとはやや違うし……皆さんはどう思いますか？

KaggleはAIに解けるか？MLE-Benchのいま (2025/08/23; 第4回関...

KaggleはAIに解けるか？ MLE-Benchのいま (2025/08/23; 第4回関東Kaggler会)

Takuya Akiba

More Decks by Takuya Akiba

Featured

Transcript

KaggleはAIに解けるか？ MLE-Benchのいま第4回関東Kaggler会 2025/08/23 秋葉拓哉 (@iwiwi)

自己紹介 @iwiwi 2016〜2023 2023〜

MLE-Benchとは？

MLE-Bench https://arxiv.org/abs/2410.07095 2024年10月にOpenAIが公開

Kaggleの問題をAIエージェントに解かせるベンチマーク MLE-Bench https://arxiv.org/abs/2410.07095

smlyさんがAI扱い(?) されたことも話題に… MLE-Bench https://arxiv.org/abs/2410.07095

最新の状況は？

公式Leaderboard https://github.com/openai/mle-bench GitHub上にLeaderboardがある Metricは「メダル獲得率」（何メダルでもOK）

公式Leaderboard https://github.com/openai/mle-bench 2024年10月のリリース後、何個か提出あり（GitHub上でPRを出せば自己申告可能）

AIDE https://arxiv.org/abs/2502.13138

AIDE https://arxiv.org/abs/2502.13138 基本は最良優先探索一番スコアが良いコードを改善させることを繰り返す

AIDE https://arxiv.org/abs/2502.13138 一定確率でデバッグ正常終了してないコードを選び修正しようとしてみる

AIDE https://arxiv.org/abs/2502.13138 経験を要約しながら引き継ぐ

ML-Master https://arxiv.org/abs/2506.16499

ML-Master https://arxiv.org/abs/2506.16499 MCTS風の木探索ちゃんとしたMCTSにならず若干意味が壊れてるが気にせずUCTを使う、みたいなヒューリスティック流行ってきてる気がする？

ML-Master https://arxiv.org/abs/2506.16499 経験を要約した記憶を、 instructionではなくreasoning trace内に注入(!?)

ML-Master https://arxiv.org/abs/2506.16499 17.3%のコンテストで金メダル圏内 ※ただしMLE-Benchの結果の解釈にはかなり色々な注意があります！「今コンテストに出たら17.3%の確率で金メダル」では多分ないです！

Neo https://heyneo.so/

Neo https://heyneo.so/ 技術的な情報はほぼなし

周辺の進展

ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782 2025年5月リリース

AIが途中でも提出しLB情報を得られる（MLE-Benchはできず一発勝負）ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782

推論時スケーリング手法の進展 AB-MCTS https://arxiv.org/abs/2503.04412 AlphaEvolve https://arxiv.org/abs/2506.13131

AB-MCTS https://arxiv.org/abs/2503.04412 AB-MCTSはMLE-Benchでも試してます

周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 AtCoder Heuristic Contest (AHC) に AIエージェントが取り組むベンチマーク

周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 https://speakerdeck.com/chettub/di-3hui-guan-dong-kagglerhui-atcoderhakagglenoyi-nili-tu AtCoder Heuristic Contestについては↑ （雑な説明：サンタコンペみたいなやつ）

周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 我々の「ALE-Agent」が5位相当獲得

周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 現在開催中のAHC052では暫定3位！コンテストは19時まで

KaggleはAIにいつ解けるか？

Measuring AI Ability to Complete Long Tasks https://arxiv.org/abs/2503.14499 クソ雑に3ヶ月に外挿すると、2028〜2030頃……？？？そもそもKaggleはsoftware

KaggleはAIに解けるか？ MLE-Benchのいま (2025/08/23; 第4回 関...

KaggleはAIに解けるか？ MLE-Benchのいま (2025/08/23; 第4回 関東Kaggler会)

More Decks by Takuya Akiba

Featured

Transcript

KaggleはAIに解けるか？MLE-Benchのいま (2025/08/23; 第4回関...

KaggleはAIに解けるか？ MLE-Benchのいま (2025/08/23; 第4回関東Kaggler会)