Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
KaggleはAIに解けるか?MLE-Benchのいま (2025/08/23; 第4回 関...
Search
Takuya Akiba
August 23, 2025
4
2.5k
KaggleはAIに解けるか? MLE-Benchのいま (2025/08/23; 第4回 関東Kaggler会)
Takuya Akiba
August 23, 2025
Tweet
Share
More Decks by Takuya Akiba
See All by Takuya Akiba
自然着想型アプローチによる基盤モデルの研究開発 (2025/01/23, 第35回ステアラボ人工知能セミナー)
iwiwi
2
98
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
11
6.9k
LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)
iwiwi
12
9.9k
Stability AI Japanにおける大規模言語モデルの研究開発
iwiwi
17
12k
Kaggle Traveling Santa 2018 - 4th Place Solution
iwiwi
1
23
Kaggle State Farm Distracted Driver Detection
iwiwi
15
9.9k
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.5k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.7k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.7k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
30
2.9k
Git: the NoSQL Database
bkeepers
PRO
431
66k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
It's Worth the Effort
3n
187
28k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Context Engineering - Making Every Token Count
addyosmani
8
300
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Reflections from 52 weeks, 52 projects
jeffersonlam
353
21k
Transcript
KaggleはAIに解けるか? MLE-Benchのいま 第4回 関東Kaggler会 2025/08/23 秋葉 拓哉 (@iwiwi)
自己紹介 @iwiwi 2016〜2023 2023〜
MLE-Benchとは?
MLE-Bench https://arxiv.org/abs/2410.07095 2024年10月にOpenAIが公開
Kaggleの問題をAIエージェントに解かせるベンチマーク MLE-Bench https://arxiv.org/abs/2410.07095
smlyさんがAI扱い(?) されたことも話題に… MLE-Bench https://arxiv.org/abs/2410.07095
最新の状況は?
公式Leaderboard https://github.com/openai/mle-bench GitHub上にLeaderboardがある Metricは「メダル獲得率」(何メダルでもOK)
公式Leaderboard https://github.com/openai/mle-bench 2024年10月のリリース後、何個か提出あり (GitHub上でPRを出せば自己申告可能)
AIDE https://arxiv.org/abs/2502.13138
AIDE https://arxiv.org/abs/2502.13138 基本は最良優先探索 一番スコアが良いコードを改善させることを繰り返す
AIDE https://arxiv.org/abs/2502.13138 一定確率でデバッグ 正常終了してないコードを選び修正しようとしてみる
AIDE https://arxiv.org/abs/2502.13138 経験を要約しながら引き継ぐ
ML-Master https://arxiv.org/abs/2506.16499
ML-Master https://arxiv.org/abs/2506.16499 MCTS風の木探索 ちゃんとしたMCTSにならず若干意味が壊れてるが気にせずUCTを使う、 みたいなヒューリスティック流行ってきてる気がする?
ML-Master https://arxiv.org/abs/2506.16499 経験を要約した記憶を、 instructionではなくreasoning trace内に注入(!?)
ML-Master https://arxiv.org/abs/2506.16499 17.3%のコンテストで金メダル圏内 ※ただしMLE-Benchの結果の解釈にはかなり色々な注意があります! 「今コンテストに出たら17.3%の確率で金メダル」では多分ないです!
Neo https://heyneo.so/
Neo https://heyneo.so/ 技術的な情報はほぼなし
周辺の進展
ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782 2025年5月 リリース
AIが途中でも提出しLB情報を得られる (MLE-Benchはできず一発勝負) ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782
推論時スケーリング手法の進展 AB-MCTS https://arxiv.org/abs/2503.04412 AlphaEvolve https://arxiv.org/abs/2506.13131
AB-MCTS https://arxiv.org/abs/2503.04412 AB-MCTSはMLE-Benchでも試してます
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 AtCoder Heuristic Contest (AHC) に AIエージェントが取り組むベンチマーク
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 https://speakerdeck.com/chettub/di-3hui-guan-dong-kagglerhui-atcoderhakagglenoyi-nili-tu AtCoder Heuristic Contestについては↑ (雑な説明:サンタコンペみたいなやつ)
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 我々の「ALE-Agent」が5位相当獲得
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 現在開催中のAHC052では暫定3位! コンテストは19時まで
KaggleはAIに いつ解けるか?
Measuring AI Ability to Complete Long Tasks https://arxiv.org/abs/2503.14499 クソ雑に3ヶ月に外挿すると、2028〜2030頃……??? そもそもKaggleはsoftware
tasksとはやや違うし……皆さんはどう思いますか?