Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
KaggleはAIに解けるか?MLE-Benchのいま (2025/08/23; 第4回 関...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Takuya Akiba
August 23, 2025
5
3.4k
KaggleはAIに解けるか? MLE-Benchのいま (2025/08/23; 第4回 関東Kaggler会)
Takuya Akiba
August 23, 2025
Tweet
Share
More Decks by Takuya Akiba
See All by Takuya Akiba
戦えるAIエージェントの作り方
iwiwi
29
16k
自然着想型アプローチによる基盤モデルの研究開発 (2025/01/23, 第35回ステアラボ人工知能セミナー)
iwiwi
2
160
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
11
7.2k
LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)
iwiwi
12
10k
Stability AI Japanにおける大規模言語モデルの研究開発
iwiwi
17
12k
Kaggle Traveling Santa 2018 - 4th Place Solution
iwiwi
1
46
Kaggle State Farm Distracted Driver Detection
iwiwi
15
10k
Featured
See All Featured
Thoughts on Productivity
jonyablonski
74
5k
A designer walks into a library…
pauljervisheath
210
24k
Making Projects Easy
brettharned
120
6.6k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Testing 201, or: Great Expectations
jmmastey
46
8.1k
Embracing the Ebb and Flow
colly
88
5k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
130
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1.1k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
52k
New Earth Scene 8
popppiees
1
1.5k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
Transcript
KaggleはAIに解けるか? MLE-Benchのいま 第4回 関東Kaggler会 2025/08/23 秋葉 拓哉 (@iwiwi)
自己紹介 @iwiwi 2016〜2023 2023〜
MLE-Benchとは?
MLE-Bench https://arxiv.org/abs/2410.07095 2024年10月にOpenAIが公開
Kaggleの問題をAIエージェントに解かせるベンチマーク MLE-Bench https://arxiv.org/abs/2410.07095
smlyさんがAI扱い(?) されたことも話題に… MLE-Bench https://arxiv.org/abs/2410.07095
最新の状況は?
公式Leaderboard https://github.com/openai/mle-bench GitHub上にLeaderboardがある Metricは「メダル獲得率」(何メダルでもOK)
公式Leaderboard https://github.com/openai/mle-bench 2024年10月のリリース後、何個か提出あり (GitHub上でPRを出せば自己申告可能)
AIDE https://arxiv.org/abs/2502.13138
AIDE https://arxiv.org/abs/2502.13138 基本は最良優先探索 一番スコアが良いコードを改善させることを繰り返す
AIDE https://arxiv.org/abs/2502.13138 一定確率でデバッグ 正常終了してないコードを選び修正しようとしてみる
AIDE https://arxiv.org/abs/2502.13138 経験を要約しながら引き継ぐ
ML-Master https://arxiv.org/abs/2506.16499
ML-Master https://arxiv.org/abs/2506.16499 MCTS風の木探索 ちゃんとしたMCTSにならず若干意味が壊れてるが気にせずUCTを使う、 みたいなヒューリスティック流行ってきてる気がする?
ML-Master https://arxiv.org/abs/2506.16499 経験を要約した記憶を、 instructionではなくreasoning trace内に注入(!?)
ML-Master https://arxiv.org/abs/2506.16499 17.3%のコンテストで金メダル圏内 ※ただしMLE-Benchの結果の解釈にはかなり色々な注意があります! 「今コンテストに出たら17.3%の確率で金メダル」では多分ないです!
Neo https://heyneo.so/
Neo https://heyneo.so/ 技術的な情報はほぼなし
周辺の進展
ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782 2025年5月 リリース
AIが途中でも提出しLB情報を得られる (MLE-Benchはできず一発勝負) ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782
推論時スケーリング手法の進展 AB-MCTS https://arxiv.org/abs/2503.04412 AlphaEvolve https://arxiv.org/abs/2506.13131
AB-MCTS https://arxiv.org/abs/2503.04412 AB-MCTSはMLE-Benchでも試してます
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 AtCoder Heuristic Contest (AHC) に AIエージェントが取り組むベンチマーク
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 https://speakerdeck.com/chettub/di-3hui-guan-dong-kagglerhui-atcoderhakagglenoyi-nili-tu AtCoder Heuristic Contestについては↑ (雑な説明:サンタコンペみたいなやつ)
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 我々の「ALE-Agent」が5位相当獲得
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 現在開催中のAHC052では暫定3位! コンテストは19時まで
KaggleはAIに いつ解けるか?
Measuring AI Ability to Complete Long Tasks https://arxiv.org/abs/2503.14499 クソ雑に3ヶ月に外挿すると、2028〜2030頃……??? そもそもKaggleはsoftware
tasksとはやや違うし……皆さんはどう思いますか?