Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
KaggleはAIに解けるか?MLE-Benchのいま (2025/08/23; 第4回 関...
Search
Takuya Akiba
August 23, 2025
4
2.8k
KaggleはAIに解けるか? MLE-Benchのいま (2025/08/23; 第4回 関東Kaggler会)
Takuya Akiba
August 23, 2025
Tweet
Share
More Decks by Takuya Akiba
See All by Takuya Akiba
戦えるAIエージェントの作り方
iwiwi
25
13k
自然着想型アプローチによる基盤モデルの研究開発 (2025/01/23, 第35回ステアラボ人工知能セミナー)
iwiwi
2
130
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
11
7k
LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)
iwiwi
12
9.9k
Stability AI Japanにおける大規模言語モデルの研究開発
iwiwi
17
12k
Kaggle Traveling Santa 2018 - 4th Place Solution
iwiwi
1
28
Kaggle State Farm Distracted Driver Detection
iwiwi
15
10k
Featured
See All Featured
Mobile First: as difficult as doing things right
swwweet
225
10k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
192
56k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.2k
The Cost Of JavaScript in 2023
addyosmani
55
9.2k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
How to Ace a Technical Interview
jacobian
280
24k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
A Modern Web Designer's Workflow
chriscoyier
697
190k
Transcript
KaggleはAIに解けるか? MLE-Benchのいま 第4回 関東Kaggler会 2025/08/23 秋葉 拓哉 (@iwiwi)
自己紹介 @iwiwi 2016〜2023 2023〜
MLE-Benchとは?
MLE-Bench https://arxiv.org/abs/2410.07095 2024年10月にOpenAIが公開
Kaggleの問題をAIエージェントに解かせるベンチマーク MLE-Bench https://arxiv.org/abs/2410.07095
smlyさんがAI扱い(?) されたことも話題に… MLE-Bench https://arxiv.org/abs/2410.07095
最新の状況は?
公式Leaderboard https://github.com/openai/mle-bench GitHub上にLeaderboardがある Metricは「メダル獲得率」(何メダルでもOK)
公式Leaderboard https://github.com/openai/mle-bench 2024年10月のリリース後、何個か提出あり (GitHub上でPRを出せば自己申告可能)
AIDE https://arxiv.org/abs/2502.13138
AIDE https://arxiv.org/abs/2502.13138 基本は最良優先探索 一番スコアが良いコードを改善させることを繰り返す
AIDE https://arxiv.org/abs/2502.13138 一定確率でデバッグ 正常終了してないコードを選び修正しようとしてみる
AIDE https://arxiv.org/abs/2502.13138 経験を要約しながら引き継ぐ
ML-Master https://arxiv.org/abs/2506.16499
ML-Master https://arxiv.org/abs/2506.16499 MCTS風の木探索 ちゃんとしたMCTSにならず若干意味が壊れてるが気にせずUCTを使う、 みたいなヒューリスティック流行ってきてる気がする?
ML-Master https://arxiv.org/abs/2506.16499 経験を要約した記憶を、 instructionではなくreasoning trace内に注入(!?)
ML-Master https://arxiv.org/abs/2506.16499 17.3%のコンテストで金メダル圏内 ※ただしMLE-Benchの結果の解釈にはかなり色々な注意があります! 「今コンテストに出たら17.3%の確率で金メダル」では多分ないです!
Neo https://heyneo.so/
Neo https://heyneo.so/ 技術的な情報はほぼなし
周辺の進展
ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782 2025年5月 リリース
AIが途中でも提出しLB情報を得られる (MLE-Benchはできず一発勝負) ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782
推論時スケーリング手法の進展 AB-MCTS https://arxiv.org/abs/2503.04412 AlphaEvolve https://arxiv.org/abs/2506.13131
AB-MCTS https://arxiv.org/abs/2503.04412 AB-MCTSはMLE-Benchでも試してます
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 AtCoder Heuristic Contest (AHC) に AIエージェントが取り組むベンチマーク
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 https://speakerdeck.com/chettub/di-3hui-guan-dong-kagglerhui-atcoderhakagglenoyi-nili-tu AtCoder Heuristic Contestについては↑ (雑な説明:サンタコンペみたいなやつ)
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 我々の「ALE-Agent」が5位相当獲得
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 現在開催中のAHC052では暫定3位! コンテストは19時まで
KaggleはAIに いつ解けるか?
Measuring AI Ability to Complete Long Tasks https://arxiv.org/abs/2503.14499 クソ雑に3ヶ月に外挿すると、2028〜2030頃……??? そもそもKaggleはsoftware
tasksとはやや違うし……皆さんはどう思いますか?