Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
KaggleはAIに解けるか?MLE-Benchのいま (2025/08/23; 第4回 関...
Search
Takuya Akiba
August 23, 2025
3
1k
KaggleはAIに解けるか? MLE-Benchのいま (2025/08/23; 第4回 関東Kaggler会)
Takuya Akiba
August 23, 2025
Tweet
Share
More Decks by Takuya Akiba
See All by Takuya Akiba
自然着想型アプローチによる基盤モデルの研究開発 (2025/01/23, 第35回ステアラボ人工知能セミナー)
iwiwi
2
72
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
11
6.7k
LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)
iwiwi
12
9.8k
Stability AI Japanにおける大規模言語モデルの研究開発
iwiwi
17
11k
Kaggle Traveling Santa 2018 - 4th Place Solution
iwiwi
1
12
Kaggle State Farm Distracted Driver Detection
iwiwi
15
9.9k
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6k
The Cult of Friendly URLs
andyhume
79
6.5k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
6k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
Embracing the Ebb and Flow
colly
86
4.8k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
810
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Transcript
KaggleはAIに解けるか? MLE-Benchのいま 第4回 関東Kaggler会 2025/08/23 秋葉 拓哉 (@iwiwi)
自己紹介 @iwiwi 2016〜2023 2023〜
MLE-Benchとは?
MLE-Bench https://arxiv.org/abs/2410.07095 2024年10月にOpenAIが公開
Kaggleの問題をAIエージェントに解かせるベンチマーク MLE-Bench https://arxiv.org/abs/2410.07095
smlyさんがAI扱い(?) されたことも話題に… MLE-Bench https://arxiv.org/abs/2410.07095
最新の状況は?
公式Leaderboard https://github.com/openai/mle-bench GitHub上にLeaderboardがある Metricは「メダル獲得率」(何メダルでもOK)
公式Leaderboard https://github.com/openai/mle-bench 2024年10月のリリース後、何個か提出あり (GitHub上でPRを出せば自己申告可能)
AIDE https://arxiv.org/abs/2502.13138
AIDE https://arxiv.org/abs/2502.13138 基本は最良優先探索 一番スコアが良いコードを改善させることを繰り返す
AIDE https://arxiv.org/abs/2502.13138 一定確率でデバッグ 正常終了してないコードを選び修正しようとしてみる
AIDE https://arxiv.org/abs/2502.13138 経験を要約しながら引き継ぐ
ML-Master https://arxiv.org/abs/2506.16499
ML-Master https://arxiv.org/abs/2506.16499 MCTS風の木探索 ちゃんとしたMCTSにならず若干意味が壊れてるが気にせずUCTを使う、 みたいなヒューリスティック流行ってきてる気がする?
ML-Master https://arxiv.org/abs/2506.16499 経験を要約した記憶を、 instructionではなくreasoning trace内に注入(!?)
ML-Master https://arxiv.org/abs/2506.16499 17.3%のコンテストで金メダル圏内 ※ただしMLE-Benchの結果の解釈にはかなり色々な注意があります! 「今コンテストに出たら17.3%の確率で金メダル」では多分ないです!
Neo https://heyneo.so/
Neo https://heyneo.so/ 技術的な情報はほぼなし
周辺の進展
ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782 2025年5月 リリース
AIが途中でも提出しLB情報を得られる (MLE-Benchはできず一発勝負) ベンチマークの進展 MLE-Dojo https://arxiv.org/abs/2505.07782
推論時スケーリング手法の進展 AB-MCTS https://arxiv.org/abs/2503.04412 AlphaEvolve https://arxiv.org/abs/2506.13131
AB-MCTS https://arxiv.org/abs/2503.04412 AB-MCTSはMLE-Benchでも試してます
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 AtCoder Heuristic Contest (AHC) に AIエージェントが取り組むベンチマーク
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 https://speakerdeck.com/chettub/di-3hui-guan-dong-kagglerhui-atcoderhakagglenoyi-nili-tu AtCoder Heuristic Contestについては↑ (雑な説明:サンタコンペみたいなやつ)
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 我々の「ALE-Agent」が5位相当獲得
周辺ドメインの進展 ALE-Bench https://arxiv.org/abs/2506.09050 現在開催中のAHC052では暫定3位! コンテストは19時まで
KaggleはAIに いつ解けるか?
Measuring AI Ability to Complete Long Tasks https://arxiv.org/abs/2503.14499 クソ雑に3ヶ月に外挿すると、2028〜2030頃……??? そもそもKaggleはsoftware
tasksとはやや違うし……皆さんはどう思いますか?