Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Agent時代のKaggleで、人間は何を見るべきか (関西kaggler会 2026.5.22)
Search
Kinosuke
May 21, 2026
1.1k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Agent時代のKaggleで、人間は何を見るべきか (関西kaggler会 2026.5.22)
Kinosuke
May 21, 2026
More Decks by Kinosuke
See All by Kinosuke
Claude Codeはどこまで戦えるのか?Kaggle金メダルで見えた現在地
chihironakayama
1
710
草コンペ振り返り
chihironakayama
3
920
Featured
See All Featured
Speed Design
sergeychernyshev
33
1.8k
The Language of Interfaces
destraynor
162
27k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
380
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1.1k
Visualization
eitanlees
152
17k
Building the Perfect Custom Keyboard
takai
2
790
Agile that works and the tools we love
rasmusluckow
331
21k
For a Future-Friendly Web
brad_frost
183
10k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
250
Fireside Chat
paigeccino
42
3.9k
Transcript
関西 Kaggler 会 ・ 2026.05.22 Agent時代のKaggleで、 人間は何を見るべきか 草コンペ 5th /
3,803 を題材に 発表 Kinosuke Kaggle Master 🥇1 🥈5 🥉1
自己紹介 所属 個人事業主 仕事 コンピュータビジョン (図面・ドキュメント解析) RAG / Agent 開発
デッドリフト 160kg スクワット 130kg ベンチプレス 110kg INTRO
Ryushi-Yuki-Suguuuuu CUP Ryushi-Yuki-Suguuuuu CUP 総合ランキング 1st です。 INTRO
参考リンク 詳しい解法と Claude Code / Codex 活用方法は、 こちらから読めます。 Kinosuke 解法紹介
草コンペ振り返り https://speakerdeck.com/ chihironakayama/ cao-konhezhen-rifan-ri Claude Code 活用記事 Zenn 記事 https://zenn.dev/chiman/ articles/b233cc808d6af3 INTRO
今日話すこと 今日は、 草コンペ解法紹介 ・ Agent活用の実態 ・ Agent時代におけるKaggleの変化 を話します PART A
草コンペ解法紹介 勝つための解は 何なのか ▶ PART B Agent活用 その解にどう たどり着いたか ▶ PART C Kaggleの変化 勝負所はどう 移るのか INTRO
結果 / 今日の主題 5th / 3,803 teams ・ 🥇 gold
Agent時代のKaggleで、 人間に残るのは何か? INTRO 実装の多くは Agentに寄せた 勝ち筋を Agentが自律発見したわけではない 勝つためには人も頑張る必要がある
A 草コンペ解法紹介 勝ち筋は 「DINOv3を使う」 だけではなかった。 解にたどり着くまでの、 観察・仮説・発見のストーリー。 PART A
草コンペとは 1枚の上面画像から草の乾物重量を予測する画像回帰タスク。 近年のKaggleでは珍しい、 非常にシンプルなタスク A ─ 草コンペ解法紹介
草コンペのデータ特性 データセットは極端に少ないが、 ラベルは実測ベースで比較的安定 A ─ 草コンペ解法紹介
スコア分布 3,803チームが参加。 ほぼ全員がDINOv3を使う状況では、 公開Notebookだけでは差がつきにくかった A ─ 草コンペ解法紹介
公開Notebookで流行っていた手法 「DINOv3系2stream回帰」 と 「SigLIP埋め込み + GBDT」 が主流。 DINOv3を使うだけでは差にならなかった A ─
草コンペ解法紹介
Kinosuke 解法 勝ち筋は、 DINOv3 patch token を biomass の密度マップのように扱う。 事前学習の重みを壊さずドメイン適応させる学習
Patch 1つずつでbiomassを予測 して、 最後に 足し合わせる(1マスずつ予測して合計する) A ─ 草コンペ解法紹介
コンペ参加中に思っていたこと Biomass = 局所ごとの草種 × 被覆率 × 高さ × 密度
で表せるはず、 という仮説。 これを表現できるモデルを、 コンペ序盤から探していた A ─ 草コンペ解法紹介
コンペタイムライン SigLIP・EVA02 を試すも伸びず、 長く停滞。 「局所の草量が効くはず」 の仮説だけは持ち続けていた。 DINOv3 の公開Notebookで、 ようやく仮説と噛み合うモデルが見つかった A
─ 草コンペ解法紹介
仮説とDINOv3の接続 DINOv3のdense featuresは、 局所ごとの草量を見たい 自分の仮説に 最も近かった 1つのpatchを指定すると、 画像内の似た局所領域が浮かび上がる patch token
は局所の見た目を保つ。 各patchを予測単位として草量寄与を推定し、 最後に足し上げる 発想にした。 A ─ 草コンペ解法紹介
草コンペで勝つために必要だったポイント : CV Strategy CVは撮影月でGroup化し、 Dead/Cloverを層別化することでCV/LBが安定。 Discussionで見つけた A ─ 草コンペ解法紹介
上位解法から見るコンペの解 DINOv3は全員使い差別化にならない。 dense feature・TTT・特定target補正が金圏に必要。 ※自分は TTT / 特定target補正は やらなかった A
─ 草コンペ解法紹介
B Agent活用 Agentは手を動かす。 気づき・分析の引き出し・手法選択・タスク理解は人間に残る。 その実例。 PART B
Agent活用の役割 「いつもやること」 はAgentに任せ、 人間は 「そのコンペだからやること」 に集中する いつもやること → Agent ⇄
そのコンペだからやること → 人間 ⚠ Agent に自律で精度改善を任せるなら、 CV を正しく綺麗にしておくこと(Agent が登る山を決めるのは人間) 人間が気づきを拾える 時間を作った ことが Agent の価値 / 整理: kmat さん Qiita より引用 B ─ Agent活用 差し替え試行: model / loss / augmentation / 前処理・後処 理 / TTA・EMA / scheduler 実験: 5-fold 学習 / ablation(構成要素を外して影響を測る) 集計: OOF / CV-LB / target別残差 / fold差 整理: 高スコア Notebook の要約 / 実験ログ・可視化 観察: 元データ・meta を目で見る / 出力を可視化する 仮説: 論文を読む / 過去コンペから類比 / タスク構造を見立 てる 評価設計: CV の切り方の妥当性を疑う / 何を改善指標にす るか決める 判断: Agent の Next Action を採否する / 次の実験を設計す る 規模感 5-fold × 約300 unique実験 ≒ 1,515 fold実行
Agentの限界 / 成功施策の由来 AIの提案で刺さった施策は少ない。 勝ち筋の多くは 人間発。 AIは実装をするので、 人はアイディアに工数を割けた B ─
Agent活用
Agentの得意 / 不得意 分析レポートは任せられる。 だが、 どの切り口で見せるか・次に何を試すかは人間が決める 任せられる(レポートは有用) 「このサンプルで過小評価している」 までは出せる 人間が判断する
─ 採否の軸 B ─ Agent活用 OOF 分析: target別残差 / fold差 / 苦手サンプル抽出 CV-LB 分析: 相関 / 乖離パターン 高スコア Notebook 分析: 共通要素 / 自分との差分 データ分布を歪めていないか 事前学習の重みを壊していないか タスク構造(局所分布・密度)を活かしているか Public LB だけで判断していないか 過去コンペで 「筋が悪い」 と分かっていた打ち手ではないか
小ネタ / Agentの性格 AIにも性格がある。 Claudeは撤退させがち、 Geminiは気持ちを乗せがち Claude 撤退させようとしがち 「学びとして区切りをつけますか?」 と理由をつけて納得させてくる。
会話が長くなってコンテキストが溜まってくるとこうなりがち Gemini 気持ちを乗せてきがち 「プロボクサーが1Rでダウンを奪った勢い」 「うわっ、 これは大勝利の予感ですね」 とか、 意味がわからなすぎる B ─ Agent活用
勝ち筋の発見プロセス 最重要のDINOv3 patch特徴は 「精度上げて」 ではなく、 草量仮説と論文・分析結果が 人間でつながって 見つかった ① 苦戦期
SigLIP / EVA02-CLIP / Depth結合 / Meta結合 を試す ▶ CV↑ なのに LB→ : global特徴では局所の草分布が 捨てられている ② 公開Notebook観察 DINOv3だけが伸びていた ▶ なぜDINOv3だけ? を問いとして持ち続けた ③ 論文 + 可視化 DINOv3論文 Figure 3 を読み、 出力 patch を可視化 ▶ 局所分離に強い : 1 patch指定で似た領域が浮かぶ / Clover・Dead が視覚的に分離 ④ 接続(判断) Biomass仮説(草種 × 被覆率 × 高さ × 密度)と接続 ▶ CLSではなく patch token を密度寄与として積分する head へ Agentに手を動かしてもらった時間で、 論文・観察・可視化に時間を使えた。 たまたま見つかったが、 拾える状態を作っていたから拾えた。 B ─ Agent活用
C After AI Agent ※ ここから個人的なお気持ちです。 勝負所は、 コード資産から 「見立て・CV設計・判断」 へ。
PART C
Before AI Agent 以前強かったのは、 Do Everything を速く回す実装資産と、 結果から次を読む経験知を両方持つ人 実装資産 経験知
/ 勘所 本当に強かったのは 「実装量」 だけではなく、 観察・分析・判断まで含めた総合力。 C ─ Kaggleの変化 train / inference / CV / ensemble を素早く回せる 過去コンペのコード資産を転用できる 実験ログ・再現性がある seed / fold / TTA の細かい改善を積める CV だけ上がる改善を疑える leak / 分布ズレ / Public LB 過適合に気づける 失敗を 実装・評価・仮説 のどこかに切り分ける residual / OOF / fold差 から次を設計できる
After AI Agent ─ 何が変わるか Agentで 汎用実装と過去コード資産 の差は縮む。 人間の役割は、 実装量から
「方向づけ」 へ寄っていく Before AI Agent After AI Agent いつもやること Agentに寄る 強さの源だった 差が縮む(Agentに寄る) そのコンペ だからやること 人間に残る 上位に行く差別化要素 むしろ価値が上がる Agent は指定した指標を改善しようとする。 CV がずれていると、 Agent はずれた山を全力で登る。 C ─ Kaggleの変化 自分の pipeline ・過去コード資産を持っているか Do Everything は実装が大変: すぐ試せる仕組みを自分で組める人 が強い Notebook / Discussion を読み込んで取り込む地力 Agent が pipeline 構築から差し替え試行までやる 誰でも Do Everything 可能になり、 ここでは差がつきにくい Notebook 要約・移植も Agent で速い CV 設計 コンペ固有の見立て 過去コンペの引き出し 採否判断 / 違和感に気づく CV 設計: Agent に登らせる山を決める コンペ固有の見立て: さらに重要 過去コンペ引き出し: 仮説の源泉 採否判断 / 違和感: AI に気づけない領分
After AI Agent ─ 結論 いつもやること = Agent / そのコンペだからやること
= 人間 🤔 定番施策を漏れなく入れるだけでは差がつかない。 そのコンペ特有のクセを見抜く 🤔力 が勝負になる。 今回の自分の小さな🤔 人間に残る勝負所 C ─ Kaggleの変化 DINOv3のheadに global特徴 を渡すのは、 局所性を捨てていて 変だろ → patch tokenへ CVだけ上がってLB下がるのは 妙だな (撮影月Groupの決定打は Discussion 発見) 見立てる: タスク構造を読む / 仮説を立てる / 過去コンペから類比する CVを切る: Agentに正しい山を登らせる(指標がずれれば AI は全力で逆方向 へ登る) 違和感を拾い、 採否を握る: AIの Next Action は鵜呑みにせず、 🤔 で立ち止 まる