Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Agent時代のKaggleで、人間は何を見るべきか (関西kaggler会 2026.5.22)

Avatar for Kinosuke Kinosuke
May 21, 2026
840

Agent時代のKaggleで、人間は何を見るべきか (関西kaggler会 2026.5.22)

Avatar for Kinosuke

Kinosuke

May 21, 2026

Transcript

  1. 参考リンク 詳しい解法と Claude Code / Codex 活用方法は、 こちらから読めます。 Kinosuke 解法紹介

    草コンペ振り返り https://speakerdeck.com/ chihironakayama/ cao-konhezhen-rifan-ri Claude Code 活用記事 Zenn 記事 https://zenn.dev/chiman/ articles/b233cc808d6af3 INTRO
  2. 今日話すこと 今日は、 草コンペ解法紹介 ・ Agent活用の実態 ・ Agent時代におけるKaggleの変化 を話します PART A

    草コンペ解法紹介 勝つための解は 何なのか ▶ PART B Agent活用 その解にどう たどり着いたか ▶ PART C Kaggleの変化 勝負所はどう 移るのか INTRO
  3. 結果 / 今日の主題 5th / 3,803 teams ・ 🥇 gold

    Agent時代のKaggleで、 人間に残るのは何か? INTRO 実装の多くは Agentに寄せた 勝ち筋を Agentが自律発見したわけではない 勝つためには人も頑張る必要がある
  4. Kinosuke 解法 勝ち筋は、 DINOv3 patch token を biomass の密度マップのように扱う。 事前学習の重みを壊さずドメイン適応させる学習

    Patch 1つずつでbiomassを予測 して、 最後に 足し合わせる(1マスずつ予測して合計する) A ─ 草コンペ解法紹介
  5. コンペ参加中に思っていたこと Biomass = 局所ごとの草種 × 被覆率 × 高さ × 密度

    で表せるはず、 という仮説。 これを表現できるモデルを、 コンペ序盤から探していた A ─ 草コンペ解法紹介
  6. 仮説とDINOv3の接続 DINOv3のdense featuresは、 局所ごとの草量を見たい 自分の仮説に 最も近かった 1つのpatchを指定すると、 画像内の似た局所領域が浮かび上がる patch token

    は局所の見た目を保つ。 各patchを予測単位として草量寄与を推定し、 最後に足し上げる 発想にした。 A ─ 草コンペ解法紹介
  7. Agent活用の役割 「いつもやること」 はAgentに任せ、 人間は 「そのコンペだからやること」 に集中する いつもやること → Agent ⇄

    そのコンペだからやること → 人間 ⚠ Agent に自律で精度改善を任せるなら、 CV を正しく綺麗にしておくこと(Agent が登る山を決めるのは人間) 人間が気づきを拾える 時間を作った ことが Agent の価値 / 整理: kmat さん Qiita より引用 B ─ Agent活用 差し替え試行: model / loss / augmentation / 前処理・後処 理 / TTA・EMA / scheduler 実験: 5-fold 学習 / ablation(構成要素を外して影響を測る) 集計: OOF / CV-LB / target別残差 / fold差 整理: 高スコア Notebook の要約 / 実験ログ・可視化 観察: 元データ・meta を目で見る / 出力を可視化する 仮説: 論文を読む / 過去コンペから類比 / タスク構造を見立 てる 評価設計: CV の切り方の妥当性を疑う / 何を改善指標にす るか決める 判断: Agent の Next Action を採否する / 次の実験を設計す る 規模感 5-fold × 約300 unique実験 ≒ 1,515 fold実行
  8. Agentの得意 / 不得意 分析レポートは任せられる。 だが、 どの切り口で見せるか・次に何を試すかは人間が決める 任せられる(レポートは有用) 「このサンプルで過小評価している」 までは出せる 人間が判断する

    ─ 採否の軸 B ─ Agent活用 OOF 分析: target別残差 / fold差 / 苦手サンプル抽出 CV-LB 分析: 相関 / 乖離パターン 高スコア Notebook 分析: 共通要素 / 自分との差分 データ分布を歪めていないか 事前学習の重みを壊していないか タスク構造(局所分布・密度)を活かしているか Public LB だけで判断していないか 過去コンペで 「筋が悪い」 と分かっていた打ち手ではないか
  9. 小ネタ / Agentの性格 AIにも性格がある。 Claudeは撤退させがち、 Geminiは気持ちを乗せがち Claude 撤退させようとしがち 「学びとして区切りをつけますか?」 と理由をつけて納得させてくる。

    会話が長くなってコンテキストが溜まってくるとこうなりがち Gemini 気持ちを乗せてきがち 「プロボクサーが1Rでダウンを奪った勢い」 「うわっ、 これは大勝利の予感ですね」 とか、 意味がわからなすぎる B ─ Agent活用
  10. 勝ち筋の発見プロセス 最重要のDINOv3 patch特徴は 「精度上げて」 ではなく、 草量仮説と論文・分析結果が 人間でつながって 見つかった ① 苦戦期

    SigLIP / EVA02-CLIP / Depth結合 / Meta結合 を試す ▶ CV↑ なのに LB→ : global特徴では局所の草分布が 捨てられている ② 公開Notebook観察 DINOv3だけが伸びていた ▶ なぜDINOv3だけ? を問いとして持ち続けた ③ 論文 + 可視化 DINOv3論文 Figure 3 を読み、 出力 patch を可視化 ▶ 局所分離に強い : 1 patch指定で似た領域が浮かぶ / Clover・Dead が視覚的に分離 ④ 接続(判断) Biomass仮説(草種 × 被覆率 × 高さ × 密度)と接続 ▶ CLSではなく patch token を密度寄与として積分する head へ Agentに手を動かしてもらった時間で、 論文・観察・可視化に時間を使えた。 たまたま見つかったが、 拾える状態を作っていたから拾えた。 B ─ Agent活用
  11. Before AI Agent 以前強かったのは、 Do Everything を速く回す実装資産と、 結果から次を読む経験知を両方持つ人 実装資産 経験知

    / 勘所 本当に強かったのは 「実装量」 だけではなく、 観察・分析・判断まで含めた総合力。 C ─ Kaggleの変化 train / inference / CV / ensemble を素早く回せる 過去コンペのコード資産を転用できる 実験ログ・再現性がある seed / fold / TTA の細かい改善を積める CV だけ上がる改善を疑える leak / 分布ズレ / Public LB 過適合に気づける 失敗を 実装・評価・仮説 のどこかに切り分ける residual / OOF / fold差 から次を設計できる
  12. After AI Agent ─ 何が変わるか Agentで 汎用実装と過去コード資産 の差は縮む。 人間の役割は、 実装量から

    「方向づけ」 へ寄っていく Before AI Agent After AI Agent いつもやること Agentに寄る 強さの源だった 差が縮む(Agentに寄る) そのコンペ だからやること 人間に残る 上位に行く差別化要素 むしろ価値が上がる Agent は指定した指標を改善しようとする。 CV がずれていると、 Agent はずれた山を全力で登る。 C ─ Kaggleの変化 自分の pipeline ・過去コード資産を持っているか Do Everything は実装が大変: すぐ試せる仕組みを自分で組める人 が強い Notebook / Discussion を読み込んで取り込む地力 Agent が pipeline 構築から差し替え試行までやる 誰でも Do Everything 可能になり、 ここでは差がつきにくい Notebook 要約・移植も Agent で速い CV 設計 コンペ固有の見立て 過去コンペの引き出し 採否判断 / 違和感に気づく CV 設計: Agent に登らせる山を決める コンペ固有の見立て: さらに重要 過去コンペ引き出し: 仮説の源泉 採否判断 / 違和感: AI に気づけない領分
  13. After AI Agent ─ 結論 いつもやること = Agent / そのコンペだからやること

    = 人間 🤔 定番施策を漏れなく入れるだけでは差がつかない。 そのコンペ特有のクセを見抜く 🤔力 が勝負になる。 今回の自分の小さな🤔 人間に残る勝負所 C ─ Kaggleの変化 DINOv3のheadに global特徴 を渡すのは、 局所性を捨てていて 変だろ → patch tokenへ CVだけ上がってLB下がるのは 妙だな (撮影月Groupの決定打は Discussion 発見) 見立てる: タスク構造を読む / 仮説を立てる / 過去コンペから類比する CVを切る: Agentに正しい山を登らせる(指標がずれれば AI は全力で逆方向 へ登る) 違和感を拾い、 採否を握る: AIの Next Action は鵜呑みにせず、 🤔 で立ち止 まる