Slide 1

Slide 1 text

Kaggle金メダル獲得戦 略 詹金 センキン

Slide 2

Slide 2 text

コンペ成績 • Kaggle: 12 Gold • Other Platform: 10+ Prize

Slide 3

Slide 3 text

4 Gold - No Shake

Slide 4

Slide 4 text

4 Gold - Shakedown

Slide 5

Slide 5 text

4 Gold - Shakeup

Slide 6

Slide 6 text

金メダルの難易度分析 • 1000チームの場合Top 12が金(1.2%)、3000チームの場合Top 16が金(0.53%)、5000チームの場 合Top 20が金(0.4%)、参加者が多いほど多ければ難しい • 終盤金争いチームが大体30~50チーム(30%~50%) 、金争い組に入れば確率が高い

Slide 7

Slide 7 text

宝くじコンペを避ける • 宝くじに近いコンペを真面目にやると大ダメージ

Slide 8

Slide 8 text

コンペ選択戦略 • データ数が多い(数千万~数億) • 評価指標が競技にふさわしい • CVとLBが一致(自分の実験、CV/LB投稿) • 精度向上の理由がわかる(特徴量、hyper-parameter tuning 、 ensemble) • GM/MasterがLB上位が多い • 自分が得意な領域あるいは楽しめる領域 ※4つ以上を満たせば良いコンペ

Slide 9

Slide 9 text

モチベーション戦略 • 一石多鳥の目標(勉強、ゲーム、名誉、就職転職 ……) • ドーパミンを増やす(よくLBにジャンプアップ、 アイディアがうまくいける……) • 順調なとき加速させる、伸び悩むとき気分転換( 休憩、運動、旅行……) • 自己維持難しければ、チーム組んだり、 Discussionで活発に投稿したり

Slide 10

Slide 10 text

情報収集戦略 • 自分の経験、スキル漏れなく全部発揮だせる • Kaggle過去類似なコンペの上位 solutionの勉強 • 現コンペ公開したnotebook、discussionの吸収 • Kaggle以外の世界で情報収集、関連技術の論文、記事 (H&Mコンペ使ったProNE 1st solution) • 常識や経験や苦労に絞らず独創的な発想 (OpenProblemsコンペ使ったlightgbm sparse matrix学 習 2nd solution)

Slide 11

Slide 11 text

Shakedownしない戦略 • なるべく大きい改善点を注力して、小さい改善は overfitting、ランダム誤差の可能性ある • 多様性があるチームとマージ • Public LBをこだわらず、 trust cv+lb > trust cv > trust lb • 最終subの選択はbugなし、leakなしの一つbest cv 、一 つbest lb

Slide 12

Slide 12 text

ご清聴ありがとうございました!