kansai-kaggler-senkin13.pdf

Kaggle金メダル獲得戦略詹金センキン

コンペ成績 • Kaggle: 12 Gold • Other Platform: 10+ Prize

4 Gold - No Shake

4 Gold - Shakedown

4 Gold - Shakeup

金メダルの難易度分析 • 1000チームの場合Top 12が金(1.2%)、3000チームの場合Top 16が金(0.53%)、5000チームの場合Top 20が金(0.4%)、参加者が多いほど多ければ難しい • 終盤金争いチームが大体30~50チーム(30%~50%) 、金争い組に入れば確率が高い

宝くじコンペを避ける • 宝くじに近いコンペを真面目にやると大ダメージ

コンペ選択戦略 • データ数が多い（数千万～数億） • 評価指標が競技にふさわしい • CVとLBが一致（自分の実験、CV/LB投稿） • 精度向上の理由がわかる（特徴量、hyper-parameter tuning
、 ensemble） • GM/MasterがLB上位が多い • 自分が得意な領域あるいは楽しめる領域 ※４つ以上を満たせば良いコンペ

モチベーション戦略 • 一石多鳥の目標（勉強、ゲーム、名誉、就職転職 ……） • ドーパミンを増やす（よくLBにジャンプアップ、アイディアがうまくいける……） • 順調なとき加速させる、伸び悩むとき気分転換（休憩、運動、旅行……）
• 自己維持難しければ、チーム組んだり、 Discussionで活発に投稿したり

情報収集戦略 • 自分の経験、スキル漏れなく全部発揮だせる • Kaggle過去類似なコンペの上位 solutionの勉強 • 現コンペ公開したnotebook、discussionの吸収 • Kaggle以外の世界で情報収集、関連技術の論文、記事
（H&Mコンペ使ったProNE 1st solution) • 常識や経験や苦労に絞らず独創的な発想 (OpenProblemsコンペ使ったlightgbm sparse matrix学習 2nd solution)

Shakedownしない戦略 • なるべく大きい改善点を注力して、小さい改善は overfitting、ランダム誤差の可能性ある • 多様性があるチームとマージ • Public LBをこだわらず、 trust
cv+lb > trust cv > trust lb • 最終subの選択はbugなし、leakなしの一つbest cv 、一つbest lb

ご清聴ありがとうございました!

kansai-kaggler-senkin13.pdf

kansai-kaggler-senkin13.pdf

senkin13

More Decks by senkin13

Featured

Transcript

Kaggle金メダル獲得戦略詹金センキン

コンペ成績 • Kaggle: 12 Gold • Other Platform: 10+ Prize

4 Gold - No Shake

4 Gold - Shakedown

4 Gold - Shakeup

宝くじコンペを避ける • 宝くじに近いコンペを真面目にやると大ダメージ

コンペ選択戦略 • データ数が多い（数千万～数億） • 評価指標が競技にふさわしい • CVとLBが一致（自分の実験、CV/LB投稿） • 精度向上の理由がわかる（特徴量、hyper-parameter tuning

情報収集戦略 • 自分の経験、スキル漏れなく全部発揮だせる • Kaggle過去類似なコンペの上位 solutionの勉強 • 現コンペ公開したnotebook、discussionの吸収 • Kaggle以外の世界で情報収集、関連技術の論文、記事

Shakedownしない戦略 • なるべく大きい改善点を注力して、小さい改善は overfitting、ランダム誤差の可能性ある • 多様性があるチームとマージ • Public LBをこだわらず、 trust

ご清聴ありがとうございました!