Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
kansai-kaggler-senkin13.pdf
Search
senkin13
February 29, 2024
2
2.6k
kansai-kaggler-senkin13.pdf
senkin13
February 29, 2024
Tweet
Share
More Decks by senkin13
See All by senkin13
atmaCup #16 in collaboration with RECRUIT 2nd place solution
senkin13
1
340
kanto_kaggler_senkin13
senkin13
1
2.6k
Featured
See All Featured
Building Applications with DynamoDB
mza
96
6.7k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
970
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
How STYLIGHT went responsive
nonsquared
100
5.9k
Automating Front-end Workflow
addyosmani
1371
200k
Rails Girls Zürich Keynote
gr2m
95
14k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
KATA
mclloyd
PRO
32
15k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
Transcript
Kaggle金メダル獲得戦 略 詹金 センキン
コンペ成績 • Kaggle: 12 Gold • Other Platform: 10+ Prize
4 Gold - No Shake
4 Gold - Shakedown
4 Gold - Shakeup
金メダルの難易度分析 • 1000チームの場合Top 12が金(1.2%)、3000チームの場合Top 16が金(0.53%)、5000チームの場 合Top 20が金(0.4%)、参加者が多いほど多ければ難しい • 終盤金争いチームが大体30~50チーム(30%~50%) 、金争い組に入れば確率が高い
宝くじコンペを避ける • 宝くじに近いコンペを真面目にやると大ダメージ
コンペ選択戦略 • データ数が多い(数千万~数億) • 評価指標が競技にふさわしい • CVとLBが一致(自分の実験、CV/LB投稿) • 精度向上の理由がわかる(特徴量、hyper-parameter tuning
、 ensemble) • GM/MasterがLB上位が多い • 自分が得意な領域あるいは楽しめる領域 ※4つ以上を満たせば良いコンペ
モチベーション戦略 • 一石多鳥の目標(勉強、ゲーム、名誉、就職転職 ……) • ドーパミンを増やす(よくLBにジャンプアップ、 アイディアがうまくいける……) • 順調なとき加速させる、伸び悩むとき気分転換( 休憩、運動、旅行……)
• 自己維持難しければ、チーム組んだり、 Discussionで活発に投稿したり
情報収集戦略 • 自分の経験、スキル漏れなく全部発揮だせる • Kaggle過去類似なコンペの上位 solutionの勉強 • 現コンペ公開したnotebook、discussionの吸収 • Kaggle以外の世界で情報収集、関連技術の論文、記事
(H&Mコンペ使ったProNE 1st solution) • 常識や経験や苦労に絞らず独創的な発想 (OpenProblemsコンペ使ったlightgbm sparse matrix学 習 2nd solution)
Shakedownしない戦略 • なるべく大きい改善点を注力して、小さい改善は overfitting、ランダム誤差の可能性ある • 多様性があるチームとマージ • Public LBをこだわらず、 trust
cv+lb > trust cv > trust lb • 最終subの選択はbugなし、leakなしの一つbest cv 、一 つbest lb
ご清聴ありがとうございました!