Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
kansai-kaggler-senkin13.pdf
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
senkin13
February 29, 2024
3
2.7k
kansai-kaggler-senkin13.pdf
senkin13
February 29, 2024
Tweet
Share
More Decks by senkin13
See All by senkin13
atmaCup #16 in collaboration with RECRUIT 2nd place solution
senkin13
1
360
kanto_kaggler_senkin13
senkin13
1
2.7k
Featured
See All Featured
Side Projects
sachag
455
43k
The SEO identity crisis: Don't let AI make you average
varn
0
290
The Limits of Empathy - UXLibs8
cassininazir
1
220
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Building Applications with DynamoDB
mza
96
6.9k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Embracing the Ebb and Flow
colly
88
5k
The Language of Interfaces
destraynor
162
26k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
78
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Transcript
Kaggle金メダル獲得戦 略 詹金 センキン
コンペ成績 • Kaggle: 12 Gold • Other Platform: 10+ Prize
4 Gold - No Shake
4 Gold - Shakedown
4 Gold - Shakeup
金メダルの難易度分析 • 1000チームの場合Top 12が金(1.2%)、3000チームの場合Top 16が金(0.53%)、5000チームの場 合Top 20が金(0.4%)、参加者が多いほど多ければ難しい • 終盤金争いチームが大体30~50チーム(30%~50%) 、金争い組に入れば確率が高い
宝くじコンペを避ける • 宝くじに近いコンペを真面目にやると大ダメージ
コンペ選択戦略 • データ数が多い(数千万~数億) • 評価指標が競技にふさわしい • CVとLBが一致(自分の実験、CV/LB投稿) • 精度向上の理由がわかる(特徴量、hyper-parameter tuning
、 ensemble) • GM/MasterがLB上位が多い • 自分が得意な領域あるいは楽しめる領域 ※4つ以上を満たせば良いコンペ
モチベーション戦略 • 一石多鳥の目標(勉強、ゲーム、名誉、就職転職 ……) • ドーパミンを増やす(よくLBにジャンプアップ、 アイディアがうまくいける……) • 順調なとき加速させる、伸び悩むとき気分転換( 休憩、運動、旅行……)
• 自己維持難しければ、チーム組んだり、 Discussionで活発に投稿したり
情報収集戦略 • 自分の経験、スキル漏れなく全部発揮だせる • Kaggle過去類似なコンペの上位 solutionの勉強 • 現コンペ公開したnotebook、discussionの吸収 • Kaggle以外の世界で情報収集、関連技術の論文、記事
(H&Mコンペ使ったProNE 1st solution) • 常識や経験や苦労に絞らず独創的な発想 (OpenProblemsコンペ使ったlightgbm sparse matrix学 習 2nd solution)
Shakedownしない戦略 • なるべく大きい改善点を注力して、小さい改善は overfitting、ランダム誤差の可能性ある • 多様性があるチームとマージ • Public LBをこだわらず、 trust
cv+lb > trust cv > trust lb • 最終subの選択はbugなし、leakなしの一つbest cv 、一 つbest lb
ご清聴ありがとうございました!