Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Kaggle昔?話
Search
Hidehisa Arai
June 18, 2021
Technology
2.6k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Kaggle昔?話
4年くらい前から今までのコンペを振り返ります
Hidehisa Arai
June 18, 2021
More Decks by Hidehisa Arai
See All by Hidehisa Arai
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
生成AIの二大潮流と自動運転
koukyo1994
22
25k
ICML2021論文読み会資料
koukyo1994
2
1.7k
【2019-06-19】アルゴリズム勉強会 - 最小全域木
koukyo1994
0
300
コンペ中のコード、どうしてる?
koukyo1994
3
2.3k
変数間の関係を捉えたいあなたへ
koukyo1994
3
1.8k
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
koukyo1994
7
4.9k
鳥蛙コンペ反省会資料
koukyo1994
3
1.5k
6th place solution to Cornell Birdcall Identification Challenge
koukyo1994
0
190
Other Decks in Technology
See All in Technology
Rubyで音を視る
ydah
1
120
サプライチェーンセキュリティの空白地帯 - 信頼できる”依存性”の未来を考える
rung
PRO
2
790
チームで実践する AI-DLC 思考の軌跡を残すチェックポイント設計
belongadmin
0
3k
GoとSIMDとWasmの今。
askua
3
520
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
12
3.8k
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
500
ブロックチェーン / Blockchain
ks91
PRO
0
110
「速く作る」から「正しく作る」へ ─ 生成AI時代の開発フロー改革の ロードマップと実行 ─
starfish719
0
9k
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
2
1.1k
Platform engineering for developers, architects & the rest of us (AI agents)
danielbryantuk
0
190
Chart.js が簡単に使えるようになっていたので OGP 画像生成に使った話
kamekyame
0
170
OCI Oracle AI Database Services新機能アップデート(2026/03-2026/05)
oracle4engineer
PRO
0
310
Featured
See All Featured
Being A Developer After 40
akosma
91
590k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
840
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
140
The World Runs on Bad Software
bkeepers
PRO
72
12k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
Site-Speed That Sticks
csswizardry
13
1.2k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
[SF Ruby Conf 2025] Rails X
palkan
2
1.1k
Transcript
Kaggle 昔?話 第二回 分析コンペLT会 Hidehisa Arai 1
自己紹介 2 • 21新卒で機械学習エンジニア • 鳥コンペ2でCompetitions Grandmasterになりました ◦
PrizeなしGM😢 • 音コンペばかりやってる ◦ 鳥の声ばかり分類してる • Kaggle歴3年だと思っていたら4年だっ たらしい ◦ メルカリコンペが最初 • 学生時代は航空宇宙 https://www.kaggle.com/hidehisaarai1213 https://twitter.com/kaggle_araisan https://github.com/koukyo1994
話すこと • Code Competition今/昔 • NLPコンペ今/昔 • コンペの傾向変化について 3 全てアライがKaggleに参加したメルカリコンペ(2017/11)以降の話になります
それより前の昔話はtksさんの発表などが面白いです( https://www.slideshare.net/ssuser4a5291/kaggle-06-tks )
Code Competition今/昔 4
時系列で見るCode Competition 5 2017/11 Mercari 最初期のKernel Onlyコンペ 2018/09 Two
Sigma(2) 最初のTime Series APIコンペ 2018/11~ 2019/04 Quora(2), Petfinder, Jigsaw(2), Freesound Synchronous Kernels-Onlyではなかった頃。Stage2 でエラー落ちして死ぬ可能性がありワクワクドキドキ が楽しめた。 2019/05 Kerneler 最初のSynchronous KO 2020/01 Connect X 最初のシミュレー ションコンペ 2019/06~現在 Code Competition全盛の時代 いまやCode Competitionではないコンペが珍しい時代になった。一 方で昔あったような学習もKaggle Notebookで行うような形式のコン ペは消失した。 2020/10 Riiid 超久しぶりのTime Series API
特徴的だったCode Competitionたち① 6 Mercari Price Suggestion • 計算は学習込み、CPUのみ1hr
• 外部データ使用不可のため学習済み 単語埋め込みなども使われなかった • 優勝チームの解法が超シンプル ◦ 75行のPythonコードでトップのス コアが再現できる https://www.kaggle.com/lopuhin/mercari-golf-0-3875-cv-in-75-loc-1900-s https://www.kaggle.com/c/mercari-price-suggestion-challenge
特徴的だったCode Competitionたち② 7 Instant Gratification • 初めてのSynchronous Kernels-Only
Competition • Submissionが通れば自動的にStage 2 でも落ちないことが保証されるのは画 期的だった • (コンペ自体は人工データのためあんま 面白くなかった) • 理論上の最高スコアが0.975であり、そ の出し方に気づいたらあとは運で勝負 が決まる謎コンペだった Synchronous Kernels-Only以前は2nd stageでうっかり死ぬ可能 性があった
NLPコンペ今/昔 8
時系列で見るNLPコンペ 9 2017/11 Mercari Tfidf + Ridge回帰, LightGBM, NNなどが強
かった 2017/12 Jigsaw(1) Word Embedding大活躍。翻 訳を用いたData Augmentationなどが初め て?使われた 2018/04 Avito 少し前までマルチ モーダルコンペの代 名詞だった 2018/11 Quora(2) 使えるWord Embeddingが制限さ れていた 2018/12 Petfinder BERTよりWord Embeddingの方が強 かった 2019/02 Gendered Pronoun 上位解法がBERTだっ た最初のコンペ 2019/03 Jigsaw(2) BERT時代初期 参加者数が多い 2019/10 TF2.0 QA TF推奨だったためTF がよく使われた珍し いNLPコンペ 2019/11 Google QUEST BERTの他にUniversal Sentence Encoderが見 られた 2020/03 Jigsaw(3) 多言語NLPコンペ。 Multilingual BERTが 火を吹いた 2020/03 Tweet Sentiment ラベルノイズが特徴 的だった 2021/03 Shopee マルチモーダルかつ 多言語。
NLPコンペ所感 • アライはBERT以降のコンペやってないことに気がついた • 近年はBERTが初期装備になっている感がある • 多言語が増えてきている ◦ 日本語NLPコンペが来て、MeCabの使い方で無双する日 本人Kaggler達を見たい・・・
• ラベルノイズやタスク設計の難しさ、データ不足などNLP要素 以外のところに難しさがあることも多い ◦ このあたりの傾向は画像コンペと類似 10
コンペの傾向変化について 11
直近のコンペ傾向 12 画像・自然言語・音・時系列タスク (NNが強い) 画像+言語 類似商品検索 距離学習など 画像 (弱教師あり)領
域分割 研究色が強い 画像 キャプショニング Encoder-Decoder 画像枚数が非常に多い 音 環境音分類 SED+後処理 医用画像 物体検知? 医用画像 多ラベル分類 でかいモデルで殴る 画像 多クラス分類 ラベルノイズがひどい & リーク 音 多ラベル分類 ラベル信頼度が鍵 医用画像 領域分割 荒れた 動画 イベント検出 3D + 2Dの二段階 時系列 系列ラベリング Transformer無双 系列データ 系列ラベリング NNアンサンブル 定期開催されるタイプ シミュレーション系 その他 テーブル NBA勝敗予測 Santa 最適化コンペ ジャンケンエージェ ント作成 運ゲーと名高い サッカーエージェン ト作成 強化学習がうまく いっていた 陣取り合戦 ルールベースが強 い 系列データ 位置推定 後処理の最適化が重要
13 KaggleといえばXGBoost(LightGBM)の時代は終わり? 年 2018 2019 2020 2021 GBDTが上位に いた回数 9
9 6 3 GBDTが上位に いたコンペ例 Talking Data Home Credit PLAsTiCC Petfinder IEEE-CIS DSB2019 M5 TReNDS Riiid NBA BirdCLEF2021 アンサンブル込みでGBDTが上位にいたコンペ数(NBA×2を毎年含む) GBDTは引き続き使われているが手法のコアではなくなってきている
コンペ傾向所感 • 近年はデータ量増加やNNがとても強い(≒GPUがないときつ い)コンペが多く初心者お断り感が増している ◦ 今後動画コンペが増えると予想 • 研究色が強いコンペが増えている、あと医用画像多い ◦ HPAなど
• シミュレーションコンペは今後発展していきそうな雰囲気があ る 14