Save 37% off PRO during our Black Friday Sale! »

Kaggle昔?話

 Kaggle昔?話

4年くらい前から今までのコンペを振り返ります

2c68dc672293cc3f8a7a57d3af86f15b?s=128

Hidehisa Arai

June 18, 2021
Tweet

Transcript

  1. Kaggle 昔?話
 第二回 分析コンペLT会
 Hidehisa Arai
 1

  2. 自己紹介
 2 • 21新卒で機械学習エンジニア 
 • 鳥コンペ2でCompetitions Grandmasterになりました 
 ◦

    PrizeなしGM😢
 • 音コンペばかりやってる 
 ◦ 鳥の声ばかり分類してる 
 • Kaggle歴3年だと思っていたら4年だっ たらしい
 ◦ メルカリコンペが最初 
 • 学生時代は航空宇宙 
 https://www.kaggle.com/hidehisaarai1213 https://twitter.com/kaggle_araisan https://github.com/koukyo1994
  3. 話すこと
 • Code Competition今/昔
 • NLPコンペ今/昔
 • コンペの傾向変化について
 3 全てアライがKaggleに参加したメルカリコンペ(2017/11)以降の話になります

    
 それより前の昔話はtksさんの発表などが面白いです( https://www.slideshare.net/ssuser4a5291/kaggle-06-tks )

  4. Code Competition今/昔
 4

  5. 時系列で見るCode Competition
 5 2017/11
 Mercari 
 最初期のKernel Onlyコンペ
 2018/09
 Two

    Sigma(2)
 最初のTime Series APIコンペ
 2018/11~ 2019/04
 Quora(2), Petfinder, Jigsaw(2), Freesound 
 
 Synchronous Kernels-Onlyではなかった頃。Stage2 でエラー落ちして死ぬ可能性がありワクワクドキドキ が楽しめた。
 2019/05
 Kerneler
 最初のSynchronous KO
 2020/01
 Connect X
 最初のシミュレー ションコンペ
 2019/06~現在
 Code Competition全盛の時代 
 
 いまやCode Competitionではないコンペが珍しい時代になった。一 方で昔あったような学習もKaggle Notebookで行うような形式のコン ペは消失した。
 2020/10
 Riiid
 超久しぶりのTime Series API

  6. 特徴的だったCode Competitionたち①
 6 Mercari Price Suggestion 
 
 • 計算は学習込み、CPUのみ1hr

    
 • 外部データ使用不可のため学習済み 単語埋め込みなども使われなかった 
 • 優勝チームの解法が超シンプル 
 ◦ 75行のPythonコードでトップのス コアが再現できる
 https://www.kaggle.com/lopuhin/mercari-golf-0-3875-cv-in-75-loc-1900-s https://www.kaggle.com/c/mercari-price-suggestion-challenge
  7. 特徴的だったCode Competitionたち②
 7 Instant Gratification 
 
 • 初めてのSynchronous Kernels-Only

    Competition
 • Submissionが通れば自動的にStage 2 でも落ちないことが保証されるのは画 期的だった
 • (コンペ自体は人工データのためあんま 面白くなかった)
 • 理論上の最高スコアが0.975であり、そ の出し方に気づいたらあとは運で勝負 が決まる謎コンペだった 
 Synchronous Kernels-Only以前は2nd stageでうっかり死ぬ可能 性があった

  8. NLPコンペ今/昔
 8

  9. 時系列で見るNLPコンペ
 9 2017/11
 Mercari 
 Tfidf + Ridge回帰, LightGBM, NNなどが強

    かった
 2017/12
 Jigsaw(1)
 Word Embedding大活躍。翻 訳を用いたData Augmentationなどが初め て?使われた
 2018/04
 Avito
 少し前までマルチ モーダルコンペの代 名詞だった
 2018/11
 Quora(2)
 使えるWord Embeddingが制限さ れていた
 2018/12
 Petfinder
 BERTよりWord Embeddingの方が強 かった
 2019/02
 Gendered Pronoun
 上位解法がBERTだっ た最初のコンペ
 2019/03
 Jigsaw(2)
 BERT時代初期
 参加者数が多い
 2019/10
 TF2.0 QA
 TF推奨だったためTF がよく使われた珍し いNLPコンペ
 2019/11
 Google QUEST
 BERTの他にUniversal Sentence Encoderが見 られた
 2020/03
 Jigsaw(3)
 多言語NLPコンペ。 Multilingual BERTが 火を吹いた
 2020/03
 Tweet Sentiment
 ラベルノイズが特徴 的だった
 2021/03
 Shopee
 マルチモーダルかつ 多言語。

  10. NLPコンペ所感
 • アライはBERT以降のコンペやってないことに気がついた
 • 近年はBERTが初期装備になっている感がある
 • 多言語が増えてきている
 ◦ 日本語NLPコンペが来て、MeCabの使い方で無双する日 本人Kaggler達を見たい・・・


    • ラベルノイズやタスク設計の難しさ、データ不足などNLP要素 以外のところに難しさがあることも多い
 ◦ このあたりの傾向は画像コンペと類似
 10
  11. コンペの傾向変化について
 11

  12. 直近のコンペ傾向
 12 画像・自然言語・音・時系列タスク 
 (NNが強い)
 画像+言語
 類似商品検索
 距離学習など
 画像
 (弱教師あり)領

    域分割
 研究色が強い
 画像
 キャプショニング
 Encoder-Decoder
 画像枚数が非常に多い 
 音
 環境音分類
 SED+後処理
 医用画像
 物体検知?
 医用画像
 多ラベル分類
 でかいモデルで殴る 
 画像
 多クラス分類
 ラベルノイズがひどい & リーク
 音
 多ラベル分類
 ラベル信頼度が鍵
 医用画像
 領域分割
 荒れた
 動画
 イベント検出
 3D + 2Dの二段階
 時系列
 系列ラベリング
 Transformer無双
 系列データ
 系列ラベリング
 NNアンサンブル
 定期開催されるタイプ 
 シミュレーション系
 その他
 テーブル
 NBA勝敗予測
 Santa
 最適化コンペ
 ジャンケンエージェ ント作成
 運ゲーと名高い
 サッカーエージェン ト作成
 強化学習がうまく いっていた
 陣取り合戦
 ルールベースが強 い
 系列データ
 位置推定
 後処理の最適化が重要 

  13. 13 KaggleといえばXGBoost(LightGBM)の時代は終わり?
 年
 2018 2019 2020 2021 GBDTが上位に いた回数 9

    9 6 3 GBDTが上位に いたコンペ例 Talking Data Home Credit PLAsTiCC Petfinder IEEE-CIS DSB2019 M5 TReNDS Riiid NBA BirdCLEF2021 アンサンブル込みでGBDTが上位にいたコンペ数(NBA×2を毎年含む) 
 GBDTは引き続き使われているが手法のコアではなくなってきている 

  14. コンペ傾向所感
 • 近年はデータ量増加やNNがとても強い(≒GPUがないときつ い)コンペが多く初心者お断り感が増している
 ◦ 今後動画コンペが増えると予想
 • 研究色が強いコンペが増えている、あと医用画像多い
 ◦ HPAなど


    • シミュレーションコンペは今後発展していきそうな雰囲気があ る
 14