Kaggle昔?話

Kaggle 昔?話  第二回分析コンペLT会  Hidehisa Arai  1

自己紹介  2 • 21新卒で機械学習エンジニア   • 鳥コンペ2でCompetitions Grandmasterになりました   ◦
PrizeなしGM😢  • 音コンペばかりやってる   ◦ 鳥の声ばかり分類してる   • Kaggle歴3年だと思っていたら4年だったらしい  ◦ メルカリコンペが最初   • 学生時代は航空宇宙   https://www.kaggle.com/hidehisaarai1213 https://twitter.com/kaggle_araisan https://github.com/koukyo1994

話すこと  • Code Competition今/昔  • NLPコンペ今/昔  • コンペの傾向変化について  3 全てアライがKaggleに参加したメルカリコンペ(2017/11)以降の話になります
  それより前の昔話はtksさんの発表などが面白いです( https://www.slideshare.net/ssuser4a5291/kaggle-06-tks ) 

Code Competition今/昔  4

時系列で見るCode Competition  5 2017/11  Mercari   最初期のKernel Onlyコンペ  2018/09  Two
Sigma(2)  最初のTime Series APIコンペ  2018/11~ 2019/04  Quora(2), Petfinder, Jigsaw(2), Freesound     Synchronous Kernels-Onlyではなかった頃。Stage2 でエラー落ちして死ぬ可能性がありワクワクドキドキが楽しめた。  2019/05  Kerneler  最初のSynchronous KO  2020/01  Connect X  最初のシミュレーションコンペ  2019/06~現在  Code Competition全盛の時代     いまやCode Competitionではないコンペが珍しい時代になった。一方で昔あったような学習もKaggle Notebookで行うような形式のコンペは消失した。  2020/10  Riiid  超久しぶりのTime Series API 

特徴的だったCode Competitionたち①  6 Mercari Price Suggestion     • 計算は学習込み、CPUのみ1hr
  • 外部データ使用不可のため学習済み単語埋め込みなども使われなかった   • 優勝チームの解法が超シンプル   ◦ 75行のPythonコードでトップのスコアが再現できる  https://www.kaggle.com/lopuhin/mercari-golf-0-3875-cv-in-75-loc-1900-s https://www.kaggle.com/c/mercari-price-suggestion-challenge

特徴的だったCode Competitionたち②  7 Instant Gratification     • 初めてのSynchronous Kernels-Only
Competition  • Submissionが通れば自動的にStage 2 でも落ちないことが保証されるのは画期的だった  • (コンペ自体は人工データのためあんま面白くなかった)  • 理論上の最高スコアが0.975であり、その出し方に気づいたらあとは運で勝負が決まる謎コンペだった   Synchronous Kernels-Only以前は2nd stageでうっかり死ぬ可能性があった 

NLPコンペ今/昔  8

時系列で見るNLPコンペ  9 2017/11  Mercari   Tfidf + Ridge回帰, LightGBM, NNなどが強
かった  2017/12  Jigsaw(1)  Word Embedding大活躍。翻訳を用いたData Augmentationなどが初めて？使われた  2018/04  Avito  少し前までマルチモーダルコンペの代名詞だった  2018/11  Quora(2)  使えるWord Embeddingが制限されていた  2018/12  Petfinder  BERTよりWord Embeddingの方が強かった  2019/02  Gendered Pronoun  上位解法がBERTだった最初のコンペ  2019/03  Jigsaw(2)  BERT時代初期  参加者数が多い  2019/10  TF2.0 QA  TF推奨だったためTF がよく使われた珍しいNLPコンペ  2019/11  Google QUEST  BERTの他にUniversal Sentence Encoderが見られた  2020/03  Jigsaw(3)  多言語NLPコンペ。 Multilingual BERTが火を吹いた  2020/03  Tweet Sentiment  ラベルノイズが特徴的だった  2021/03  Shopee  マルチモーダルかつ多言語。 

NLPコンペ所感  • アライはBERT以降のコンペやってないことに気がついた  • 近年はBERTが初期装備になっている感がある  • 多言語が増えてきている  ◦ 日本語NLPコンペが来て、MeCabの使い方で無双する日本人Kaggler達を見たい・・・ 
• ラベルノイズやタスク設計の難しさ、データ不足などNLP要素以外のところに難しさがあることも多い  ◦ このあたりの傾向は画像コンペと類似  10

コンペの傾向変化について  11

直近のコンペ傾向  12 画像・自然言語・音・時系列タスク   (NNが強い)  画像+言語  類似商品検索  距離学習など  画像  (弱教師あり)領
域分割  研究色が強い  画像  キャプショニング  Encoder-Decoder  画像枚数が非常に多い   音  環境音分類  SED+後処理  医用画像  物体検知？  医用画像  多ラベル分類  でかいモデルで殴る   画像  多クラス分類  ラベルノイズがひどい & リーク  音  多ラベル分類  ラベル信頼度が鍵  医用画像  領域分割  荒れた  動画  イベント検出  3D + 2Dの二段階  時系列  系列ラベリング  Transformer無双  系列データ  系列ラベリング  NNアンサンブル  定期開催されるタイプ   シミュレーション系  その他  テーブル  NBA勝敗予測  Santa  最適化コンペ  ジャンケンエージェント作成  運ゲーと名高い  サッカーエージェント作成  強化学習がうまくいっていた  陣取り合戦  ルールベースが強い  系列データ  位置推定  後処理の最適化が重要  

13 KaggleといえばXGBoost(LightGBM)の時代は終わり？  年  2018 2019 2020 2021 GBDTが上位にいた回数 9
9 6 3 GBDTが上位にいたコンペ例 Talking Data Home Credit PLAsTiCC Petfinder IEEE-CIS DSB2019 M5 TReNDS Riiid NBA BirdCLEF2021 アンサンブル込みでGBDTが上位にいたコンペ数(NBA×2を毎年含む)   GBDTは引き続き使われているが手法のコアではなくなってきている  

コンペ傾向所感  • 近年はデータ量増加やNNがとても強い(≒GPUがないときつい)コンペが多く初心者お断り感が増している  ◦ 今後動画コンペが増えると予想  • 研究色が強いコンペが増えている、あと医用画像多い  ◦ HPAなど 
• シミュレーションコンペは今後発展していきそうな雰囲気がある  14

Kaggle昔?話

Kaggle昔?話

Hidehisa Arai

More Decks by Hidehisa Arai

Other Decks in Technology

Featured

Transcript

Kaggle 昔?話  第二回分析コンペLT会  Hidehisa Arai  1

自己紹介  2 • 21新卒で機械学習エンジニア   • 鳥コンペ2でCompetitions Grandmasterになりました   ◦

話すこと  • Code Competition今/昔  • NLPコンペ今/昔  • コンペの傾向変化について  3 全てアライがKaggleに参加したメルカリコンペ(2017/11)以降の話になります

Code Competition今/昔  4

時系列で見るCode Competition  5 2017/11  Mercari   最初期のKernel Onlyコンペ  2018/09  Two

特徴的だったCode Competitionたち①  6 Mercari Price Suggestion     • 計算は学習込み、CPUのみ1hr

特徴的だったCode Competitionたち②  7 Instant Gratification     • 初めてのSynchronous Kernels-Only

NLPコンペ今/昔  8

時系列で見るNLPコンペ  9 2017/11  Mercari   Tfidf + Ridge回帰, LightGBM, NNなどが強

コンペの傾向変化について  11

直近のコンペ傾向  12 画像・自然言語・音・時系列タスク   (NNが強い)  画像+言語  類似商品検索  距離学習など  画像  (弱教師あり)領

13 KaggleといえばXGBoost(LightGBM)の時代は終わり？  年  2018 2019 2020 2021 GBDTが上位にいた回数 9