Slide 1

Slide 1 text

Kaggle 昔?話
 第二回 分析コンペLT会
 Hidehisa Arai
 1

Slide 2

Slide 2 text

自己紹介
 2 ● 21新卒で機械学習エンジニア 
 ● 鳥コンペ2でCompetitions Grandmasterになりました 
 ○ PrizeなしGM😢
 ● 音コンペばかりやってる 
 ○ 鳥の声ばかり分類してる 
 ● Kaggle歴3年だと思っていたら4年だっ たらしい
 ○ メルカリコンペが最初 
 ● 学生時代は航空宇宙 
 https://www.kaggle.com/hidehisaarai1213 https://twitter.com/kaggle_araisan https://github.com/koukyo1994

Slide 3

Slide 3 text

話すこと
 ● Code Competition今/昔
 ● NLPコンペ今/昔
 ● コンペの傾向変化について
 3 全てアライがKaggleに参加したメルカリコンペ(2017/11)以降の話になります 
 それより前の昔話はtksさんの発表などが面白いです( https://www.slideshare.net/ssuser4a5291/kaggle-06-tks )


Slide 4

Slide 4 text

Code Competition今/昔
 4

Slide 5

Slide 5 text

時系列で見るCode Competition
 5 2017/11
 Mercari 
 最初期のKernel Onlyコンペ
 2018/09
 Two Sigma(2)
 最初のTime Series APIコンペ
 2018/11~ 2019/04
 Quora(2), Petfinder, Jigsaw(2), Freesound 
 
 Synchronous Kernels-Onlyではなかった頃。Stage2 でエラー落ちして死ぬ可能性がありワクワクドキドキ が楽しめた。
 2019/05
 Kerneler
 最初のSynchronous KO
 2020/01
 Connect X
 最初のシミュレー ションコンペ
 2019/06~現在
 Code Competition全盛の時代 
 
 いまやCode Competitionではないコンペが珍しい時代になった。一 方で昔あったような学習もKaggle Notebookで行うような形式のコン ペは消失した。
 2020/10
 Riiid
 超久しぶりのTime Series API


Slide 6

Slide 6 text

特徴的だったCode Competitionたち①
 6 Mercari Price Suggestion 
 
 ● 計算は学習込み、CPUのみ1hr 
 ● 外部データ使用不可のため学習済み 単語埋め込みなども使われなかった 
 ● 優勝チームの解法が超シンプル 
 ○ 75行のPythonコードでトップのス コアが再現できる
 https://www.kaggle.com/lopuhin/mercari-golf-0-3875-cv-in-75-loc-1900-s https://www.kaggle.com/c/mercari-price-suggestion-challenge

Slide 7

Slide 7 text

特徴的だったCode Competitionたち②
 7 Instant Gratification 
 
 ● 初めてのSynchronous Kernels-Only Competition
 ● Submissionが通れば自動的にStage 2 でも落ちないことが保証されるのは画 期的だった
 ● (コンペ自体は人工データのためあんま 面白くなかった)
 ● 理論上の最高スコアが0.975であり、そ の出し方に気づいたらあとは運で勝負 が決まる謎コンペだった 
 Synchronous Kernels-Only以前は2nd stageでうっかり死ぬ可能 性があった


Slide 8

Slide 8 text

NLPコンペ今/昔
 8

Slide 9

Slide 9 text

時系列で見るNLPコンペ
 9 2017/11
 Mercari 
 Tfidf + Ridge回帰, LightGBM, NNなどが強 かった
 2017/12
 Jigsaw(1)
 Word Embedding大活躍。翻 訳を用いたData Augmentationなどが初め て?使われた
 2018/04
 Avito
 少し前までマルチ モーダルコンペの代 名詞だった
 2018/11
 Quora(2)
 使えるWord Embeddingが制限さ れていた
 2018/12
 Petfinder
 BERTよりWord Embeddingの方が強 かった
 2019/02
 Gendered Pronoun
 上位解法がBERTだっ た最初のコンペ
 2019/03
 Jigsaw(2)
 BERT時代初期
 参加者数が多い
 2019/10
 TF2.0 QA
 TF推奨だったためTF がよく使われた珍し いNLPコンペ
 2019/11
 Google QUEST
 BERTの他にUniversal Sentence Encoderが見 られた
 2020/03
 Jigsaw(3)
 多言語NLPコンペ。 Multilingual BERTが 火を吹いた
 2020/03
 Tweet Sentiment
 ラベルノイズが特徴 的だった
 2021/03
 Shopee
 マルチモーダルかつ 多言語。


Slide 10

Slide 10 text

NLPコンペ所感
 ● アライはBERT以降のコンペやってないことに気がついた
 ● 近年はBERTが初期装備になっている感がある
 ● 多言語が増えてきている
 ○ 日本語NLPコンペが来て、MeCabの使い方で無双する日 本人Kaggler達を見たい・・・
 ● ラベルノイズやタスク設計の難しさ、データ不足などNLP要素 以外のところに難しさがあることも多い
 ○ このあたりの傾向は画像コンペと類似
 10

Slide 11

Slide 11 text

コンペの傾向変化について
 11

Slide 12

Slide 12 text

直近のコンペ傾向
 12 画像・自然言語・音・時系列タスク 
 (NNが強い)
 画像+言語
 類似商品検索
 距離学習など
 画像
 (弱教師あり)領 域分割
 研究色が強い
 画像
 キャプショニング
 Encoder-Decoder
 画像枚数が非常に多い 
 音
 環境音分類
 SED+後処理
 医用画像
 物体検知?
 医用画像
 多ラベル分類
 でかいモデルで殴る 
 画像
 多クラス分類
 ラベルノイズがひどい & リーク
 音
 多ラベル分類
 ラベル信頼度が鍵
 医用画像
 領域分割
 荒れた
 動画
 イベント検出
 3D + 2Dの二段階
 時系列
 系列ラベリング
 Transformer無双
 系列データ
 系列ラベリング
 NNアンサンブル
 定期開催されるタイプ 
 シミュレーション系
 その他
 テーブル
 NBA勝敗予測
 Santa
 最適化コンペ
 ジャンケンエージェ ント作成
 運ゲーと名高い
 サッカーエージェン ト作成
 強化学習がうまく いっていた
 陣取り合戦
 ルールベースが強 い
 系列データ
 位置推定
 後処理の最適化が重要 


Slide 13

Slide 13 text

13 KaggleといえばXGBoost(LightGBM)の時代は終わり?
 年
 2018 2019 2020 2021 GBDTが上位に いた回数 9 9 6 3 GBDTが上位に いたコンペ例 Talking Data Home Credit PLAsTiCC Petfinder IEEE-CIS DSB2019 M5 TReNDS Riiid NBA BirdCLEF2021 アンサンブル込みでGBDTが上位にいたコンペ数(NBA×2を毎年含む) 
 GBDTは引き続き使われているが手法のコアではなくなってきている 


Slide 14

Slide 14 text

コンペ傾向所感
 ● 近年はデータ量増加やNNがとても強い(≒GPUがないときつ い)コンペが多く初心者お断り感が増している
 ○ 今後動画コンペが増えると予想
 ● 研究色が強いコンペが増えている、あと医用画像多い
 ○ HPAなど
 ● シミュレーションコンペは今後発展していきそうな雰囲気があ る
 14