Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggle昔?話

 Kaggle昔?話

4年くらい前から今までのコンペを振り返ります

Hidehisa Arai

June 18, 2021
Tweet

More Decks by Hidehisa Arai

Other Decks in Technology

Transcript

  1. Kaggle 昔?話

    第二回 分析コンペLT会

    Hidehisa Arai

    1

    View Slide

  2. 自己紹介

    2
    ● 21新卒で機械学習エンジニア 

    ● 鳥コンペ2でCompetitions
    Grandmasterになりました 

    ○ PrizeなしGM😢

    ● 音コンペばかりやってる 

    ○ 鳥の声ばかり分類してる 

    ● Kaggle歴3年だと思っていたら4年だっ
    たらしい

    ○ メルカリコンペが最初 

    ● 学生時代は航空宇宙 

    https://www.kaggle.com/hidehisaarai1213
    https://twitter.com/kaggle_araisan
    https://github.com/koukyo1994

    View Slide

  3. 話すこと

    ● Code Competition今/昔

    ● NLPコンペ今/昔

    ● コンペの傾向変化について

    3
    全てアライがKaggleに参加したメルカリコンペ(2017/11)以降の話になります 

    それより前の昔話はtksさんの発表などが面白いです( https://www.slideshare.net/ssuser4a5291/kaggle-06-tks
    )


    View Slide

  4. Code Competition今/昔

    4

    View Slide

  5. 時系列で見るCode Competition

    5
    2017/11

    Mercari 

    最初期のKernel
    Onlyコンペ

    2018/09

    Two Sigma(2)

    最初のTime Series
    APIコンペ

    2018/11~ 2019/04

    Quora(2), Petfinder, Jigsaw(2), Freesound


    Synchronous Kernels-Onlyではなかった頃。Stage2
    でエラー落ちして死ぬ可能性がありワクワクドキドキ
    が楽しめた。

    2019/05

    Kerneler

    最初のSynchronous
    KO

    2020/01

    Connect X

    最初のシミュレー
    ションコンペ

    2019/06~現在

    Code Competition全盛の時代


    いまやCode Competitionではないコンペが珍しい時代になった。一
    方で昔あったような学習もKaggle Notebookで行うような形式のコン
    ペは消失した。

    2020/10

    Riiid

    超久しぶりのTime
    Series API


    View Slide

  6. 特徴的だったCode Competitionたち①

    6
    Mercari Price Suggestion 


    ● 計算は学習込み、CPUのみ1hr 

    ● 外部データ使用不可のため学習済み
    単語埋め込みなども使われなかった 

    ● 優勝チームの解法が超シンプル 

    ○ 75行のPythonコードでトップのス
    コアが再現できる

    https://www.kaggle.com/lopuhin/mercari-golf-0-3875-cv-in-75-loc-1900-s
    https://www.kaggle.com/c/mercari-price-suggestion-challenge

    View Slide

  7. 特徴的だったCode Competitionたち②

    7
    Instant Gratification 


    ● 初めてのSynchronous Kernels-Only
    Competition

    ● Submissionが通れば自動的にStage 2
    でも落ちないことが保証されるのは画
    期的だった

    ● (コンペ自体は人工データのためあんま
    面白くなかった)

    ● 理論上の最高スコアが0.975であり、そ
    の出し方に気づいたらあとは運で勝負
    が決まる謎コンペだった 

    Synchronous Kernels-Only以前は2nd stageでうっかり死ぬ可能
    性があった


    View Slide

  8. NLPコンペ今/昔

    8

    View Slide

  9. 時系列で見るNLPコンペ

    9
    2017/11

    Mercari 

    Tfidf + Ridge回帰,
    LightGBM, NNなどが強
    かった

    2017/12

    Jigsaw(1)

    Word Embedding大活躍。翻
    訳を用いたData
    Augmentationなどが初め
    て?使われた

    2018/04

    Avito

    少し前までマルチ
    モーダルコンペの代
    名詞だった

    2018/11

    Quora(2)

    使えるWord
    Embeddingが制限さ
    れていた

    2018/12

    Petfinder

    BERTよりWord
    Embeddingの方が強
    かった

    2019/02

    Gendered Pronoun

    上位解法がBERTだっ
    た最初のコンペ

    2019/03

    Jigsaw(2)

    BERT時代初期

    参加者数が多い

    2019/10

    TF2.0 QA

    TF推奨だったためTF
    がよく使われた珍し
    いNLPコンペ

    2019/11

    Google QUEST

    BERTの他にUniversal
    Sentence Encoderが見
    られた

    2020/03

    Jigsaw(3)

    多言語NLPコンペ。
    Multilingual BERTが
    火を吹いた

    2020/03

    Tweet Sentiment

    ラベルノイズが特徴
    的だった

    2021/03

    Shopee

    マルチモーダルかつ
    多言語。


    View Slide

  10. NLPコンペ所感

    ● アライはBERT以降のコンペやってないことに気がついた

    ● 近年はBERTが初期装備になっている感がある

    ● 多言語が増えてきている

    ○ 日本語NLPコンペが来て、MeCabの使い方で無双する日
    本人Kaggler達を見たい・・・

    ● ラベルノイズやタスク設計の難しさ、データ不足などNLP要素
    以外のところに難しさがあることも多い

    ○ このあたりの傾向は画像コンペと類似

    10

    View Slide

  11. コンペの傾向変化について

    11

    View Slide

  12. 直近のコンペ傾向

    12
    画像・自然言語・音・時系列タスク 

    (NNが強い)

    画像+言語

    類似商品検索

    距離学習など

    画像

    (弱教師あり)領
    域分割

    研究色が強い

    画像

    キャプショニング

    Encoder-Decoder

    画像枚数が非常に多い

    音

    環境音分類

    SED+後処理

    医用画像

    物体検知?

    医用画像

    多ラベル分類

    でかいモデルで殴る

    画像

    多クラス分類

    ラベルノイズがひどい &
    リーク

    音

    多ラベル分類

    ラベル信頼度が鍵

    医用画像

    領域分割

    荒れた

    動画

    イベント検出

    3D + 2Dの二段階

    時系列

    系列ラベリング

    Transformer無双

    系列データ

    系列ラベリング

    NNアンサンブル

    定期開催されるタイプ 

    シミュレーション系

    その他

    テーブル

    NBA勝敗予測

    Santa

    最適化コンペ

    ジャンケンエージェ
    ント作成

    運ゲーと名高い

    サッカーエージェン
    ト作成

    強化学習がうまく
    いっていた

    陣取り合戦

    ルールベースが強
    い

    系列データ

    位置推定

    後処理の最適化が重要

    View Slide

  13. 13
    KaggleといえばXGBoost(LightGBM)の時代は終わり?

    年
 2018 2019 2020 2021
    GBDTが上位に
    いた回数
    9 9 6 3
    GBDTが上位に
    いたコンペ例
    Talking Data
    Home Credit
    PLAsTiCC
    Petfinder
    IEEE-CIS
    DSB2019
    M5
    TReNDS
    Riiid
    NBA
    BirdCLEF2021
    アンサンブル込みでGBDTが上位にいたコンペ数(NBA×2を毎年含む) 

    GBDTは引き続き使われているが手法のコアではなくなってきている 


    View Slide

  14. コンペ傾向所感

    ● 近年はデータ量増加やNNがとても強い(≒GPUがないときつ
    い)コンペが多く初心者お断り感が増している

    ○ 今後動画コンペが増えると予想

    ● 研究色が強いコンペが増えている、あと医用画像多い

    ○ HPAなど

    ● シミュレーションコンペは今後発展していきそうな雰囲気があ
    る

    14

    View Slide