Pro Yearly is on sale from $80 to $50! »

「おすすめコンペは何?」の答え方を真面目に考える / How to Choose Kaggle Competitions

B1cc148711c6a37a5c922b6e72a4ad52?s=47 u++
July 31, 2020

「おすすめコンペは何?」の答え方を真面目に考える / How to Choose Kaggle Competitions

「Rist主催 Kaggle Workshop #1」での発表資料
https://rist.connpass.com/event/182932/

B1cc148711c6a37a5c922b6e72a4ad52?s=128

u++

July 31, 2020
Tweet

Transcript

  1. 「おすすめコンペは何?」 の答え⽅を真⾯⽬に考える u++, 2020年7⽉31⽇ 1

  2. Q. おすすめコンペは何? 2

  3. Q. おすすめコンペは何? A. ⼈それぞれだと思います 3

  4. 発表の概要 「おすすめコンペは何?」という質問への⾃分なりの答え (2020年7⽉) 4

  5. 対象の聴衆 参加者:KaggleやSignateなどデータ分析コンペに参加経験 がある中級以上の⽅ ⽐較的経験が浅めの⽅ 回答内容⾃体が参考になれば嬉しい ⽐較的経験が豊富な⽅ 回答⽅法⾃体が参考になれば嬉しい (資料のリンクを共有する形でご活⽤ください) 5

  6. ⾃⼰紹介 u++ (@upura0, sishihara) Kaggle PetFinderコンペ 1位、SIGNATE 糖尿病コンペ 3位、 Nishika

    株主価値コンペ 2位 『Weekly Kaggle News』の発⾏ 『PythonではじめるKaggleスタートブック』(講談社) 4.1「参加するコンペの選び⽅」の内容を掘り下げました 6
  7. 選ぶ上での観点 下記の点から、⾃分に合ったコンペを選ぶ 扱うデータの種類・サイズ タスクの種類 開催期間 メダルの有無 実⾏環境の制限 タスクの⾯⽩さ プラットフォームの性質 7

  8. 扱うデータの種類・サイズ 業務で使う?知的好奇⼼?利⽤可能な計算資源? テーブル 画像 テキスト ⾳声 強化学習 ※ 複数を扱う「マルチモーダル」なコンペも 8

  9. タスクの種類 テーブル:分類・回帰 画像:分類・回帰・セグメンテーション・物体検出など テキスト:分類・回帰・質問応答など 9

  10. 開催期間 2〜3カ⽉くらいのコンペが多い 個⼈的なおすすめは、終了2週間前くらいの開催中のコンペ NotebookやDiscussionに情報が転がっている (Vote数でソート) 「良コンペ」か否かの評判も出ている 最後の順位開⽰の瞬間の⼀喜⼀憂がたまらない 終了後の上位解法が勉強になる 過去の良コンペも選択肢になり得る(後述) 10

  11. メダルの有無 Kaggleではコンペごとに、メダルやポイントが獲得できる・ できないが設定されている 獲得できる⽅が、参加者の質が⾼く議論も活発で学びが得や すい傾向にある Kaggleでメダルが獲得できるコンペか否か確認する, u++の備忘録 11

  12. 実⾏環境の制限 コンペのルール 最近は実⾏環境の制限(処理内容・アクセラレータ・時間など) が設定されているコンペが増えている 個々⼈の計算資源 ⾃分のパソコンのスペック、Kaggle Notebook、Google Colab、 クラウド課⾦ など

    12
  13. タスクの⾯⽩さ 背景や社会的意義 例:Deepfake Detection Challenge 現実で適⽤できるコンペ設計か? 例:NFL Big Data Bowl

    機械学習が必要か? 例:ルールベースでは難しい、データが⼗分にある 評価指標 例:「運ゲー」になりづらいか? 13
  14. プラットフォームの性質 Kaggle以外のプラットフォームも SIGNATE ProbSpace Nishika TopCoder atmaCup Quevico ※ Discussionの有無や情報開⽰の可否などに注意

    14
  15. おすすめ過去コンペ kaggler-ja wiki ⾃分の場合はPetFinderコンペ テーブル・画像・テキストのマルチモーダル 当時使わなかったBERTやEfficientNetで良いスコアが出 て⾯⽩い ⼈は良い成績だったコンペをおすすめしがち 15

  16. コンペ情報を知る twitterのKaggleリスト 『Weekly Kaggle News』 16

  17. まとめ Q. おすすめコンペは何? A. ⾃分に合ったコンペを選びましょう 扱うデータの種類・サイズ タスクの種類 開催期間 メダルの有無 実⾏環境の制限

    タスクの⾯⽩さ プラットフォームの性質 17
  18. By Marios Michailidis (KazAnova), KDD 2018 at London, from @0verfit

    ʼs tweet 18
  19. おまけ:賞⾦は? 時給換算して⾦銭⾯だけを⾒ると、割りに合わない場合がほ とんど 「たまにお⾦がもらえるネトゲ」くらいの位置づけ ※ Deepfake Detection Challengeくらいになると別 19

  20. おまけ:個⼈的印象 SIGNATE:⽇本最⼤級。安定感あり。コンペごとの情報開⽰ の可否が明確になった。最近はDiscussion設置も多い。 ProbSpace:コンペ設計に⼯夫が⾒られる。優勝解法のピア レビュー制が⾯⽩い。最終提出選択がない。⽇本語。 Nishika:⽴ち上がり期で、オープンデータを⽤いたコンペが 多い。⽇本語。 TopCoder:競技プログラミング。 atmaCup:最近は⽇本のKaggle Grandmaster/Masterが集結

    し、しのぎを削っている。運営のサポートが⼿厚く、初学者 おすすめ度も⾼い。⽇本語。 Quevico:Discussionなし。⽇本語も対応。 20