Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「おすすめコンペは何?」の答え方を真面目に考える / How to Choose Kaggle...
Search
Shotaro Ishihara
July 31, 2020
Technology
2
5.1k
「おすすめコンペは何?」の答え方を真面目に考える / How to Choose Kaggle Competitions
「Rist主催 Kaggle Workshop #1」での発表資料
https://rist.connpass.com/event/182932/
Shotaro Ishihara
July 31, 2020
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
記者・編集者との協働:情報技術が変えるニュースメディア / Kaishi PU 2024
upura
0
4
ニュースメディアにおける生成 AI の活用と開発 / UTokyo Lecture Business Introduction
upura
0
140
マルチモーダル AI 実装の課題と解決策 / Developer X Summit
upura
0
200
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
670
「巨人の肩の上」で自作ライブラリを作る技術 / pyconjp2024
upura
3
870
Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper
upura
0
47
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
420
第19回YANSシンポジウムスポンサー資料 / yans2024-nikkei
upura
0
47
Quantifying Memorization of Domain-Specific Pre-trained Language Models using Japanese Newspaper and Paywalls
upura
0
61
Other Decks in Technology
See All in Technology
KnowledgeBaseDocuments APIでベクトルインデックス管理を自動化する
iidaxs
1
160
社外コミュニティで学び社内に活かす共に学ぶプロジェクトの実践/backlogworld2024
nishiuma
0
240
リクルートのデータ基盤 Crois 年3倍成長!1日40,000コンテナの実行を支える AWS 活用とプラットフォームエンジニアリング
recruitengineers
PRO
2
320
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
230
DevOps視点でAWS re:invent2024の新サービス・アプデを振り返ってみた
oshanqq
0
170
Jetpack Composeで始めるServer Cache State
ogaclejapan
2
150
10分で学ぶKubernetesコンテナセキュリティ/10min-k8s-container-sec
mochizuki875
2
150
NilAway による静的解析で「10 億ドル」を節約する #kyotogo / Kyoto Go 56th
ytaka23
3
340
フロントエンド設計にモブ設計を導入してみた / 20241212_cloudsign_TechFrontMeetup
bengo4com
0
1.9k
Password-less Journey - パスキーへの移行を見据えたユーザーの準備 @ AXIES 2024
ritou
3
1.3k
Snowflake女子会#3 Snowpipeの良さを5分で語るよ
lana2548
0
190
プロダクト開発を加速させるためのQA文化の築き方 / How to build QA culture to accelerate product development
mii3king
1
230
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.3k
It's Worth the Effort
3n
183
28k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Gamification - CAS2011
davidbonilla
80
5.1k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Imperfection Machines: The Place of Print at Facebook
scottboms
266
13k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Rails Girls Zürich Keynote
gr2m
94
13k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Transcript
「おすすめコンペは何?」 の答え方を真面目に考える u++, 2020年7月31日(更新:2021年6月21日) 1
Q. おすすめコンペは何? 2
Q. おすすめコンペは何? A. 人それぞれだと思います 3
発表の概要 「おすすめコンペは何?」という質問への自分なりの答え (2020年7月) 4
対象の聴衆 参加者:KaggleやSignateなどデータ分析コンペに参加経験 がある中級以上の方 比較的経験が浅めの方 回答内容自体が参考になれば嬉しい 比較的経験が豊富な方 回答方法自体が参考になれば嬉しい (資料のリンクを共有する形でご活用ください) 5
自己紹介 u++ (@upura0, sishihara) Kaggle PetFinderコンペ 1位、SIGNATE 糖尿病コンペ 3位、 Nishika
株主価値コンペ 2位 『Weekly Kaggle News』の発行 『PythonではじめるKaggleスタートブック』(講談社) 4.1「参加するコンペの選び方」の内容を掘り下げました 6
選ぶ上での観点 下記の点から、自分に合ったコンペを選ぶ 扱うデータの種類・サイズ タスクの種類 開催期間 メダルの有無 実行環境の制限 タスクの面白さ プラットフォームの性質 7
扱うデータの種類・サイズ 業務で使う?知的好奇心?利用可能な計算資源? テーブル 画像 テキスト 音声 強化学習 ※ 複数を扱う「マルチモーダル」なコンペも 8
タスクの種類 テーブル:分類・回帰 画像:分類・回帰・セグメンテーション・物体検出など テキスト:分類・回帰・質問応答など 9
開催期間 2〜3カ月くらいのコンペが多い 個人的なおすすめは、終了2週間前くらいの開催中のコンペ NotebookやDiscussionに情報が転がっている (Vote数でソート) 「良コンペ」か否かの評判も出ている 最後の順位開示の瞬間の一喜一憂がたまらない 終了後の上位解法が勉強になる 過去の良コンペも選択肢になり得る(後述) 10
メダルの有無 Kaggleではコンペごとに、メダルやポイントが獲得できる・ できないが設定されている 獲得できる方が、参加者の質が高く議論も活発で学びが得や すい傾向にある Kaggleでメダルが獲得できるコンペか否か確認する, u++の備忘録 11
実行環境の制限 コンペのルール 最近は実行環境の制限(処理内容・アクセラレータ・時間など) が設定されているコンペが増えている 個々人の計算資源 自分のパソコンのスペック、Kaggle Notebook、Google Colab、 クラウド課金 など
12
タスクの面白さ 背景や社会的意義 例:Deepfake Detection Challenge 現実で適用できるコンペ設計か? 例:NFL Big Data Bowl
機械学習が必要か? 例:ルールベースでは難しい、データが十分にある 評価指標 例:「運ゲー」になりづらいか? 13
プラットフォームの性質 Kaggle以外のプラットフォームも SIGNATE ProbSpace Nishika TopCoder atmaCup Quevico ※ Discussionの有無や情報開示の可否などに注意
14
おすすめ過去コンペ kaggler-ja wiki 自分の場合はPetFinderコンペ テーブル・画像・テキストのマルチモーダル 当時使わなかったBERTやEfficientNetで良いスコアが出 て面白い 人は良い成績だったコンペをおすすめしがち 15
コンペ情報を知る twitterのKaggleリスト 『Weekly Kaggle News』 16
まとめ Q. おすすめコンペは何? A. 自分に合ったコンペを選びましょう 扱うデータの種類・サイズ タスクの種類 開催期間 メダルの有無 実行環境の制限
タスクの面白さ プラットフォームの性質 17
By Marios Michailidis (KazAnova), KDD 2018 at London, from @0verfit
’s tweet 18
おまけ:賞金は? 時給換算して金銭面だけを見ると、割りに合わない場合がほ とんど 「たまにお金がもらえるネトゲ」くらいの位置づけ ※ Deepfake Detection Challengeくらいになると別 19
おまけ:個人的印象 SIGNATE:日本最大級だが、コンペの質に不安も。コンペご との情報開示の可否が明確になったが、成果物が公開できな い場合も多い。 ProbSpace:コンペ設計に工夫が見られる。優勝解法のピア レビュー制が面白い。最終提出選択がない。日本語。 Nishika:立ち上がり期で、オープンデータを用いたコンペが 多い。日本語。 Solafune:衛星データを題材にしたコンペを過去2度開催。 TopCoder:競技プログラミング。
atmaCup:最近は日本のKaggle Grandmaster/Masterが集結 し、しのぎを削っている。運営のサポートが手厚く、初学者 おすすめ度も高い。日本語。 Quevico:Discussionなし。日本語も対応。 20