Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データコンペを開いた話
Search
Yamaguchi Takahiro
September 19, 2019
Science
0
400
データコンペを開いた話
データコンペを開いた時のあれこれのお話です
Yamaguchi Takahiro
September 19, 2019
Tweet
Share
More Decks by Yamaguchi Takahiro
See All by Yamaguchi Takahiro
コンペを気楽に開催しよーぜ!@関西Kaggler会
nyk510
0
1.1k
Django のセキュリティリリースを見る
nyk510
0
50
3分でMLアプリを作る 〜推論コードにちょっとのStreamlitを添えて〜
nyk510
1
1k
硬派で真面目なグラフを描く
nyk510
0
460
CORSをちゃんと理解する atmaバックエンド勉強会#4
nyk510
0
360
pythonで気軽にパッケージを作るのは良いという話。
nyk510
14
9.5k
RestAPIのページネーション atma バックエンド勉強会 #3
nyk510
1
840
AWS CPU Credit を完全に理解する
nyk510
0
420
atmaCup#8 Opening
nyk510
0
220
Other Decks in Science
See All in Science
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
250
最適化超入門
tkm2261
14
3.4k
3次元点群を利用した植物の葉の自動セグメンテーションについて
kentaitakura
2
760
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
120
ほたるのひかり/RayTracingCamp10
kugimasa
0
470
白金鉱業Meetup Vol.16_【初学者向け発表】 数理最適化のはじめの一歩 〜身近な問題で学ぶ最適化の面白さ〜
brainpadpr
10
1.8k
機械学習による確率推定とカリブレーション/probabilistic-calibration-on-classification-model
ktgrstsh
2
330
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
190
【人工衛星開発】能見研究室紹介動画
02hattori11sat03
0
180
【健康&筋肉と生産性向上の関連性】 【Google Cloudを企業で運用する際の知識】 をお届け
yasumuusan
0
420
大規模言語モデルの開発
chokkan
PRO
85
41k
構造設計のための3D生成AI-最新の取り組みと今後の展開-
kojinishiguchi
0
700
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
3
180
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
173
51k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Building Your Own Lightsaber
phodgson
104
6.2k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Practical Orchestrator
shlominoach
186
10k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
A designer walks into a library…
pauljervisheath
205
24k
Making the Leap to Tech Lead
cromwellryan
133
9k
Transcript
データコンペ を開いた話
Hello! 山口貴大 twitter @nyker_goto atma 株式会社 取締役/ DS / ふろんと
/ ばっくえんど / いんふら Kaggle Master kaggle.com/nyk510 京都大学大学院 最適化数理卒 SGDが好き 2
3 とつぜんですが
4 atmaCup ご存知ですよね?
5 え、知らない?
atmaCupとは atma 株式会社が主催するオンサイトデータコンペ https://atma-cup.atma.co.jp • 実際に会場に集まり、準備されたデータをテーマに沿って 分析・予測を行いその精度を競うイベント • 全員で一斉にスタートし短い時間で決着するため参加者のスキ ルがオンラインのデータコンペより強く結果に表れます。
6
atmaCup #1 8/3 #1(第2回)を開催 全参加者: 26人 (東京から10人以上) 参加者の半数が Kaggler の超ハイレベルな大会
Kaggle GrandMaster: 1人 Kaggle Master: 5人 Kaggle Expert: 7人 終了後のアンケートでは 全員が次回も参加したい(5段階評価)と回答 :D 7
しかし!! 8
コンペを作るのは なかなか大変!!! 9
大変だったこと × システムを作るのが大変 × 使うデータの選定が大変 × いい感じの解ける問題を作るのが大変 10
Kaggle っぽいシステムを作る必要性 • スコア計算/ランキング • ディスカッション・Vote • チームマージ… Vue.js +
Nuxt ✖ DjangoRestFramework GitlabCIによる自動デプロイ + AWS(ECS) つくってわかるアプリとしての Kaggle の凄さ 1.システムを作るのが大変 11
2.使うデータの選定が大変 それを解いてためになる問題にしたい • 匿名データではないリアルなデータを用意 (まあまあ大変) Train/Public/Private の分割は慎重に…… • Leakage があると何を言われるかわからないこわい
いい感じ(要出典)にハンドリングできるデータ量に • 一日しかないのでその中で扱えるぐらいのいい感じ(要出典)の データ 12
3.いい感じの解ける問題を作るのが大変 Leak とかなかったらいいかというとそうでもない • 解けないと面白くない • でも簡単すぎると差がつかない いい感じ(要出典)に差がつくような問題設定にする必要がある 13
結果どうなるか… 14
いい感じに作るの 大変すぎて病む 15
16 *コンペ前日
よかったこと!! × みんなで解くのは楽しい これは本当に、たのしい!! × [回答者として]とても勉強になる みんなが何をやっているか知れるのは大きい × [出題者として]出題の難しさを知れる 17
よだん AutoMLも参戦してました (8位/31) くわしい顛末はブログで AutoML Tablesを使ってKagglerを倒せなかった話 #atmaCup https://atma.hatenablog.com/entry/2019/08/26/180951 18
次回 10月 ~ 11月頃 開催予定 データ提供元募集中! atmaCup #2
THANKS! Arigato Gozaimashita !! 20