Slide 1

Slide 1 text

データコンペ を開いた話

Slide 2

Slide 2 text

Hello! 山口貴大 twitter @nyker_goto atma 株式会社 取締役/ DS / ふろんと / ばっくえんど / いんふら Kaggle Master kaggle.com/nyk510 京都大学大学院 最適化数理卒 SGDが好き 2

Slide 3

Slide 3 text

3 とつぜんですが

Slide 4

Slide 4 text

4 atmaCup ご存知ですよね?

Slide 5

Slide 5 text

5 え、知らない?

Slide 6

Slide 6 text

atmaCupとは atma 株式会社が主催するオンサイトデータコンペ https://atma-cup.atma.co.jp ● 実際に会場に集まり、準備されたデータをテーマに沿って 分析・予測を行いその精度を競うイベント ● 全員で一斉にスタートし短い時間で決着するため参加者のスキ ルがオンラインのデータコンペより強く結果に表れます。 6

Slide 7

Slide 7 text

atmaCup #1 8/3 #1(第2回)を開催 全参加者: 26人 (東京から10人以上) 参加者の半数が Kaggler の超ハイレベルな大会 Kaggle GrandMaster: 1人 Kaggle Master: 5人 Kaggle Expert: 7人 終了後のアンケートでは 全員が次回も参加したい(5段階評価)と回答 :D 7

Slide 8

Slide 8 text

しかし!! 8

Slide 9

Slide 9 text

コンペを作るのは なかなか大変!!! 9

Slide 10

Slide 10 text

大変だったこと × システムを作るのが大変 × 使うデータの選定が大変 × いい感じの解ける問題を作るのが大変 10

Slide 11

Slide 11 text

Kaggle っぽいシステムを作る必要性 ● スコア計算/ランキング ● ディスカッション・Vote ● チームマージ… Vue.js + Nuxt ✖ DjangoRestFramework GitlabCIによる自動デプロイ + AWS(ECS) つくってわかるアプリとしての Kaggle の凄さ 1.システムを作るのが大変 11

Slide 12

Slide 12 text

2.使うデータの選定が大変 それを解いてためになる問題にしたい ● 匿名データではないリアルなデータを用意 (まあまあ大変) Train/Public/Private の分割は慎重に…… ● Leakage があると何を言われるかわからないこわい いい感じ(要出典)にハンドリングできるデータ量に ● 一日しかないのでその中で扱えるぐらいのいい感じ(要出典)の データ 12

Slide 13

Slide 13 text

3.いい感じの解ける問題を作るのが大変 Leak とかなかったらいいかというとそうでもない ● 解けないと面白くない ● でも簡単すぎると差がつかない いい感じ(要出典)に差がつくような問題設定にする必要がある 13

Slide 14

Slide 14 text

結果どうなるか… 14

Slide 15

Slide 15 text

いい感じに作るの 大変すぎて病む 15

Slide 16

Slide 16 text

16 *コンペ前日

Slide 17

Slide 17 text

よかったこと!! × みんなで解くのは楽しい これは本当に、たのしい!! × [回答者として]とても勉強になる みんなが何をやっているか知れるのは大きい × [出題者として]出題の難しさを知れる 17

Slide 18

Slide 18 text

よだん AutoMLも参戦してました (8位/31) くわしい顛末はブログで AutoML Tablesを使ってKagglerを倒せなかった話 #atmaCup https://atma.hatenablog.com/entry/2019/08/26/180951 18

Slide 19

Slide 19 text

次回 10月 ~ 11月頃 開催予定 データ提供元募集中! atmaCup #2

Slide 20

Slide 20 text

THANKS! Arigato Gozaimashita !! 20