Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み
Search
Yamaguchi Takahiro
August 01, 2020
Science
3
5.3k
オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み
オンサイトデータコンペティションatmaCupを楽しいコンペにするための取り組みについて。
Yamaguchi Takahiro
August 01, 2020
Tweet
Share
More Decks by Yamaguchi Takahiro
See All by Yamaguchi Takahiro
コンペを気楽に開催しよーぜ!@関西Kaggler会
nyk510
0
1.1k
Django のセキュリティリリースを見る
nyk510
0
50
3分でMLアプリを作る 〜推論コードにちょっとのStreamlitを添えて〜
nyk510
1
1k
硬派で真面目なグラフを描く
nyk510
0
460
CORSをちゃんと理解する atmaバックエンド勉強会#4
nyk510
0
360
pythonで気軽にパッケージを作るのは良いという話。
nyk510
14
9.5k
RestAPIのページネーション atma バックエンド勉強会 #3
nyk510
1
840
AWS CPU Credit を完全に理解する
nyk510
0
420
atmaCup#8 Opening
nyk510
0
220
Other Decks in Science
See All in Science
(2024) Livres, Femmes et Math
mansuy
0
120
Spectral Sparsification of Hypergraphs
tasusu
0
210
位相的データ解析とその応用例
brainpadpr
1
810
Inductive-bias Learning: 大規模言語モデルによる予測モデルの生成
fuyu_quant0
0
140
How were Quaternion discovered
kinakomoti321
2
1.1k
はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために
takehikoihayashi
17
7.1k
ガウス過程回帰とベイズ最適化
nearme_tech
PRO
1
110
【人工衛星】座標変換についての説明
02hattori11sat03
0
140
ウェーブレットおきもち講座
aikiriao
1
810
メール送信サーバの集約における透過型SMTP プロキシの定量評価 / Quantitative Evaluation of Transparent SMTP Proxy in Email Sending Server Aggregation
linyows
0
560
機械学習を支える連続最適化
nearme_tech
PRO
1
210
局所保存性・相似変換対称性を満たす機械学習モデルによる数値流体力学
yellowshippo
1
140
Featured
See All Featured
Designing for Performance
lara
604
68k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
What's in a price? How to price your products and services
michaelherold
244
12k
Side Projects
sachag
452
42k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.1k
YesSQL, Process and Tooling at Scale
rocio
170
14k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Site-Speed That Sticks
csswizardry
2
250
The Cult of Friendly URLs
andyhume
78
6.1k
Speed Design
sergeychernyshev
25
730
Building Adaptive Systems
keathley
38
2.4k
Transcript
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み
自己紹介 山口貴大 atma(アートマ)株式会社 取締役 京都大学院・情報学研究科 数理最適化専攻 学生時代に数理最適化の応用としての機械学習に興味をもち新卒で atma入社。主にデータ分析領域から、エンジニアとしてフロントエンド・ バックエンドの開発、たまにインフラ構築も。 Kaggle
Master 趣味: 綺麗なウェブサイトの構造を読むこと twitter: @nyker_goto 2
atma株式会社とは 事業内容 - AI導入コンサルティング・POC・システム開発 - コンサルティングフェーズからシステム開発まで一気通貫に出来ることが強み - toB/toC のシステム開発 -
自社サービス - オンサイトデータコンペティション・ atmaCup を開催 3 大阪にあるベンチャー企業です。
データコンペティションとは 1.課題とデータの提供 出題者が出すデータ分析の課題を 参加者が解いて、その精度を競う大会 上位解法を賞金と引き換えに受け取る 出題者 参加者 2. 機械学習 モデルの構築
3.システム上で自動採点 精度でランク付け 4 4.ランクに応じて 賞金・称号の授与 オンラインプラットフォームがいくつか存在 海外: Kaggle / 国内: Signate 3. 出来上がったモデルを システムへ提出 0.課題の設計 参加者の力を借りて問題を解くことが出来る ため、データサイエンスの課題解決方法の一 つとして近年注目されている。
みんな嬉しい。データコンペティション 基本的に賞金獲得は上位数名のみ。 (ほとんどの参加者は賞金はもらえない ) 出題者(ホスト)にだけメリットがありそうだが、実はそうでもない。 能力を試すことができる データサイエンスの能力は可視化されにくい。共通の問題を同時に解くの で、自分の能力を測る場として最適。 新しい知見を得ることができる コンペ終了後に上位入賞者が自分の解法を公開する場合が多い。
上位陣の解法を元に自分のレベルアップをはかることができる。 5
オンサイトデータコンペティション・atmaCup の特徴 オンサイトデータコンペとは 実際に会場に集まり、 準備されたデータをテーマに沿って分析・予測を行い、 その精度を競うイベントです。 特徴: 時間が短く・実際に集まる 1. 短い時間で分析する力が求められる
2. 解法についてその場で議論できる 6 過去の開催情報・最終ランキングはコンペ用サイト ぐるぐるからみることができます https://www.guruguru.ml/ ぐるぐる・Data Competition Platform for atmaCup
/ 動員数 毎回多数の方々に参加頂いています。 参加希望者が多く毎回開催と同時 (数時間)で定員 が埋まる状況。 前回atmaCup#5は初のオンライン開催 300人枠すべてが埋まる盛況 **Kaggle GrandMaster
世界で上位0.1% *Kaggle Master 世界上位1% / 日本で100人程度 Kaggle Expert: 日本で数百人 #2 #3 #4 #5 全員 34 85 58 218 #GrandMaster** 2 3 0 4 #Master* 7 15 11 29 #Expert 8 27 25 72 参加者数の推移 7
/ 様々な実問題解決への応用 過去開催のうちいくつかは実際に課題解決へ応用されています。 atmaCup#4(*) 購買情報からユーザーの次回の購入品目の予測 ID-POSの購買履歴データを用いてユーザーの買いそうな商品を予測する問題。 販売促進活動やレコメンド・店内配置の最適化に応用できる。 現在システム化を見据えたソリューションの活用プロジェクトが進行中。 atmaCup#5 実験対象の状態予測問題
実験データから状態を推定する問題。人に匹敵するような精度をだすモデルが優勝。 今後システム化することで、研究者がより本質的課題解決に時間を使うことができる。 8 (*) リテールAI研究会・MSさんとの共同開催
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み
オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み 楽しいコンペって なんだろう?
楽しい(良い)データコンペティションの要素 1. コンペに適した課題設計になっている - コンペ上位の解法が実際の問題を解決できるものであること - 課題をカンニング出来たり、そもそも解けないとコンペとしては成立しない 2. 参加者が楽しい -
知的好奇心を満たすような普段触れない・取り組めない課題やデータか (データを触っていて楽しい) 11
設計に失敗すると、楽しくないコンペになる 課題設計に失敗してしまうコンペティションも中には存在する。 - 答えがGoogle検索でわかってしまうコンペ (カンニング出来る状態/Leakageと呼ぶ) - 予測が難しすぎてすべて0で予測するモデルが上位入賞するコンペ (予測が不可能) - ...etc
参加者: 真面目にモデルを作った時間が報われず悲しい & ホストへ悪印象 ホスト: 上位の解法から得られるものがすくなく、開催した意味が少ない 12
コンペに適した課題設計 3. 初心者・中級者へ向けたサポートの実施 4. 振り返り会の実施 5. 分析者にとって快適なコンペサイトの構築 参加者が楽しめる工夫 1. 解いてためになるような課題設計
2. データサイエンティストによる 課題とデータ検証 atmaCupが楽しいコンペティションになるために 13
1. 解いてためになるような課題設計 本当にやりたいこと = 課題を解決する方法を知ること コンペ開催主体はなにを求めているのか ? を丁寧にヒアリング - 本当の課題は何か
- 何が出来ると解決と言えるのか 14 コンペティション課題を解くことが 最終的にやりたいことを達成できるような課題設計に
2. データサイエンティストによる提供データ・課題の検証 リークや予測不可能性があり、コンペとして破綻していないかどうかを 実際にデータサイエンティストが問題を解いて チェック • 本当にモデルを作ります。 課題が適切でない場合再度問題設定・モデリング • 場合によっては想定課題が
100を超えて、作成モデル数はその数十倍になることも • 大変すぎるのでモデル作成をサポートするためのライブラリを作っています https://github.com/nyk510/vivid (pip install python-vivid をしましょう) 出題企業様へのフィードバックの実施 • 終了後に上位の解法を元に結果や解法について、出来る限りわかりやすく解説 • 実際のオペレーションに活用できる知見にしてもらえるように 15
3. 初心者・中級者へ向けたサポートの実施 atmaCupは強い人だけでなく、初心者の参加を歓迎しています。 質問はなんでもOK! コンペの順位に差し障る内容以外の質問は何時でも OK。 データサイエンティストによる分析講座を開催 データの可視化・コードの書き方・機械学習モデルの作成など。 終了後にはコードを notebook
として共有 参加者全員が submit してスコアを出すところまでを体験して 少しでもデータ分析の面白さを知ってもらえるように 16 #5はオンライン開催だったため youtube-liveで配信
4. 振り返り会の開催 参加して終わりではなく、さらなるレベルアップにつなげてほしいという思いから コンペ終了後 atma 主催で振り返り会を開催しています。 参加者のLTや出題側の意図などのプレゼンで 分析に関するより深い知識を共有できる場を提供 前回は本参加者の半数近くが振り返り会にも参加 17
atma office にて振り返り会の開催 (atmaCup#3)
5. 分析者にとって快適なコンペサイトの構築 コンペサイトは単にデータを閲覧・提出する場所ではなく、 ユーザー同士の大切なコミュニケーションの場所であり、その使い勝手はとても大切です。 ストレスなく扱えるような UI・UX の探求 分析者が開発を担当。分析者にとって嬉しいシステムを実現可 能 常に楽しい体験ができるよう日々更新
コンペ中リアルタイムに要望を受け付けて改修も ?! (ex: atmaCup#5 / twitter投稿ボタンの追加, ディスカッションのtag) 18
つまるところ、コンペは楽しいということを伝えたい 僕がそもそもデータコンペティションのファン。 コンペって良いなと思ってもらえるように関わる人全員が楽しくなるように努力している。 • 課題を持っている企業さんには、素晴らしい課題解決方法を提案して喜んでもらい、 コンペティションは良いものだと思ってほしい • 参加者さんには解いて面白くて・学びが深い「楽しい」コンペ設計を提供して楽しんでもらい つぎまた参加したいなと思ってほしい 19
今後第5回以降も開催予定ですので、参加いただけるととても嬉しいです!
まとめ データコンペティションは出題ホストだけでなく参加者も嬉しい仕組み がしかし適切に問題設計をしないと、誰も得しない事になってしまう場合もあります。 良いコンペティションになるためatmaCupで取り組んでいることを紹介しました。 20