オンサイトデータコンペティションatmaCupを楽しいコンペにするための取り組みについて。
オンサイトデータコンペの魅力。関わる全員が楽しいコンペ設計のための取り組み
View Slide
自己紹介山口貴大atma(アートマ)株式会社 取締役京都大学院・情報学研究科 数理最適化専攻学生時代に数理最適化の応用としての機械学習に興味をもち新卒でatma入社。主にデータ分析領域から、エンジニアとしてフロントエンド・バックエンドの開発、たまにインフラ構築も。 Kaggle Master趣味: 綺麗なウェブサイトの構造を読むことtwitter: @nyker_goto2
atma株式会社とは事業内容- AI導入コンサルティング・POC・システム開発- コンサルティングフェーズからシステム開発まで一気通貫に出来ることが強み- toB/toC のシステム開発- 自社サービス- オンサイトデータコンペティション・atmaCup を開催3大阪にあるベンチャー企業です。
データコンペティションとは1.課題とデータの提供出題者が出すデータ分析の課題を参加者が解いて、その精度を競う大会上位解法を賞金と引き換えに受け取る出題者参加者2. 機械学習モデルの構築3.システム上で自動採点精度でランク付け44.ランクに応じて賞金・称号の授与オンラインプラットフォームがいくつか存在海外: Kaggle / 国内: Signate3. 出来上がったモデルをシステムへ提出0.課題の設計参加者の力を借りて問題を解くことが出来るため、データサイエンスの課題解決方法の一つとして近年注目されている。
みんな嬉しい。データコンペティション基本的に賞金獲得は上位数名のみ。(ほとんどの参加者は賞金はもらえない)出題者(ホスト)にだけメリットがありそうだが、実はそうでもない。能力を試すことができるデータサイエンスの能力は可視化されにくい。共通の問題を同時に解くので、自分の能力を測る場として最適。新しい知見を得ることができるコンペ終了後に上位入賞者が自分の解法を公開する場合が多い。上位陣の解法を元に自分のレベルアップをはかることができる。5
オンサイトデータコンペティション・atmaCup の特徴オンサイトデータコンペとは 実際に会場に集まり、準備されたデータをテーマに沿って分析・予測を行い、 その精度を競うイベントです。特徴: 時間が短く・実際に集まる1. 短い時間で分析する力が求められる2. 解法についてその場で議論できる6過去の開催情報・最終ランキングはコンペ用サイトぐるぐるからみることができますhttps://www.guruguru.ml/ぐるぐる・Data Competition Platform for atmaCup
/ 動員数毎回多数の方々に参加頂いています。参加希望者が多く毎回開催と同時 (数時間)で定員が埋まる状況。前回atmaCup#5は初のオンライン開催300人枠すべてが埋まる盛況**Kaggle GrandMaster 世界で上位0.1%*Kaggle Master 世界上位1% / 日本で100人程度Kaggle Expert: 日本で数百人#2 #3 #4 #5全員 34 85 58 218#GrandMaster** 2 3 0 4#Master* 7 15 11 29#Expert 8 27 25 72参加者数の推移7
/ 様々な実問題解決への応用過去開催のうちいくつかは実際に課題解決へ応用されています。atmaCup#4(*) 購買情報からユーザーの次回の購入品目の予測ID-POSの購買履歴データを用いてユーザーの買いそうな商品を予測する問題。販売促進活動やレコメンド・店内配置の最適化に応用できる。現在システム化を見据えたソリューションの活用プロジェクトが進行中。atmaCup#5 実験対象の状態予測問題実験データから状態を推定する問題。人に匹敵するような精度をだすモデルが優勝。今後システム化することで、研究者がより本質的課題解決に時間を使うことができる。8(*) リテールAI研究会・MSさんとの共同開催
オンサイトデータコンペの魅力。関わる全員が楽しいコンペ設計のための取り組み楽しいコンペってなんだろう?
楽しい(良い)データコンペティションの要素1. コンペに適した課題設計になっている- コンペ上位の解法が実際の問題を解決できるものであること- 課題をカンニング出来たり、そもそも解けないとコンペとしては成立しない2. 参加者が楽しい- 知的好奇心を満たすような普段触れない・取り組めない課題やデータか(データを触っていて楽しい)11
設計に失敗すると、楽しくないコンペになる課題設計に失敗してしまうコンペティションも中には存在する。- 答えがGoogle検索でわかってしまうコンペ (カンニング出来る状態/Leakageと呼ぶ)- 予測が難しすぎてすべて0で予測するモデルが上位入賞するコンペ (予測が不可能)- ...etc参加者: 真面目にモデルを作った時間が報われず悲しい & ホストへ悪印象ホスト: 上位の解法から得られるものがすくなく、開催した意味が少ない12
コンペに適した課題設計3. 初心者・中級者へ向けたサポートの実施4. 振り返り会の実施5. 分析者にとって快適なコンペサイトの構築参加者が楽しめる工夫1. 解いてためになるような課題設計2. データサイエンティストによる課題とデータ検証 atmaCupが楽しいコンペティションになるために13
1. 解いてためになるような課題設計本当にやりたいこと = 課題を解決する方法を知ることコンペ開催主体はなにを求めているのか ? を丁寧にヒアリング- 本当の課題は何か- 何が出来ると解決と言えるのか14コンペティション課題を解くことが最終的にやりたいことを達成できるような課題設計に
2. データサイエンティストによる提供データ・課題の検証リークや予測不可能性があり、コンペとして破綻していないかどうかを実際にデータサイエンティストが問題を解いてチェック● 本当にモデルを作ります。 課題が適切でない場合再度問題設定・モデリング● 場合によっては想定課題が 100を超えて、作成モデル数はその数十倍になることも● 大変すぎるのでモデル作成をサポートするためのライブラリを作っていますhttps://github.com/nyk510/vivid (pip install python-vivid をしましょう)出題企業様へのフィードバックの実施● 終了後に上位の解法を元に結果や解法について、出来る限りわかりやすく解説● 実際のオペレーションに活用できる知見にしてもらえるように15
3. 初心者・中級者へ向けたサポートの実施atmaCupは強い人だけでなく、初心者の参加を歓迎しています。質問はなんでもOK!コンペの順位に差し障る内容以外の質問は何時でも OK。データサイエンティストによる分析講座を開催データの可視化・コードの書き方・機械学習モデルの作成など。終了後にはコードを notebook として共有参加者全員が submit してスコアを出すところまでを体験して少しでもデータ分析の面白さを知ってもらえるように16#5はオンライン開催だったためyoutube-liveで配信
4. 振り返り会の開催参加して終わりではなく、さらなるレベルアップにつなげてほしいという思いからコンペ終了後 atma 主催で振り返り会を開催しています。参加者のLTや出題側の意図などのプレゼンで分析に関するより深い知識を共有できる場を提供前回は本参加者の半数近くが振り返り会にも参加17atma office にて振り返り会の開催 (atmaCup#3)
5. 分析者にとって快適なコンペサイトの構築コンペサイトは単にデータを閲覧・提出する場所ではなく、ユーザー同士の大切なコミュニケーションの場所であり、その使い勝手はとても大切です。ストレスなく扱えるような UI・UX の探求分析者が開発を担当。分析者にとって嬉しいシステムを実現可能常に楽しい体験ができるよう日々更新コンペ中リアルタイムに要望を受け付けて改修も ?!(ex: atmaCup#5 / twitter投稿ボタンの追加, ディスカッションのtag)18
つまるところ、コンペは楽しいということを伝えたい僕がそもそもデータコンペティションのファン。コンペって良いなと思ってもらえるように関わる人全員が楽しくなるように努力している。● 課題を持っている企業さんには、素晴らしい課題解決方法を提案して喜んでもらい、コンペティションは良いものだと思ってほしい● 参加者さんには解いて面白くて・学びが深い「楽しい」コンペ設計を提供して楽しんでもらいつぎまた参加したいなと思ってほしい19今後第5回以降も開催予定ですので、参加いただけるととても嬉しいです!
まとめデータコンペティションは出題ホストだけでなく参加者も嬉しい仕組みがしかし適切に問題設計をしないと、誰も得しない事になってしまう場合もあります。良いコンペティションになるためatmaCupで取り組んでいることを紹介しました。20