Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み

オンサイトデータコンペの魅力: 関わる全員が楽しいコンペ設計のための取り組み

オンサイトデータコンペティションatmaCupを楽しいコンペにするための取り組みについて。

C4c6c7b4fdf9285bcf12c5caa58c8d53?s=128

Yamaguchi Takahiro

August 01, 2020
Tweet

More Decks by Yamaguchi Takahiro

Other Decks in Science

Transcript

  1. オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み

  2. 自己紹介 山口貴大 atma(アートマ)株式会社 取締役 京都大学院・情報学研究科 数理最適化専攻 学生時代に数理最適化の応用としての機械学習に興味をもち新卒で atma入社。主にデータ分析領域から、エンジニアとしてフロントエンド・ バックエンドの開発、たまにインフラ構築も。 Kaggle

    Master 趣味: 綺麗なウェブサイトの構造を読むこと twitter: @nyker_goto 2
  3. atma株式会社とは 事業内容 - AI導入コンサルティング・POC・システム開発 - コンサルティングフェーズからシステム開発まで一気通貫に出来ることが強み - toB/toC のシステム開発 -

    自社サービス - オンサイトデータコンペティション・ atmaCup を開催 3 大阪にあるベンチャー企業です。
  4. データコンペティションとは 1.課題とデータの提供 出題者が出すデータ分析の課題を 参加者が解いて、その精度を競う大会 上位解法を賞金と引き換えに受け取る 出題者 参加者 2. 機械学習 モデルの構築

    3.システム上で自動採点 精度でランク付け 4 4.ランクに応じて 賞金・称号の授与 オンラインプラットフォームがいくつか存在 海外: Kaggle / 国内: Signate 3. 出来上がったモデルを システムへ提出 0.課題の設計 参加者の力を借りて問題を解くことが出来る ため、データサイエンスの課題解決方法の一 つとして近年注目されている。
  5. みんな嬉しい。データコンペティション 基本的に賞金獲得は上位数名のみ。 (ほとんどの参加者は賞金はもらえない ) 出題者(ホスト)にだけメリットがありそうだが、実はそうでもない。 能力を試すことができる データサイエンスの能力は可視化されにくい。共通の問題を同時に解くの で、自分の能力を測る場として最適。 新しい知見を得ることができる コンペ終了後に上位入賞者が自分の解法を公開する場合が多い。

    上位陣の解法を元に自分のレベルアップをはかることができる。 5
  6. オンサイトデータコンペティション・atmaCup の特徴 オンサイトデータコンペとは 実際に会場に集まり、 準備されたデータをテーマに沿って分析・予測を行い、 その精度を競うイベントです。 特徴: 時間が短く・実際に集まる 1. 短い時間で分析する力が求められる

    2. 解法についてその場で議論できる 6 過去の開催情報・最終ランキングはコンペ用サイト ぐるぐるからみることができます https://www.guruguru.ml/ ぐるぐる・Data Competition Platform for atmaCup
  7. / 動員数 毎回多数の方々に参加頂いています。 参加希望者が多く毎回開催と同時 (数時間)で定員 が埋まる状況。 前回atmaCup#5は初のオンライン開催 300人枠すべてが埋まる盛況 **Kaggle GrandMaster

    世界で上位0.1% *Kaggle Master 世界上位1% / 日本で100人程度 Kaggle Expert: 日本で数百人 #2 #3 #4 #5 全員 34 85 58 218 #GrandMaster** 2 3 0 4 #Master* 7 15 11 29 #Expert 8 27 25 72 参加者数の推移 7
  8. / 様々な実問題解決への応用 過去開催のうちいくつかは実際に課題解決へ応用されています。 atmaCup#4(*) 購買情報からユーザーの次回の購入品目の予測 ID-POSの購買履歴データを用いてユーザーの買いそうな商品を予測する問題。 販売促進活動やレコメンド・店内配置の最適化に応用できる。 現在システム化を見据えたソリューションの活用プロジェクトが進行中。 atmaCup#5 実験対象の状態予測問題

    実験データから状態を推定する問題。人に匹敵するような精度をだすモデルが優勝。 今後システム化することで、研究者がより本質的課題解決に時間を使うことができる。 8 (*) リテールAI研究会・MSさんとの共同開催
  9. オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み

  10. オンサイトデータコンペの魅力。 関わる全員が楽しいコンペ設計のための取り組み 楽しいコンペって なんだろう?

  11. 楽しい(良い)データコンペティションの要素 1. コンペに適した課題設計になっている - コンペ上位の解法が実際の問題を解決できるものであること - 課題をカンニング出来たり、そもそも解けないとコンペとしては成立しない 2. 参加者が楽しい -

    知的好奇心を満たすような普段触れない・取り組めない課題やデータか (データを触っていて楽しい) 11
  12. 設計に失敗すると、楽しくないコンペになる 課題設計に失敗してしまうコンペティションも中には存在する。 - 答えがGoogle検索でわかってしまうコンペ (カンニング出来る状態/Leakageと呼ぶ) - 予測が難しすぎてすべて0で予測するモデルが上位入賞するコンペ (予測が不可能) - ...etc

    参加者: 真面目にモデルを作った時間が報われず悲しい & ホストへ悪印象 ホスト: 上位の解法から得られるものがすくなく、開催した意味が少ない 12
  13. コンペに適した課題設計 3. 初心者・中級者へ向けたサポートの実施 4. 振り返り会の実施 5. 分析者にとって快適なコンペサイトの構築 参加者が楽しめる工夫 1. 解いてためになるような課題設計

    2. データサイエンティストによる 課題とデータ検証 atmaCupが楽しいコンペティションになるために 13
  14. 1. 解いてためになるような課題設計 本当にやりたいこと = 課題を解決する方法を知ること コンペ開催主体はなにを求めているのか ? を丁寧にヒアリング - 本当の課題は何か

    - 何が出来ると解決と言えるのか 14 コンペティション課題を解くことが 最終的にやりたいことを達成できるような課題設計に
  15. 2. データサイエンティストによる提供データ・課題の検証 リークや予測不可能性があり、コンペとして破綻していないかどうかを 実際にデータサイエンティストが問題を解いて チェック • 本当にモデルを作ります。 課題が適切でない場合再度問題設定・モデリング • 場合によっては想定課題が

    100を超えて、作成モデル数はその数十倍になることも • 大変すぎるのでモデル作成をサポートするためのライブラリを作っています https://github.com/nyk510/vivid (pip install python-vivid をしましょう) 出題企業様へのフィードバックの実施 • 終了後に上位の解法を元に結果や解法について、出来る限りわかりやすく解説 • 実際のオペレーションに活用できる知見にしてもらえるように 15
  16. 3. 初心者・中級者へ向けたサポートの実施 atmaCupは強い人だけでなく、初心者の参加を歓迎しています。 質問はなんでもOK! コンペの順位に差し障る内容以外の質問は何時でも OK。 データサイエンティストによる分析講座を開催 データの可視化・コードの書き方・機械学習モデルの作成など。 終了後にはコードを notebook

    として共有 参加者全員が submit してスコアを出すところまでを体験して 少しでもデータ分析の面白さを知ってもらえるように 16 #5はオンライン開催だったため youtube-liveで配信
  17. 4. 振り返り会の開催 参加して終わりではなく、さらなるレベルアップにつなげてほしいという思いから コンペ終了後 atma 主催で振り返り会を開催しています。 参加者のLTや出題側の意図などのプレゼンで 分析に関するより深い知識を共有できる場を提供 前回は本参加者の半数近くが振り返り会にも参加 17

    atma office にて振り返り会の開催 (atmaCup#3)
  18. 5. 分析者にとって快適なコンペサイトの構築 コンペサイトは単にデータを閲覧・提出する場所ではなく、 ユーザー同士の大切なコミュニケーションの場所であり、その使い勝手はとても大切です。 ストレスなく扱えるような UI・UX の探求 分析者が開発を担当。分析者にとって嬉しいシステムを実現可 能 常に楽しい体験ができるよう日々更新

    コンペ中リアルタイムに要望を受け付けて改修も ?! (ex: atmaCup#5 / twitter投稿ボタンの追加, ディスカッションのtag) 18
  19. つまるところ、コンペは楽しいということを伝えたい 僕がそもそもデータコンペティションのファン。 コンペって良いなと思ってもらえるように関わる人全員が楽しくなるように努力している。 • 課題を持っている企業さんには、素晴らしい課題解決方法を提案して喜んでもらい、 コンペティションは良いものだと思ってほしい • 参加者さんには解いて面白くて・学びが深い「楽しい」コンペ設計を提供して楽しんでもらい つぎまた参加したいなと思ってほしい 19

    今後第5回以降も開催予定ですので、参加いただけるととても嬉しいです!
  20. まとめ データコンペティションは出題ホストだけでなく参加者も嬉しい仕組み がしかし適切に問題設計をしないと、誰も得しない事になってしまう場合もあります。 良いコンペティションになるためatmaCupで取り組んでいることを紹介しました。 20