$30 off During Our Annual Pro Sale. View Details »

[関西Kaggler会 配布版] コミュニティコンペの継続的な開催について

YuyaYAMAMOTO
October 20, 2023

[関西Kaggler会 配布版] コミュニティコンペの継続的な開催について

Kaggleコミュニティコンペの最近の機能アップデートと運営側の工夫と苦労について講演させて頂きました。また、Kaggler向けに便利なWandBの紹介も行いました。

YuyaYAMAMOTO

October 20, 2023
Tweet

Other Decks in Technology

Transcript

  1. 1
    コミュニティコンペの継続的な開催
    について
    Yuya Yamamoto (ID: nejumi)
    関西Kaggler会 交流会 in Osaka 2023#3

    View Slide

  2. Agenda
    関西Kaggler会 交流会
    in Osaka 2023#3
    ● 自己紹介
    ● コミュニティコンペの継続開催
    ○ コミュニティコンペとは?
    ○ コミュニティコンペ機能の進化
    ○ コンペ設計のポイント
    ○ コンペの継続ホストの困難な ポ
    イント
    ● W&B for Kagglers

    View Slide

  3. 自己紹介

    View Slide

  4. 自己紹介
    プレイヤーとしての参
    加は最近なかなかで
    きていない
    これらのachievementは主
    にCommunityコンペをホ
    ストしてきたのが理由

    View Slide

  5. 過去にホストしたコミュニティコンペ一覧
    ● 地域コミュニティ向けコンペ (HAH, 関西Kaggler会)
    ● お付き合いのある会社の社内勉強会向けコンペ
    ● ML教育プログラムの一部としてのコンペ
    ● Partner Certificationプログラムの一部としてのコンペ
    ● etc.
    *これ以外にSIGNATEでも複
    数のプライベートコンペをホ
    ストしている

    View Slide

  6. https://hiranomachi-ah.studio.site/posts/kaggle_2nd
    過去にホストしたコミュニティコンペの例

    View Slide

  7. コミュニティコンペについて
    https://www.kaggle.com/discussions/competition-hosting

    View Slide

  8. コミュニティコンペとは?
    Notebook, Dataset,
    Discussion, Leaderboard,
    Custom Metricなどの基本的な
    コンペ機能
    YES YES
    Cash Prizeの可否 No YES
    Kaggle社による技術/広報
    サポート
    No YES
    ライブモニタリング機能 No YES
    Community Featured
    https://www.kaggle.com/c/about/host

    View Slide

  9. コミュニティコンペとは?
    Notebook, Dataset,
    Discussion, Leaderboard,
    Custom Metricなどの基本的な
    コンペ機能
    YES YES
    Cash Prizeの可否 No YES
    Kaggle社による技術/広報
    サポート
    No YES
    ライブモニタリング機能 No YES
    Community Featured
    https://www.kaggle.com/c/about/host
    ● コミュニティコンペでも基本的な機能はひと通り揃ってお
    り、何かが足りなくて困ることはほとんどない
    ● 特にコミュニティコンペ機能は継続的に改良されており、
    以前は対応できなかったことも現在では多くがカバーさ
    れている

    View Slide

  10. コミュニティコンペ機能のアップデート
    1. アカデミック以外の用途への解放
    ● 以前はInClassコンペという名称で、 Kaggle社員からの許可を得
    ない限りは学校の授業用途に限定されていた
    ● 当時から地域コミュニティによる利用も国内外で散見されてい
    たものの、上記が建前であり少なくとも商用利用などとんでもな
    いという感覚だった
    → 2021/12にCommunityコンペに改称され、Cash Prizeさえ出さなけれ
    ばかなり自由な開催が認められるようになった

    View Slide

  11. コミュニティコンペ機能のアップデート
    2. コンペコピー機能の実装
    および、Visibilityコントロール追加
    ● 一度開催したコンペをコピーして再利用できるようになった
    ● コンペを関係者以外に見えないようにできるようになった
    ○ 以前は招待リンクで参加者の制限自体はできたが、常に
    誰にでも見える状態でしか開催できなかったが、 2023/09の
    アップデートで可能になった

    View Slide

  12. コミュニティコンペ機能のアップデート
    3. ローカルタイムゾーン対応、
    コンペ終了からPrivate公開までにギャップを設定可能に
    ● コンペスケジュールをJSTで入力できるようになったのは地味にめちゃくちゃ助かる
    アップデート

    View Slide

  13. コミュニティコンペ機能のアップデート
    3. Custom Metric対応 (2023/06)
    ● 昔は有償でホストされているコンペで
    しかCustom Metricは設定できなかっ
    たが、2023/06のアップデートでついに
    コミュニティコンペでも利用可能に!
    ● コンペに独自の一味を加えられる良
    いスパイスに!

    View Slide

  14. コミュニティコンペ機能のアップデート
    4. Simulationコンペに一部対応 (2022/12)

    View Slide

  15. コンペ設計のポイント

    View Slide

  16. 適切な評価指標と評価スキーム
    ● 正しい指標に対してモデルを fitできているか?
    ● 何も指定しないと多くのライブラリでは Classificationで
    あればlogloss, RegressionであればRMSEにfitするの
    で、必要に応じて正しく設定する
    ● 課題の構造と相似な形で評価系を構築できて
    いるか?
    ● 典型的にはGroupKFoldやTime Splitなど

    View Slide

  17. データの背景にある課題を捉えられているか?
    地理的な関係性 時系列トレンド/ドリフト
    ● YouTube会員数は経時で大きく増大
    ● APIの仕様も変わっている
    ● 地理的に何が言えるのか?
    ● 埼玉に住むときに何を基準に物件を選ぶか

    View Slide

  18. 過去コンペの学びが次に活きる実感を得られるように
    以前の学びが次に活きるという Aha!を得られるように、少し間を開けて類似コンペを出題する
    例)
    MyAnimeListでコンテンツ参照のシークエンスに対するアプローチを学び、その学びを SpotifyやYoutube
    コンペで活かして定着させる etc.

    View Slide

  19. コンペ出題者のツラみ
    - 特に長期継続の観点から

    View Slide

  20. View Slide

  21. 典型問題ばかり出題していると、私が飽きる
    ● ライセンス的に問題のないコンペに向いたオープンデータは限られており、典型的なものには "ユー
    ザー x コンテンツ = 評価"系のものが多い(その他だと住宅価格、ローンデフォルト予測等)
    ○ MyAnimeList, Spotify, Amazon, YouTube etc.
    ○ これらはKaggle Datasetsにも公開されている上に API経由で追加収集もできる
    ● 以前の学びが次に活きるという Aha!を誘起できる一方で、作る側の飽きは避け難い

    View Slide

  22. 何回かに1回はチャレンジングな出題を試みる
    ● 2021春、2023春にはウェアラブルスーツからのセンサーデータを用いたコンペを実施した。予測対
    象はそれぞれモーションクラスと踊った音楽
    ● Xenoma社製モーションキャプチャスーツを入手し、データセットの作成から実施した

    View Slide

  23. 何回かに1回はチャレンジングな出題を試みる
    ● HAH第2回コンペでは打音からの異常検知コンペを開催
    ● Trainにもほとんどラベルがついていない上に、異常クラスは 2個しかない
    ● LoF, deep-SVDD, one-class-SVMなど教師なしアプローチが用いられた
    https://www.kaggle.com/competitions/hah-data-science-challenge

    View Slide

  24. 何回かに1回はチャレンジングな出題を試みる
    https://www.kaggle.com/competitions/data-science-osaka-autumn-2023
    ● LLMコンペ
    ○ Featuredでちょうど先にやっている
    のでそこからの知見を入れてスコ
    アアップという成功体験
    ● Custom Metricをさっそく利用
    ○ retrieveに部分点を与えることで
    RAGに誘う問題設計
    ● W&Bに関する4択クイズのため、英語 /日
    本語/Pythonが入り混じり、かつ内容が
    新しい情報を多く含む

    View Slide

  25. 丁寧にコンペ設計してもshakeするときは盛大にする
    ホストはこんな感じだと思っていた・・・!
    安全であることの愉悦‥‥!

    View Slide

  26. 丁寧にコンペ設計してもshakeするときは盛大にする
    実際には圧倒的に心配しており、後半はマジで気
    が気でない
    やめろっ!お前が押したら終わりっ!

    View Slide

  27. チーターがごく稀に発生する
    * このcorrelation matrixは実際のシチュエーションに似せて作成したダミーです
    ● 手弁当でやっているコミュニティコンペでもチー
    ターに遭遇することがあり、本当にガッカリする
    ● 各参加者のSolutionの独自性などを見るために
    Correlation matrixをpearsonとspearmanで見てい
    ると、ヒートマップに真っ赤なクラスタが発生する
    ● 調べると所属企業が一緒だったりする
    ● 問い詰めた時の言い訳も Featuredのコンペとだい
    たい一緒
    ○ 「同じサーバで作業していて間違えて他人の
    submission.csvを投稿してしまった」
    ○ ナメるなと言いたい

    View Slide

  28. WandB for Kagglers

    View Slide

  29. W&BはKaggleと親和性抜群!
    https://fullyconnected.jp/
    先日のビッグイベントも登壇者の半数は
    Kaggler!(スポンサーとW&Bを除くと4/8)
    ≈ ≈ ≈ ≈

    View Slide

  30. W&BのKaggle等の趣味利用は無料です!
    https://www.wandb.jp/

    View Slide

  31. Wandb Report Challenge🏆!!
    1
    2
    WandBのReportで作成し、公開
    Wandb JP コミュニティslackチャネル
    #report-shareに作成したReportをshare!
    参加方法
    スターの数とwandbチームの審査を通して、
    2023年最優秀著者には景品 を進呈します

    View Slide

  32. W&Bコミュニティから
    技術書典15に出展予定!
    wandb.me/jp-slack内
    # wandb-community-book
    皆様の寄稿をお待ちしております!
    ● 1ページ (1000字程度) 以上の寄稿
    で著者、それ未満の場合にはコラム
    執筆者としてクレジットさせて頂きま
    す。
    ● その他、W&B特製Tシャツを進呈い
    たします。

    View Slide

  33. W&Bコミュニティ本
    1. イントロダクション
    a. MLOpsからLLMOpsまで
    2. WandBの基本的な使い方
    a. 実験管理
    b. アーティファクト
    c. テーブル
    d. オートメーション
    e. モデルレジストリ
    f. レポート
    3. アドバンストトピックス
    a. Launch on SageMakerによるLLMリーダーボードの自動化
    b. W&B TracesでInstruction Tuning中のモデルに喋らせてみる
    c. Optuna on LaunchでHungry Geeseを多目的最適化する
    d. 画像のセグメンテーションを自動運転を題材にやってみた
    e. W&B rdkit連携で化学構造の変数重要度を可視化する
    4. 活用事例
    a. 寄稿者続々登場!
    *鋭意執筆中のため、上記内容は変更される可能性があります

    View Slide

  34. 今後やりたいこと
    ● かつて、Kaggleの公式ブログNo Free
    Hunchのインタビュー記事に掲載され
    るのが多くのKagglerの憧れだった
    ● Kaggleはもうやらないみたいなので、
    WandBのキュレーションサイトFully
    Connectedで代わりに上位入賞者を
    フィーチャーできないか?
    ○ コンペ中の試行錯誤をダイレクト
    に追跡できる
    ○ wandbグッズならプレゼントでき
    るよ!

    View Slide

  35. Thank you!

    View Slide