Slide 1

Slide 1 text

1 コミュニティコンペの継続的な開催 について Yuya Yamamoto (ID: nejumi) 関西Kaggler会 交流会 in Osaka 2023#3

Slide 2

Slide 2 text

Agenda 関西Kaggler会 交流会 in Osaka 2023#3 ● 自己紹介 ● コミュニティコンペの継続開催 ○ コミュニティコンペとは? ○ コミュニティコンペ機能の進化 ○ コンペ設計のポイント ○ コンペの継続ホストの困難な ポ イント ● W&B for Kagglers

Slide 3

Slide 3 text

自己紹介

Slide 4

Slide 4 text

自己紹介 プレイヤーとしての参 加は最近なかなかで きていない これらのachievementは主 にCommunityコンペをホ ストしてきたのが理由

Slide 5

Slide 5 text

過去にホストしたコミュニティコンペ一覧 ● 地域コミュニティ向けコンペ (HAH, 関西Kaggler会) ● お付き合いのある会社の社内勉強会向けコンペ ● ML教育プログラムの一部としてのコンペ ● Partner Certificationプログラムの一部としてのコンペ ● etc. *これ以外にSIGNATEでも複 数のプライベートコンペをホ ストしている

Slide 6

Slide 6 text

https://hiranomachi-ah.studio.site/posts/kaggle_2nd 過去にホストしたコミュニティコンペの例

Slide 7

Slide 7 text

コミュニティコンペについて https://www.kaggle.com/discussions/competition-hosting

Slide 8

Slide 8 text

コミュニティコンペとは? Notebook, Dataset, Discussion, Leaderboard, Custom Metricなどの基本的な コンペ機能 YES YES Cash Prizeの可否 No YES Kaggle社による技術/広報 サポート No YES ライブモニタリング機能 No YES Community Featured https://www.kaggle.com/c/about/host

Slide 9

Slide 9 text

コミュニティコンペとは? Notebook, Dataset, Discussion, Leaderboard, Custom Metricなどの基本的な コンペ機能 YES YES Cash Prizeの可否 No YES Kaggle社による技術/広報 サポート No YES ライブモニタリング機能 No YES Community Featured https://www.kaggle.com/c/about/host ● コミュニティコンペでも基本的な機能はひと通り揃ってお り、何かが足りなくて困ることはほとんどない ● 特にコミュニティコンペ機能は継続的に改良されており、 以前は対応できなかったことも現在では多くがカバーさ れている

Slide 10

Slide 10 text

コミュニティコンペ機能のアップデート 1. アカデミック以外の用途への解放 ● 以前はInClassコンペという名称で、 Kaggle社員からの許可を得 ない限りは学校の授業用途に限定されていた ● 当時から地域コミュニティによる利用も国内外で散見されてい たものの、上記が建前であり少なくとも商用利用などとんでもな いという感覚だった → 2021/12にCommunityコンペに改称され、Cash Prizeさえ出さなけれ ばかなり自由な開催が認められるようになった

Slide 11

Slide 11 text

コミュニティコンペ機能のアップデート 2. コンペコピー機能の実装 および、Visibilityコントロール追加 ● 一度開催したコンペをコピーして再利用できるようになった ● コンペを関係者以外に見えないようにできるようになった ○ 以前は招待リンクで参加者の制限自体はできたが、常に 誰にでも見える状態でしか開催できなかったが、 2023/09の アップデートで可能になった

Slide 12

Slide 12 text

コミュニティコンペ機能のアップデート 3. ローカルタイムゾーン対応、 コンペ終了からPrivate公開までにギャップを設定可能に ● コンペスケジュールをJSTで入力できるようになったのは地味にめちゃくちゃ助かる アップデート

Slide 13

Slide 13 text

コミュニティコンペ機能のアップデート 3. Custom Metric対応 (2023/06) ● 昔は有償でホストされているコンペで しかCustom Metricは設定できなかっ たが、2023/06のアップデートでついに コミュニティコンペでも利用可能に! ● コンペに独自の一味を加えられる良 いスパイスに!

Slide 14

Slide 14 text

コミュニティコンペ機能のアップデート 4. Simulationコンペに一部対応 (2022/12)

Slide 15

Slide 15 text

コンペ設計のポイント

Slide 16

Slide 16 text

適切な評価指標と評価スキーム ● 正しい指標に対してモデルを fitできているか? ● 何も指定しないと多くのライブラリでは Classificationで あればlogloss, RegressionであればRMSEにfitするの で、必要に応じて正しく設定する ● 課題の構造と相似な形で評価系を構築できて いるか? ● 典型的にはGroupKFoldやTime Splitなど

Slide 17

Slide 17 text

データの背景にある課題を捉えられているか? 地理的な関係性 時系列トレンド/ドリフト ● YouTube会員数は経時で大きく増大 ● APIの仕様も変わっている ● 地理的に何が言えるのか? ● 埼玉に住むときに何を基準に物件を選ぶか

Slide 18

Slide 18 text

過去コンペの学びが次に活きる実感を得られるように 以前の学びが次に活きるという Aha!を得られるように、少し間を開けて類似コンペを出題する 例) MyAnimeListでコンテンツ参照のシークエンスに対するアプローチを学び、その学びを SpotifyやYoutube コンペで活かして定着させる etc.

Slide 19

Slide 19 text

コンペ出題者のツラみ - 特に長期継続の観点から

Slide 20

Slide 20 text

No content

Slide 21

Slide 21 text

典型問題ばかり出題していると、私が飽きる ● ライセンス的に問題のないコンペに向いたオープンデータは限られており、典型的なものには "ユー ザー x コンテンツ = 評価"系のものが多い(その他だと住宅価格、ローンデフォルト予測等) ○ MyAnimeList, Spotify, Amazon, YouTube etc. ○ これらはKaggle Datasetsにも公開されている上に API経由で追加収集もできる ● 以前の学びが次に活きるという Aha!を誘起できる一方で、作る側の飽きは避け難い

Slide 22

Slide 22 text

何回かに1回はチャレンジングな出題を試みる ● 2021春、2023春にはウェアラブルスーツからのセンサーデータを用いたコンペを実施した。予測対 象はそれぞれモーションクラスと踊った音楽 ● Xenoma社製モーションキャプチャスーツを入手し、データセットの作成から実施した

Slide 23

Slide 23 text

何回かに1回はチャレンジングな出題を試みる ● HAH第2回コンペでは打音からの異常検知コンペを開催 ● Trainにもほとんどラベルがついていない上に、異常クラスは 2個しかない ● LoF, deep-SVDD, one-class-SVMなど教師なしアプローチが用いられた https://www.kaggle.com/competitions/hah-data-science-challenge

Slide 24

Slide 24 text

何回かに1回はチャレンジングな出題を試みる https://www.kaggle.com/competitions/data-science-osaka-autumn-2023 ● LLMコンペ ○ Featuredでちょうど先にやっている のでそこからの知見を入れてスコ アアップという成功体験 ● Custom Metricをさっそく利用 ○ retrieveに部分点を与えることで RAGに誘う問題設計 ● W&Bに関する4択クイズのため、英語 /日 本語/Pythonが入り混じり、かつ内容が 新しい情報を多く含む

Slide 25

Slide 25 text

丁寧にコンペ設計してもshakeするときは盛大にする ホストはこんな感じだと思っていた・・・! 安全であることの愉悦‥‥!

Slide 26

Slide 26 text

丁寧にコンペ設計してもshakeするときは盛大にする 実際には圧倒的に心配しており、後半はマジで気 が気でない やめろっ!お前が押したら終わりっ!

Slide 27

Slide 27 text

チーターがごく稀に発生する * このcorrelation matrixは実際のシチュエーションに似せて作成したダミーです ● 手弁当でやっているコミュニティコンペでもチー ターに遭遇することがあり、本当にガッカリする ● 各参加者のSolutionの独自性などを見るために Correlation matrixをpearsonとspearmanで見てい ると、ヒートマップに真っ赤なクラスタが発生する ● 調べると所属企業が一緒だったりする ● 問い詰めた時の言い訳も Featuredのコンペとだい たい一緒 ○ 「同じサーバで作業していて間違えて他人の submission.csvを投稿してしまった」 ○ ナメるなと言いたい

Slide 28

Slide 28 text

WandB for Kagglers

Slide 29

Slide 29 text

W&BはKaggleと親和性抜群! https://fullyconnected.jp/ 先日のビッグイベントも登壇者の半数は Kaggler!(スポンサーとW&Bを除くと4/8) ≈ ≈ ≈ ≈

Slide 30

Slide 30 text

W&BのKaggle等の趣味利用は無料です! https://www.wandb.jp/

Slide 31

Slide 31 text

Wandb Report Challenge🏆!! 1 2 WandBのReportで作成し、公開 Wandb JP コミュニティslackチャネル #report-shareに作成したReportをshare! 参加方法 スターの数とwandbチームの審査を通して、 2023年最優秀著者には景品 を進呈します

Slide 32

Slide 32 text

W&Bコミュニティから 技術書典15に出展予定! wandb.me/jp-slack内 # wandb-community-book 皆様の寄稿をお待ちしております! ● 1ページ (1000字程度) 以上の寄稿 で著者、それ未満の場合にはコラム 執筆者としてクレジットさせて頂きま す。 ● その他、W&B特製Tシャツを進呈い たします。

Slide 33

Slide 33 text

W&Bコミュニティ本 1. イントロダクション a. MLOpsからLLMOpsまで 2. WandBの基本的な使い方 a. 実験管理 b. アーティファクト c. テーブル d. オートメーション e. モデルレジストリ f. レポート 3. アドバンストトピックス a. Launch on SageMakerによるLLMリーダーボードの自動化 b. W&B TracesでInstruction Tuning中のモデルに喋らせてみる c. Optuna on LaunchでHungry Geeseを多目的最適化する d. 画像のセグメンテーションを自動運転を題材にやってみた e. W&B rdkit連携で化学構造の変数重要度を可視化する 4. 活用事例 a. 寄稿者続々登場! *鋭意執筆中のため、上記内容は変更される可能性があります

Slide 34

Slide 34 text

今後やりたいこと ● かつて、Kaggleの公式ブログNo Free Hunchのインタビュー記事に掲載され るのが多くのKagglerの憧れだった ● Kaggleはもうやらないみたいなので、 WandBのキュレーションサイトFully Connectedで代わりに上位入賞者を フィーチャーできないか? ○ コンペ中の試行錯誤をダイレクト に追跡できる ○ wandbグッズならプレゼントでき るよ!

Slide 35

Slide 35 text

Thank you!