Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[関西Kaggler会 配布版] コミュニティコンペの継続的な開催について

YuyaYAMAMOTO
October 20, 2023

[関西Kaggler会 配布版] コミュニティコンペの継続的な開催について

Kaggleコミュニティコンペの最近の機能アップデートと運営側の工夫と苦労について講演させて頂きました。また、Kaggler向けに便利なWandBの紹介も行いました。

YuyaYAMAMOTO

October 20, 2023
Tweet

Other Decks in Technology

Transcript

  1. Agenda 関西Kaggler会 交流会 in Osaka 2023#3 • 自己紹介 • コミュニティコンペの継続開催

    ◦ コミュニティコンペとは? ◦ コミュニティコンペ機能の進化 ◦ コンペ設計のポイント ◦ コンペの継続ホストの困難な ポ イント • W&B for Kagglers
  2. コミュニティコンペとは? Notebook, Dataset, Discussion, Leaderboard, Custom Metricなどの基本的な コンペ機能 YES YES

    Cash Prizeの可否 No YES Kaggle社による技術/広報 サポート No YES ライブモニタリング機能 No YES Community Featured https://www.kaggle.com/c/about/host
  3. コミュニティコンペとは? Notebook, Dataset, Discussion, Leaderboard, Custom Metricなどの基本的な コンペ機能 YES YES

    Cash Prizeの可否 No YES Kaggle社による技術/広報 サポート No YES ライブモニタリング機能 No YES Community Featured https://www.kaggle.com/c/about/host • コミュニティコンペでも基本的な機能はひと通り揃ってお り、何かが足りなくて困ることはほとんどない • 特にコミュニティコンペ機能は継続的に改良されており、 以前は対応できなかったことも現在では多くがカバーさ れている
  4. 典型問題ばかり出題していると、私が飽きる • ライセンス的に問題のないコンペに向いたオープンデータは限られており、典型的なものには "ユー ザー x コンテンツ = 評価"系のものが多い(その他だと住宅価格、ローンデフォルト予測等) ◦

    MyAnimeList, Spotify, Amazon, YouTube etc. ◦ これらはKaggle Datasetsにも公開されている上に API経由で追加収集もできる • 以前の学びが次に活きるという Aha!を誘起できる一方で、作る側の飽きは避け難い
  5. 何回かに1回はチャレンジングな出題を試みる https://www.kaggle.com/competitions/data-science-osaka-autumn-2023 • LLMコンペ ◦ Featuredでちょうど先にやっている のでそこからの知見を入れてスコ アアップという成功体験 • Custom

    Metricをさっそく利用 ◦ retrieveに部分点を与えることで RAGに誘う問題設計 • W&Bに関する4択クイズのため、英語 /日 本語/Pythonが入り混じり、かつ内容が 新しい情報を多く含む
  6. チーターがごく稀に発生する * このcorrelation matrixは実際のシチュエーションに似せて作成したダミーです • 手弁当でやっているコミュニティコンペでもチー ターに遭遇することがあり、本当にガッカリする • 各参加者のSolutionの独自性などを見るために Correlation

    matrixをpearsonとspearmanで見てい ると、ヒートマップに真っ赤なクラスタが発生する • 調べると所属企業が一緒だったりする • 問い詰めた時の言い訳も Featuredのコンペとだい たい一緒 ◦ 「同じサーバで作業していて間違えて他人の submission.csvを投稿してしまった」 ◦ ナメるなと言いたい
  7. Wandb Report Challenge🏆!! 1 2 WandBのReportで作成し、公開 Wandb JP コミュニティslackチャネル #report-shareに作成したReportをshare!

    参加方法 スターの数とwandbチームの審査を通して、 2023年最優秀著者には景品 を進呈します
  8. W&Bコミュニティから 技術書典15に出展予定! wandb.me/jp-slack内 # wandb-community-book 皆様の寄稿をお待ちしております! • 1ページ (1000字程度) 以上の寄稿

    で著者、それ未満の場合にはコラム 執筆者としてクレジットさせて頂きま す。 • その他、W&B特製Tシャツを進呈い たします。
  9. W&Bコミュニティ本 1. イントロダクション a. MLOpsからLLMOpsまで 2. WandBの基本的な使い方 a. 実験管理 b.

    アーティファクト c. テーブル d. オートメーション e. モデルレジストリ f. レポート 3. アドバンストトピックス a. Launch on SageMakerによるLLMリーダーボードの自動化 b. W&B TracesでInstruction Tuning中のモデルに喋らせてみる c. Optuna on LaunchでHungry Geeseを多目的最適化する d. 画像のセグメンテーションを自動運転を題材にやってみた e. W&B rdkit連携で化学構造の変数重要度を可視化する 4. 活用事例 a. 寄稿者続々登場! *鋭意執筆中のため、上記内容は変更される可能性があります