Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LPIXEL_CADDi_イベント資料

Yusuke-Takagi-Q
March 25, 2024
550

 LPIXEL_CADDi_イベント資料

LPIXEL_CADDiのイベントで使用した資料です。
タイトル「実例で示すKaggleコンペと開発実務の差」

Yusuke-Takagi-Q

March 25, 2024
Tweet

Transcript

  1. CONFIDENTIAL Copyright © LPIXEL Inc. 2 自己紹介 l 名前:髙木 優介

    l Xアカウント名:たっかー(@takka__Q) l Kaggle :Q_takka(https://www.kaggle.com/qtakka) l 所属:エルピクセル株式会社 研究開発本部 シニアエンジニア l AI画像診断支援技術のアルゴリズム開発などを行っています l つい最近までSoftware Design誌にて「画像解析AIの作り方」連載してました l Kaggle Competitions Master l 最近は医療・ライフサイエンス系の画像コンペにソロで参加することが多い l 無課金Master
  2. CONFIDENTIAL Copyright © LPIXEL Inc. 3 Kaggleは実務の役に立つ?? X(旧Twitter)上では定期的にKaggleは役に立つ / 立たない論争が起こる

    l 「月刊Kaggleは役に立たない」とか言われていたり 果たしてKaggleは役に立つのだろうか・・・🤔 個人的に感じるKaggleと実務の違いについてフォーカス
  3. CONFIDENTIAL Copyright © LPIXEL Inc. 4 前提の話 データサイエンティスト(機械学習エンジニア)の仕事を大きく分けると l (大量の)データの分析を行い、何かしらの知見を抽出しビジネスに活かす

    l データマイニング・コンサルティング l 機械学習モデルを使用したプロダクトの性能向上・機能追加 医療AI開発は後者がほとんど エルピクセルの機械学習エンジニアも後者(なので今日の話も後者が前提)
  4. CONFIDENTIAL Copyright © LPIXEL Inc. 5 Kaggleについて l Kaggleは以下のような特徴がある l

    主催者(企業や研究機関など)が課題内容・データ・評価指標を用意し、参加者はその条件内 で性能を競い合う l コンペティションの開催期間は2〜4ヶ月 l テストデータは2種類存在 l コンペ期間中の評価に使用されるpublicデータ l コンペ終了後の評価に使用されるprivateデータ l 最近は推論を行うコードを提出する形式が多い l 最終順位はprivateデータでの数値で決定
  5. CONFIDENTIAL Copyright © LPIXEL Inc. 6 Kaggleと実務:Kaggleの取り組み方 ベースラインの 作成 過去コンペや文献を

    調査しつつ 性能向上のための アイデアを試行錯誤 アンサンブルなど 最後の仕上げ 完成! コンペ内容・データ 評価指標の確認
  6. CONFIDENTIAL Copyright © LPIXEL Inc. 7 Kaggleと実務:実務の取り組み方 ベースラインの 作成 過去コンペや文献を

    調査しつつ 性能向上のための アイデアを試行錯誤 アンサンブルなど 最後の仕上げ 完成! プロジェクト内容 データ 評価方法の確認
  7. CONFIDENTIAL Copyright © LPIXEL Inc. 9 Kaggleと実務の違い 1. プロジェクト企画 2.

    データセットやアノテーションの自由度 3. 製品化する上での制約
  8. CONFIDENTIAL Copyright © LPIXEL Inc. 10 Kaggleと実務の違い 1. プロジェクト企画 2.

    データセットやアノテーションの自由度 3. 製品化する上での制約
  9. CONFIDENTIAL Copyright © LPIXEL Inc. 11 Kaggleと実務の違い 〜プロジェクト企画〜 Kaggleでは主催者が決めた課題内容に取り組む 実務では

    プロジェクトで何をするのか から自社で決める 実務では・・・ l 既存製品の性能改善、新機能追加 l 新製品の検討・作成 l PoC(概念実証)の実施 エンジニアが1から企画に関わることは少ないかもしれないが、どのようなアルゴリズムで あれば実現可能かを提案し、より良いものを作ることが大切
  10. CONFIDENTIAL Copyright © LPIXEL Inc. 12 Kaggleと実務の違い 1. プロジェクト企画 2.

    データセットやアノテーションの自由度 3. 製品化する上での制約
  11. CONFIDENTIAL Copyright © LPIXEL Inc. 13 Kaggleと実務の違い 〜データセット・アノテーション〜 Kaggleでは主催者が用意したデータセットやアノテーションを使用 実務では自前でデータセットやアノテーションを作成可能

    実務では・・・ l 特定のデータを収集して性能向上 l 苦手なデータ、珍しいデータ l 新しいアノテーションを追加をして新たな手法を取り入れる l 既存のデータセットのスクリーニング アルゴリズム側だけでなく、データ側もブラッシュアップ可能
  12. CONFIDENTIAL Copyright © LPIXEL Inc. 14 Kaggleと実務の違い 1. プロジェクト企画 2.

    データセットやアノテーションの自由度 3. 製品化する上での制約
  13. CONFIDENTIAL Copyright © LPIXEL Inc. 15 Kaggleと実務の違い 〜製品化する上での制約〜 Kaggleは推論時にGPUありで9時間以内に推論が完了すればOKなケースが多い 製品化を考えるとそこまでの時間的・計算リソース的な余裕はない場合が多い

    実務では・・・ l 推論はCPUのみで1分以内 のような制約 l たくさんのモデルは使えない l リアルタイム推論が必要な状況 初めから制約を考慮しつつ高性能なモデルを作成する必要
  14. CONFIDENTIAL Copyright © LPIXEL Inc. 18 まとめ l Kaggleと実務ではモデル構築の周辺部分において求められることが 異なる

    l 実務では製品化を目指す → モデル構築の部分だけではなくその周辺のことも柔軟に考える必要