Slide 1

Slide 1 text

実例で示すKaggleコンペと開発実務の差 「Kaggle Masterとマネージャーが語るAI製品化の舞台裏」より 2024年3月15日 エルピクセル株式会社 髙木 優介

Slide 2

Slide 2 text

CONFIDENTIAL Copyright © LPIXEL Inc. 2 自己紹介 l 名前:髙木 優介 l Xアカウント名:たっかー(@takka__Q) l Kaggle :Q_takka(https://www.kaggle.com/qtakka) l 所属:エルピクセル株式会社 研究開発本部 シニアエンジニア l AI画像診断支援技術のアルゴリズム開発などを行っています l つい最近までSoftware Design誌にて「画像解析AIの作り方」連載してました l Kaggle Competitions Master l 最近は医療・ライフサイエンス系の画像コンペにソロで参加することが多い l 無課金Master

Slide 3

Slide 3 text

CONFIDENTIAL Copyright © LPIXEL Inc. 3 Kaggleは実務の役に立つ?? X(旧Twitter)上では定期的にKaggleは役に立つ / 立たない論争が起こる l 「月刊Kaggleは役に立たない」とか言われていたり 果たしてKaggleは役に立つのだろうか・・・🤔 個人的に感じるKaggleと実務の違いについてフォーカス

Slide 4

Slide 4 text

CONFIDENTIAL Copyright © LPIXEL Inc. 4 前提の話 データサイエンティスト(機械学習エンジニア)の仕事を大きく分けると l (大量の)データの分析を行い、何かしらの知見を抽出しビジネスに活かす l データマイニング・コンサルティング l 機械学習モデルを使用したプロダクトの性能向上・機能追加 医療AI開発は後者がほとんど エルピクセルの機械学習エンジニアも後者(なので今日の話も後者が前提)

Slide 5

Slide 5 text

CONFIDENTIAL Copyright © LPIXEL Inc. 5 Kaggleについて l Kaggleは以下のような特徴がある l 主催者(企業や研究機関など)が課題内容・データ・評価指標を用意し、参加者はその条件内 で性能を競い合う l コンペティションの開催期間は2〜4ヶ月 l テストデータは2種類存在 l コンペ期間中の評価に使用されるpublicデータ l コンペ終了後の評価に使用されるprivateデータ l 最近は推論を行うコードを提出する形式が多い l 最終順位はprivateデータでの数値で決定

Slide 6

Slide 6 text

CONFIDENTIAL Copyright © LPIXEL Inc. 6 Kaggleと実務:Kaggleの取り組み方 ベースラインの 作成 過去コンペや文献を 調査しつつ 性能向上のための アイデアを試行錯誤 アンサンブルなど 最後の仕上げ 完成! コンペ内容・データ 評価指標の確認

Slide 7

Slide 7 text

CONFIDENTIAL Copyright © LPIXEL Inc. 7 Kaggleと実務:実務の取り組み方 ベースラインの 作成 過去コンペや文献を 調査しつつ 性能向上のための アイデアを試行錯誤 アンサンブルなど 最後の仕上げ 完成! プロジェクト内容 データ 評価方法の確認

Slide 8

Slide 8 text

CONFIDENTIAL Copyright © LPIXEL Inc. 8 Kaggleと実務 流れはとても似ている! どちらも機械学習モデル構築をするのでそれはそう

Slide 9

Slide 9 text

CONFIDENTIAL Copyright © LPIXEL Inc. 9 Kaggleと実務の違い 1. プロジェクト企画 2. データセットやアノテーションの自由度 3. 製品化する上での制約

Slide 10

Slide 10 text

CONFIDENTIAL Copyright © LPIXEL Inc. 10 Kaggleと実務の違い 1. プロジェクト企画 2. データセットやアノテーションの自由度 3. 製品化する上での制約

Slide 11

Slide 11 text

CONFIDENTIAL Copyright © LPIXEL Inc. 11 Kaggleと実務の違い 〜プロジェクト企画〜 Kaggleでは主催者が決めた課題内容に取り組む 実務では プロジェクトで何をするのか から自社で決める 実務では・・・ l 既存製品の性能改善、新機能追加 l 新製品の検討・作成 l PoC(概念実証)の実施 エンジニアが1から企画に関わることは少ないかもしれないが、どのようなアルゴリズムで あれば実現可能かを提案し、より良いものを作ることが大切

Slide 12

Slide 12 text

CONFIDENTIAL Copyright © LPIXEL Inc. 12 Kaggleと実務の違い 1. プロジェクト企画 2. データセットやアノテーションの自由度 3. 製品化する上での制約

Slide 13

Slide 13 text

CONFIDENTIAL Copyright © LPIXEL Inc. 13 Kaggleと実務の違い 〜データセット・アノテーション〜 Kaggleでは主催者が用意したデータセットやアノテーションを使用 実務では自前でデータセットやアノテーションを作成可能 実務では・・・ l 特定のデータを収集して性能向上 l 苦手なデータ、珍しいデータ l 新しいアノテーションを追加をして新たな手法を取り入れる l 既存のデータセットのスクリーニング アルゴリズム側だけでなく、データ側もブラッシュアップ可能

Slide 14

Slide 14 text

CONFIDENTIAL Copyright © LPIXEL Inc. 14 Kaggleと実務の違い 1. プロジェクト企画 2. データセットやアノテーションの自由度 3. 製品化する上での制約

Slide 15

Slide 15 text

CONFIDENTIAL Copyright © LPIXEL Inc. 15 Kaggleと実務の違い 〜製品化する上での制約〜 Kaggleは推論時にGPUありで9時間以内に推論が完了すればOKなケースが多い 製品化を考えるとそこまでの時間的・計算リソース的な余裕はない場合が多い 実務では・・・ l 推論はCPUのみで1分以内 のような制約 l たくさんのモデルは使えない l リアルタイム推論が必要な状況 初めから制約を考慮しつつ高性能なモデルを作成する必要

Slide 16

Slide 16 text

CONFIDENTIAL Copyright © LPIXEL Inc. 16 ちなみに・・・(その1) モデル構築の部分はkaggleが役に立つ 医療AIは機械学習プロダクトとして性能を求められ、それが製品価値になるケース がほとんど → 強いモデルを作ることができるとそれだけでアドバンテージとなる

Slide 17

Slide 17 text

CONFIDENTIAL Copyright © LPIXEL Inc. 17 ちなみに・・・(その2) Kaggleでたまに用いられる以下のようなものは実務では使い物にならない l テストセットの情報を使ってモデルを最適化する系手法 l LB Probingも含む l 評価指標ハック l そもそもハックできるような評価指標を使ってはいけない

Slide 18

Slide 18 text

CONFIDENTIAL Copyright © LPIXEL Inc. 18 まとめ l Kaggleと実務ではモデル構築の周辺部分において求められることが 異なる l 実務では製品化を目指す → モデル構築の部分だけではなくその周辺のことも柔軟に考える必要