Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM Night 〜LLM Ops編〜 ヘルスケアコンパウンドスタートアップにおける生成A...

t-sugai
February 26, 2024

LLM Night 〜LLM Ops編〜 ヘルスケアコンパウンドスタートアップにおける生成AI利活用事例 LLMOpsに向けた取り組みと、 それらを支える全社データ基盤のご紹介

PharmaX社主催イベント
LLM Night 〜LLM Ops編〜

ヘルスケアコンパウンドスタートアップにおける生成AI利活用事例 LLMOpsに向けた取り組みと、
それらを支える全社データ基盤のご紹介

2024年2月29日(木)
菅井 友之(Tomoyuki SUGAI) 株式会社MICIN データエンジニア
硴﨑 裕晃(Hiroaki KAKIZAKI) 株式会社MICIN プロダクトマネージャー

t-sugai

February 26, 2024
Tweet

Other Decks in Technology

Transcript

  1. © 2023 MICIN Inc. 2 Confidential はじめに ヘルスケアスタートアップのMICINは4つの事業と10個以上の本番プロダクトを 展開するコンパウンドスタートアップです。 これらのプロダクト群で効率的なデータ利活⽤を実現し、⽣成AIを⽤いたサービスを

    ユーザーに提供するために全社データ基盤/ML基盤を構築しました。 本LTではこれらのデータ基盤/ML基盤を構築したデータエンジニア、 およびプロダクトマネージャーがその取り組み概要をご紹介させていただきます。
  2. © 2023 MICIN Inc. 3 Confidential ⽬次 1. [1分]⾃⼰紹介 2.

    [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに
  3. © 2023 MICIN Inc. 4 Confidential 1. ⾃⼰紹介 硴﨑 裕晃(Hiroaki

    Kakizaki) リクルートグループのAI研究所Megagon Labs等を経て医療スタートアップのMICIN に参画。2023年4⽉に発表されたChatGPTを⽤いて⽇本の医師国家試験に合格した論 ⽂の共著者。2024年1⽉に公開された⽇本初となるヘルスケア業界向け⾃主基準「ヘ ルスケア⽣成AI活⽤ガイド」主執筆者。現在は保健医療分野における⽣成AI利活⽤事 例に関する厚⽣労働科学特別研究事業の分担研究者も担当している。 菅井 友之(Tomoyuki SUGAI) ソフトウェアエンジニアとして教育系サービスの開発‧運⽤に従事した経験を⽣かし、 2019年からデータエンジニアにキャリアチェンジ。 2022年9⽉に株式会社MICINに⼊ 社。1⼈⽬のデータエンジニアとして全社データ基盤の構築と運⽤を推進している。
  4. © 2023 MICIN Inc. 5 Confidential ⽬次 1. [1分]⾃⼰紹介 2.

    [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに
  5. © 2023 MICIN Inc. 16 Confidential ⽬次 1. [1分]⾃⼰紹介 2.

    [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに
  6. © 2023 MICIN Inc. 17 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅

    • 背景 ◦ 4つの事業、10個以上のプロダクトで効率的にデータ利活⽤がしたい! ◦ 各プロダクトにLLM機能を搭載したい! ◦ 医療業界特有の⾼い要件に対応したデータマネジメントを実現したい! • 課題 ◦ データエンジニアやMLエンジニアのリソースは限られている。 ◦ 数が増えた際の運⽤負荷を考えると個別対応は現実的ではない。 ◦ 医療業界⽔準のデータ取り扱いには多⼤な追加コストがかかる。 • ⽬的 ◦ Data / ML基盤を整備することで、医療業界⽔準を満たした状態のデータマネジメントを実現し、 全事業‧プロダクトに共通したLLM Ops環境を提供する。
  7. © 2023 MICIN Inc. 19 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅

    Data Management LLM Ops Lv 0 何もない 各プロダクトが完全に 独⽴した状態 LLMを使うにも個別対応 になりROIが合わない
  8. © 2023 MICIN Inc. 20 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅

    Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 初期的な構築。 範囲は狭いが事業部⾨に 最低限の効果を感じても らえる状態。
  9. © 2023 MICIN Inc. 21 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅

    Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 Lv 2 対象が拡⼤した データ基盤 初期検証での効果を 踏まえた拡⼤フェーズ。 ⼀定の投資を⾏い、 全社的な活動を進める。
  10. © 2023 MICIN Inc. 22 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅

    Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 Lv 2 対象が拡⼤した データ基盤 Lv 3 データ基盤に ML基盤が実装 データを扱う環境が 構築できたため、 LLMの活⽤に着⼿する。
  11. © 2023 MICIN Inc. 23 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅

    Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 Lv 2 対象が拡⼤した データ基盤 Lv 4 Data /ML 基盤で LLM Opsが実現 Lv 3 データ基盤に ML基盤が実装 LLMを⽤いたサービスを ⾮常に⾼速に検証‧⽴ち上げが可能。 3ヶ⽉で10個のデモプロダクトの 検証が完了。
  12. © 2023 MICIN Inc. 24 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅

    Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 Lv 2 対象が拡⼤した データ基盤 Lv 4 Data /ML 基盤で LLM Opsが実現 Lv 3 データ基盤に ML基盤が実装 我々のチームが⽬指している状態 Lv 5 多数の本番サー ビスでLLM Ops が稼働
  13. © 2023 MICIN Inc. 25 Confidential ⽬次 1. [1分]⾃⼰紹介 2.

    [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに
  14. © 2023 MICIN Inc. 26 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅(再掲)

    • 背景 ◦ 4つの事業、10個以上のプロダクトで効率的にデータ利活⽤がしたい! ◦ 各プロダクトにLLM機能を搭載したい! ◦ 医療業界特有の⾼い要件に対応したデータマネジメントを実現したい! • 課題 ◦ データエンジニアやMLエンジニアのリソースは限られている。 ◦ 数が増えた際の運⽤負荷を考えると個別対応は現実的ではない。 ◦ 医療業界⽔準のデータ取り扱いには多⼤な追加コストがかかる。 • ⽬的 ◦ Data / ML基盤を整備することで、医療業界⽔準を満たした状態のデータマネジメントを実現し、 全事業‧プロダクトに共通したLLM Ops環境を提供する。
  15. © 2023 MICIN Inc. 27 Confidential Data Platform Project /

    GCP 4. Data & ML 基盤のご紹介 Product A Staging ML Platform Project / GCP AI Environment per user and project Product B Product C Intermediate … Component Mart 複数のプロダクト・サービス 多様なデータソース dbt Cloud Run Vertex AI BigQuery BigQuery BigQuery BigQuery BigQuery federated queryで データ参照 dbt with Cloud Run Jobs でパイプライン実装 入り口と出口の部分をしっかり作って、中間 のDWH部分は整備途中
  16. © 2023 MICIN Inc. 28 Confidential 4. Data & ML

    基盤のご紹介 • 各技術選定のポイント ◦ 個⼈情報保護法や当社プライバシーポリシーと適合するか ▪ 必要に応じて個別にDPA契約 ◦ 限られたリソースで求められた結果を提供する ▪ Fivetranの導⼊選定 ▪ データ抽出とマート作成の部分から作り込み、中間のモデリングは最低限 ◦ 将来を⾒据えた打ち⼿ ▪ dbtとGitHubでSQLを管理 • dbtの各種エコシステムに乗ることでデータ品質に関わるアプローチやメ タデータの管理にも対応できる
  17. © 2023 MICIN Inc. 29 Confidential 4. Data & ML

    基盤のご紹介 • ML基盤 ◦ MLエンジニアを護る ▪ アクセス管理‧コスト管理‧リソース管理 ◦ MLエンジニアをチームで強くする ▪ 開発スタイルの標準化 • Vertex AI Workbench を プロジェクト×ユーザーごとにサクッと建てて壊せるよう にTerraformを整備 ◦ プロジェクト×ユーザーのマトリックスでアクセス権やリソースを管理できる
  18. © 2023 MICIN Inc. 30 Confidential 4. Data & ML

    基盤のご紹介 凡事徹底 めちゃくちゃテクいことをやっているというわけではなく、 ひとつひとつをきっちりやりきる
  19. © 2023 MICIN Inc. 31 Confidential ⽬次 1. [1分]⾃⼰紹介 2.

    [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに
  20. © 2023 MICIN Inc. 32 Confidential 5. おわりに • 今後の課題

    ◦ データカタログやメタデータの充実 ▪ 事業部のメンバーが⾃律的にメンテナンスに参加できる状態が理想 ◦ ⾮構造データを⼤量にもっている事業のデータにTry ▪ MICINはビデオ通話や処⽅箋画像などのデータもある ▪ これらはプライバシー対応により気を遣うため、その⽅⾯でも調整中 ◦ データ基盤の純粋進化 ▪ データオブザーバビリティ、データ品質……etc.
  21. © 2023 MICIN Inc. 33 Confidential 5. おわりに • データエンジニアを採⽤中です!

    ◦ データエンジニア/テクノロジーデザイン部 • その他のポジション ◦ MICIN 採⽤情報