Slide 1

Slide 1 text

PharmaX社主催イベント LLM Night 〜LLM Ops編〜 ヘルスケアコンパウンドスタートアップにおける⽣成AI利活⽤事例 LLMOpsに向けた取り組みと、 それらを⽀える全社データ基盤のご紹介 2024年2⽉29⽇(⽊) 菅井 友之(Tomoyuki SUGAI) 株式会社MICIN データエンジニア 硴﨑 裕晃(Hiroaki KAKIZAKI) 株式会社MICIN プロダクトマネージャー

Slide 2

Slide 2 text

© 2023 MICIN Inc. 2 Confidential はじめに ヘルスケアスタートアップのMICINは4つの事業と10個以上の本番プロダクトを 展開するコンパウンドスタートアップです。 これらのプロダクト群で効率的なデータ利活⽤を実現し、⽣成AIを⽤いたサービスを ユーザーに提供するために全社データ基盤/ML基盤を構築しました。 本LTではこれらのデータ基盤/ML基盤を構築したデータエンジニア、 およびプロダクトマネージャーがその取り組み概要をご紹介させていただきます。

Slide 3

Slide 3 text

© 2023 MICIN Inc. 3 Confidential ⽬次 1. [1分]⾃⼰紹介 2. [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに

Slide 4

Slide 4 text

© 2023 MICIN Inc. 4 Confidential 1. ⾃⼰紹介 硴﨑 裕晃(Hiroaki Kakizaki) リクルートグループのAI研究所Megagon Labs等を経て医療スタートアップのMICIN に参画。2023年4⽉に発表されたChatGPTを⽤いて⽇本の医師国家試験に合格した論 ⽂の共著者。2024年1⽉に公開された⽇本初となるヘルスケア業界向け⾃主基準「ヘ ルスケア⽣成AI活⽤ガイド」主執筆者。現在は保健医療分野における⽣成AI利活⽤事 例に関する厚⽣労働科学特別研究事業の分担研究者も担当している。 菅井 友之(Tomoyuki SUGAI) ソフトウェアエンジニアとして教育系サービスの開発‧運⽤に従事した経験を⽣かし、 2019年からデータエンジニアにキャリアチェンジ。 2022年9⽉に株式会社MICINに⼊ 社。1⼈⽬のデータエンジニアとして全社データ基盤の構築と運⽤を推進している。

Slide 5

Slide 5 text

© 2023 MICIN Inc. 5 Confidential ⽬次 1. [1分]⾃⼰紹介 2. [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに

Slide 6

Slide 6 text

© 2023 MICIN Inc. 6 Confidential

Slide 7

Slide 7 text

© 2023 MICIN Inc. 7 Confidential

Slide 8

Slide 8 text

© 2023 MICIN Inc. 8 Confidential

Slide 9

Slide 9 text

© 2023 MICIN Inc. 9 Confidential

Slide 10

Slide 10 text

© 2023 MICIN Inc. 10 Confidential

Slide 11

Slide 11 text

© 2023 MICIN Inc. 11 Confidential

Slide 12

Slide 12 text

© 2023 MICIN Inc. 12 Confidential

Slide 13

Slide 13 text

© 2023 MICIN Inc. 13 Confidential

Slide 14

Slide 14 text

© 2023 MICIN Inc. 14 Confidential

Slide 15

Slide 15 text

© 2023 MICIN Inc. 15 Confidential

Slide 16

Slide 16 text

© 2023 MICIN Inc. 16 Confidential ⽬次 1. [1分]⾃⼰紹介 2. [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに

Slide 17

Slide 17 text

© 2023 MICIN Inc. 17 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅ ● 背景 ○ 4つの事業、10個以上のプロダクトで効率的にデータ利活⽤がしたい! ○ 各プロダクトにLLM機能を搭載したい! ○ 医療業界特有の⾼い要件に対応したデータマネジメントを実現したい! ● 課題 ○ データエンジニアやMLエンジニアのリソースは限られている。 ○ 数が増えた際の運⽤負荷を考えると個別対応は現実的ではない。 ○ 医療業界⽔準のデータ取り扱いには多⼤な追加コストがかかる。 ● ⽬的 ○ Data / ML基盤を整備することで、医療業界⽔準を満たした状態のデータマネジメントを実現し、 全事業‧プロダクトに共通したLLM Ops環境を提供する。

Slide 18

Slide 18 text

© 2023 MICIN Inc. 18 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅ 参考:Hidden Technical Debt in Machine Learning Systems

Slide 19

Slide 19 text

© 2023 MICIN Inc. 19 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅ Data Management LLM Ops Lv 0 何もない 各プロダクトが完全に 独⽴した状態 LLMを使うにも個別対応 になりROIが合わない

Slide 20

Slide 20 text

© 2023 MICIN Inc. 20 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅ Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 初期的な構築。 範囲は狭いが事業部⾨に 最低限の効果を感じても らえる状態。

Slide 21

Slide 21 text

© 2023 MICIN Inc. 21 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅ Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 Lv 2 対象が拡⼤した データ基盤 初期検証での効果を 踏まえた拡⼤フェーズ。 ⼀定の投資を⾏い、 全社的な活動を進める。

Slide 22

Slide 22 text

© 2023 MICIN Inc. 22 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅ Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 Lv 2 対象が拡⼤した データ基盤 Lv 3 データ基盤に ML基盤が実装 データを扱う環境が 構築できたため、 LLMの活⽤に着⼿する。

Slide 23

Slide 23 text

© 2023 MICIN Inc. 23 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅ Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 Lv 2 対象が拡⼤した データ基盤 Lv 4 Data /ML 基盤で LLM Opsが実現 Lv 3 データ基盤に ML基盤が実装 LLMを⽤いたサービスを ⾮常に⾼速に検証‧⽴ち上げが可能。 3ヶ⽉で10個のデモプロダクトの 検証が完了。

Slide 24

Slide 24 text

© 2023 MICIN Inc. 24 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅ Data Management LLM Ops Lv 0 何もない Lv 1 限定された データ基盤 Lv 2 対象が拡⼤した データ基盤 Lv 4 Data /ML 基盤で LLM Opsが実現 Lv 3 データ基盤に ML基盤が実装 我々のチームが⽬指している状態 Lv 5 多数の本番サー ビスでLLM Ops が稼働

Slide 25

Slide 25 text

© 2023 MICIN Inc. 25 Confidential ⽬次 1. [1分]⾃⼰紹介 2. [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに

Slide 26

Slide 26 text

© 2023 MICIN Inc. 26 Confidential 3. LLM Ops 実現に向けたプロジェクトの進め⽅(再掲) ● 背景 ○ 4つの事業、10個以上のプロダクトで効率的にデータ利活⽤がしたい! ○ 各プロダクトにLLM機能を搭載したい! ○ 医療業界特有の⾼い要件に対応したデータマネジメントを実現したい! ● 課題 ○ データエンジニアやMLエンジニアのリソースは限られている。 ○ 数が増えた際の運⽤負荷を考えると個別対応は現実的ではない。 ○ 医療業界⽔準のデータ取り扱いには多⼤な追加コストがかかる。 ● ⽬的 ○ Data / ML基盤を整備することで、医療業界⽔準を満たした状態のデータマネジメントを実現し、 全事業‧プロダクトに共通したLLM Ops環境を提供する。

Slide 27

Slide 27 text

© 2023 MICIN Inc. 27 Confidential Data Platform Project / GCP 4. Data & ML 基盤のご紹介 Product A Staging ML Platform Project / GCP AI Environment per user and project Product B Product C Intermediate … Component Mart 複数のプロダクト・サービス 多様なデータソース dbt Cloud Run Vertex AI BigQuery BigQuery BigQuery BigQuery BigQuery federated queryで データ参照 dbt with Cloud Run Jobs でパイプライン実装 入り口と出口の部分をしっかり作って、中間 のDWH部分は整備途中

Slide 28

Slide 28 text

© 2023 MICIN Inc. 28 Confidential 4. Data & ML 基盤のご紹介 ● 各技術選定のポイント ○ 個⼈情報保護法や当社プライバシーポリシーと適合するか ■ 必要に応じて個別にDPA契約 ○ 限られたリソースで求められた結果を提供する ■ Fivetranの導⼊選定 ■ データ抽出とマート作成の部分から作り込み、中間のモデリングは最低限 ○ 将来を⾒据えた打ち⼿ ■ dbtとGitHubでSQLを管理 ● dbtの各種エコシステムに乗ることでデータ品質に関わるアプローチやメ タデータの管理にも対応できる

Slide 29

Slide 29 text

© 2023 MICIN Inc. 29 Confidential 4. Data & ML 基盤のご紹介 ● ML基盤 ○ MLエンジニアを護る ■ アクセス管理‧コスト管理‧リソース管理 ○ MLエンジニアをチームで強くする ■ 開発スタイルの標準化 ● Vertex AI Workbench を プロジェクト×ユーザーごとにサクッと建てて壊せるよう にTerraformを整備 ○ プロジェクト×ユーザーのマトリックスでアクセス権やリソースを管理できる

Slide 30

Slide 30 text

© 2023 MICIN Inc. 30 Confidential 4. Data & ML 基盤のご紹介 凡事徹底 めちゃくちゃテクいことをやっているというわけではなく、 ひとつひとつをきっちりやりきる

Slide 31

Slide 31 text

© 2023 MICIN Inc. 31 Confidential ⽬次 1. [1分]⾃⼰紹介 2. [2分]MICINのご紹介 3. [3分]LLM Ops 実現に向けたプロジェクトの進め⽅ 4. [4分]Data & ML 基盤のご紹介 5. [2分]おわりに

Slide 32

Slide 32 text

© 2023 MICIN Inc. 32 Confidential 5. おわりに ● 今後の課題 ○ データカタログやメタデータの充実 ■ 事業部のメンバーが⾃律的にメンテナンスに参加できる状態が理想 ○ ⾮構造データを⼤量にもっている事業のデータにTry ■ MICINはビデオ通話や処⽅箋画像などのデータもある ■ これらはプライバシー対応により気を遣うため、その⽅⾯でも調整中 ○ データ基盤の純粋進化 ■ データオブザーバビリティ、データ品質……etc.

Slide 33

Slide 33 text

© 2023 MICIN Inc. 33 Confidential 5. おわりに ● データエンジニアを採⽤中です! ○ データエンジニア/テクノロジーデザイン部 ● その他のポジション ○ MICIN 採⽤情報

Slide 34

Slide 34 text

Thank you. © MICIN Inc. All rights reserved.