Slide 1

Slide 1 text

ビッグデータビジネスによる継続的な 価値創造と⼈材育成 2022/03/05 Takahiro Yoshinaga, LINE Corporation 情報処理学会 第84回全国⼤会

Slide 2

Slide 2 text

Outline • Introduction • What is MLOps? • Why MLOps need? • Case study: Persona Project ü Plan ü Modeling ü Deploy ü Monitoring ü Who needed in Persona Project? • Summary

Slide 3

Slide 3 text

Self Introduction • Takahiro Yoshinaga, Ph.D. • 専⾨: 物理学, データサイエンス・機械学習のビジネス応⽤ • 経歴 ü 2015: 東京⼤学⼤学院理学系研究科物理学専攻博⼠課程修了 Ø 専⾨は素粒⼦理論 ü 2015-2018: 某データ分析コンサルティング会社 Ø Web系・製造業向けのデータサイエンス・機械学習, PM, 技術営業 ü 2018-現在: LINE株式会社 Data Science Center Machine Learning室 Ø Data Scientist → Machine Learning Engineer → Engineering Manager Ø 全社横断的なサービスに対する機械学習プロダクト開発 ü 情報処理学会ビッグデータ研究グループ運営委員

Slide 4

Slide 4 text

Outline • Introduction • What is MLOps? • Why MLOps need? • Case study: Persona Project ü Plan ü Modeling ü Deploy ü Monitoring ü Who needed in Persona Project? • Summary

Slide 5

Slide 5 text

Todayʼs topic MLOps: ビッグデータ・AIビジネスで継続的に価値創造 していくための⽅法論

Slide 6

Slide 6 text

What is MLOps? MLOps = ML + DevOps

Slide 7

Slide 7 text

Why MLOps needs? • 機械学習・AIのコモディティ化 ü ライブラリ・ツールの発展により、機械学習モデルを作るハードルは低く なった ü 機械学習をビジネス適⽤するにあたって、機械学習「以外」の課題に焦点が 当てられるようになってきた • 機械学習モデルは”劣化”する ü 時代・環境の変化によりデータが変化していき、モデルが追従できなくなる ü データ・モデルの変化を監視し、モデル再学習・再開発などの継続的改善・ 運⽤していく仕組み・⽅法論が必要 ビッグデータ・AIによる継続的な価値創造をしていくことにつながる

Slide 8

Slide 8 text

Todayʼs topic • LINEの機械学習プロジェクトの紹介 ü MLOpsのケーススタディ例として、LINEの“Persona Project”を取り上げ、 どのような取り組みがされている・されてきたかを紹介 (⼀部抜粋) • 今後のビッグデータ/AI関連での⼈材育成 ü ケーススタディをもとに、どういった⼈材が必要であるのかを議論したい

Slide 9

Slide 9 text

Outline • Introduction • What is MLOps? • Why MLOps need? • Case study: Persona Project ü Plan ü Modeling ü Deploy ü Monitoring ü Who needed in Persona Project? • Summary

Slide 10

Slide 10 text

Persona Project • “ペルソナ”を機械学習によって推定するシステムを開発するPJ ü ペルソナ: デモグラフィック属性、興味関⼼など ü ユーザーの基本情報としてLINEの各サービスで利⽤されている • 性別: ⼥性 • 年代: 20-24 • 興味: • ⾳楽 • ファッション • 性別: 男性 • 年代: 40-44 • 興味: • ゲーム • エンタメ • 漫画

Slide 11

Slide 11 text

MLOps in Persona PJ Planning & Evangelism Fundamental Analysis Modeling & Evaluation Online Testing Deploy Monitoring

Slide 12

Slide 12 text

MLOps in Persona PJ Planning & Evangelism Fundamental Analysis Modeling & Evaluation Online Testing Deploy Monitoring PM (AI) PM (Biz)

Slide 13

Slide 13 text

Product Management in Persona PJ • 新規カテゴリの企画 ü 事業部との要件整理 ü 正解データ収集のためのアンケート実施 • 既存カテゴリの継続的改善 ü 正解データ更新によるデータ更新・精度向上 ü 精度改善⽅策の⼀つとして、プロダクトの⽴ち位置の再整理も⾏う場合がある ü 広報活動 ü 既存カテゴリの利⽤拡⼤ ü 新規カテゴリの潜在的な需要掘り起こし プロダクトの継続的改善のための戦略⽅針策定・広報活動の実施 PM (AI) PM (Biz)

Slide 14

Slide 14 text

MLOps in Persona PJ Fundamental Analysis Modeling & Evaluation Online Testing Deploy Monitoring Planning & Evangelism AI Eng. (Library) AI Eng. (Model)

Slide 15

Slide 15 text

Machine Learning in LINE ⼤規模データでの機械学習をサポートするフレームワーク開発 Service A Service B Service C … ML model ghee: ⼤規模データ上で分散処理するための内製ライブラリ ghee-models: ghee上でMLモデル構築を⾏う内製ライブラリ AI Eng. (Library)

Slide 16

Slide 16 text

Machine Learning in Persona PJ 内製フレームワークのサポートのもと、継続的に特徴量・モデル改善 Service A Service B Service C Service A Service B Service C Service A Service B Service C … Embedding layer Simple DNN ResNet (CNN) … MLP-mixer (SoTA) … Splitted by service Service dropout AI Eng. (Library) AI Eng. (Model)

Slide 17

Slide 17 text

MLOps in Persona PJ Planning & Evangelism Fundamental Analysis Modeling & Evaluation Online Testing Deploy Monitoring Federation AI Eng. (Library) AI Eng. (Model) Eng. (Biz) Infra Eng.

Slide 18

Slide 18 text

ML Infrastructure in LINE Input data Preprocess Preprocessed data Ground truth Create Dataset Dataset Train model Model Task Infra Eng. Hadoop Cluster (IU) Kubernetes Cluster • Data preprocessing (ETL) • Data postprocessing • Save output data • Preprocess • Distributed ML (Train/Predict) • Postprocess Scheduled by Workflow Engine Controlled by CI/CD tools ⼤規模データ分析・機械学習基盤のもと、継続的運⽤の仕組みが整備

Slide 19

Slide 19 text

Standardization in Persona Project 異なるタスクで似たような実装が増え、開発コストが増⼤していた Input data Preprocess A Preprocessed data A Ground truth A Create Dataset A Dataset A Train model A Model A Preprocess B Preprocessed data B Ground truth B Create Dataset B Dataset B Train model B Model B Preprocess C Preprocessed data C Ground truth C Create Dataset C Dataset C Train model C Model C Task B Task A Task C

Slide 20

Slide 20 text

Standardization in Persona Project Input data Ground truth A Create Dataset A Dataset A Train model A Model A Preprocess Preprocessed data B Ground truth B Create Dataset B Dataset B Train model B Model B Ground truth C Create Dataset C Dataset C Train model C Model C Task B Task A Task C Create Dataset API ghee- models API Utils Felib: Library for Feature Engineering … 共通ライブラリ・パイプラインにより、モデル開発・デプロイ効率向上 Infra Eng. AI Eng. (Library) AI Eng. (Model)

Slide 21

Slide 21 text

MLOps in Persona PJ Planning & Evangelism Fundamental Analysis Modeling & Evaluation Online Testing Deploy Monitoring Infra Eng. PM (AI) AI Eng. (Library/Model)

Slide 22

Slide 22 text

Monitoring in Persona PJ 共通モニタリングシステム (Lupus) により、データやモデルの指標を監視 AI Eng. (Library/Model) Infra Eng. PM (AI) Configure - Metrics 1 - Metrics 2 - … Lupus Server Storage AI Eng. (Library/Model) PM (AI) Lupus AI Eng. (Library/Model) Visualization

Slide 23

Slide 23 text

Who needed in Persona Project? 機械学習以外の様々な役割の専⾨家、および専⾨家との協業が必要 Planning & Evangelism Fundamental Analysis Modeling & Evaluation Online Testing Deploy Monitoring PM (AI) PM (Biz) AI Eng. (Library) AI Eng. (Model) Federation AI Eng. (Library) AI Eng. (Model) Eng. (Biz) Infra Eng. PM (AI) AI Eng. (Library/Model) データサイエンス・AIは プロセスのごく⼀部︕ Analyst Infra Eng. Analyst AI Eng. (Library) AI Eng. (Model)

Slide 24

Slide 24 text

Outline • Introduction • What is MLOps? • Why MLOps need? • Case study: Persona Project ü Plan ü Modeling ü Deploy ü Monitoring ü Who needed in Persona Project? • Summary

Slide 25

Slide 25 text

Summary • ビッグデータ・AIビジネスで継続的に価値創造していく ための考え⽅として、MLOpsを紹介した • LINEのプロジェクトをケーススタディとして、Persona ProjectのMLOpsの取組みを紹介した • データサイエンス・AIは全体のプロセスの⼀部にすぎず、 継続的に価値創造するためには様々なスキルを持った⼈ 材が必要であることがわかった

Slide 26

Slide 26 text

Discussion • データサイエンス・AI単体だけでは⼀部の強者以外は勝負できない世界 になっている ü プロダクト開発の極⼀部で需要が限られている、供給過多 ü ど真ん中で勝負するなら専⾨性を究極的に⾼める努⼒・キャリアを意識しよう • 他分野とデータサイエンス・AIとの掛け算で価値を広げる考え⽅もある ü データサイエンス・AIをコアとするプロダクトを開発・運⽤していくにあたっ て、これらの知⾒を持っているのは価値になる ü データサイエンティスト・AIエンジニア以外でその知⾒を活かすというキャリ アも踏まえて⼈材育成していくことが⼤事 ü 個⼈的には、データサイエンス・AIは道具であり、データサイエンス・AIが浸 透した世界ではそれが⾃然だしそう向かうべきだと考えている