How to start MLOps

MLOpsのはじめ方 2021/04/15 shibui yusuke

自己紹介 shibui yusuke • 自動運転スタートアップのティアフォー所属 • MLOpsエンジニア & インフラエンジニア &
データエンジニア • もともとクラウド基盤の開発、運用。 • ここ5年くらいMLOpsで仕事。 • Github: @shibuiwilliam • Qiita: @cvusk • FB: yusuke.shibui • 最近やってること: FlutterとIstio cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知

CatOps! 放置しているとネコに椅子を奪われる。ネコ障害対応（餌、遊ぶ）。「遊ぶ」を自動化する。椅子に座っていてもハンズフリーで遊べる。 day 奪わ
れ回数ハンズフリー導入飽き始める Dev Data-driven 3 Ops

今日話すこと 1. これまでの機械学習プロジェクトの経験（ 5年くらい）から、発生する課題と打開策を説明 2. 機械学習にDevOpsの方法論を応用してプロダクトにインパクトを与える方針を解説今日話さないこと 1. 機械学習のアルゴリズム、開発方法、基盤の作り方、ライブラリの使い方

なぜ機械学習にDevOpsが必要か

• 機械学習の有用性を試す PoCから次の段階に行くためには機械学習の DevOpsが必要 • 機械学習を含むプロダクトの価値を継続的に引き出すのが MLOps 0->1の次を目指す PoCの数々ようやく成功した
プロダクト成長するにはなにが足りない？ →ビジネス指標から機械学習を評価する →機械学習だけにフォーカスしない

最近の機械学習界隈の状況 • モデル開発から利用へデータ収集学習デプロイ利用

機械学習を使ったプロダクト例画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知登録情報から違反をフィルタリング
入力情報から入力補助超解像による画質改善ねこ検索協調フィルタリングやランク学習による並べ替えあるコンテンツ登録アプリ画像分類と検索

機械学習を使ったプロダクトの評価例画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知登録情報から違反をフィルタリング
入力情報から入力補助超解像による画質改善ねこ検索協調フィルタリングやランク学習による並べ替えあるコンテンツ登録アプリ画像分類と検索 Accuracy, Precision, Recall →間違って表示される違反コンテンツと、非表示にされる正常コンテンツの比率 Precision, Recall, nDCG →検索数、CTR、コンバージョン率、レスポンスタイム、 etc MSE, MAE →コンテンツの滞在時間、 CTR、いいね数、 etc

機械学習と仕組みと事業のライフサイクルコンバージョンコンバージョン率クリック数クリック率表示回数検索数レイテンシー協調フィルタリングランク学習等
リアルタイム初期：数ヶ月更新：数日〜初期：数ヶ月更新：数週間〜データ実行システム

課題

機械学習で解決する課題と発生する課題 • 解決する課題：データに基いた自動化により、人間の一部の作業を代替する ◦ 適切な検索結果や商品を上方に表示する、違反行為を検知する、等々 • 発生する課題：機械学習でプロダクトにインパクトを与えるためのワークフローとシステム ◦ 機械学習のためのCI/CD、A/Bテスト、フィードバックループデータ収集
前処理評価利用学習ビルドフィードバックデプロイ A/Bテストロギング

プロダクトを改善できない • 推論システムをリリースしても推論結果を評価してモデルを改善していないケースは多いデータ収集学習デプロイ利用

ワークフローを作れない • タスク間を繋げる仕組みや文化を作ることができず、個々のプログラムが非連続に存在するデータ収集前処理評価利用学習ビルドフィードバック
デプロイ A/Bテストロギング

組織的な壁 • 機械学習は機械学習だけではない　 →　関係チームも多い https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf

組織的な壁（諸説あり） infrastructure engineer, SRE PM ??? ML engineer, data scientist
backend engineer data engineer test engineer, QA engineer

MLOpsのはじめ方

Good • プロダクトの課題からはじめる • 評価からはじめる • リリースからはじめる Bad • 機械学習からはじめる
• 汎用基盤からはじめる • 技術的な課題からはじめる Issueからはじめる

モデルをリリースして効果を記録する協調フィルタリングランク学習等 time metrics 導入コンバージョンコンバージョン率クリック数クリック率
表示回数検索数レイテンシー

アンチパターン：アサインはリリースまでデータ収集前処理評価利用学習ビルドフィードバックデプロイ A/Bテスト
ロギング PM ML engineer Backend engineer ? engineer リリース！

機械学習の価値を評価する time metrics 導入上がっている場合： 1. 維持、改善 2. 新たな施策の導入下がっている場合：
1. 別モデルの開発 2. 停止判断コンバージョン検索数 before ML latency after ML before ML CTR after ML 新モデル改善リソース増強

複数のモデルをリリースする time metrics 導入導入現新コンバージョン検索数 before
ML latency after ML before ML CTR after ML latencyを改善するモデル

アンチパターン：リリース基準がない新機械学習の基準システムの基準セキュリティの基準 Precision MAE nDCG Accuracy F-score
RMSE ログ監視テスト網羅率負荷遅延コストの基準・・・切り戻す基準

複数のモデルを比較する time metrics 導入導入 - このリスクを回避したい - 長期的に比較したい現
コンバージョン検索数新

カナリアリリースとA/Bテストを実施する現現：90%アクセス新：10%アクセス 90% 10% group A CTR 新
group B

素早くモデルを増やす現現：50%アクセス新：45%アクセス v2：5%アクセス 50% 45% v1 v2 v3
モデル開発の技術的負債を解消する新 5%

アンチパターン：機械学習だけ更新するねこ v1 v2 v3 ・・・汎用的に使えるモデル動物の検索に有効 20代ユーザに有効同じUI/UX
効果ある？

スケールさせるために基盤と自動化する

まとめ

まとめ • 機械学習の価値を測るためには貢献しようとしているビジネス価値の数値化が必要。 • プロダクトの評価から機械学習を改善する。その逆ではない。 • 機械学習が価値を出しているからこそ研究開発や基盤が必要。その逆ではない。

出版します！ • AIエンジニアのための機械学習システムデザインパターン • 2021年5月17日出版 • https://www.amazon.co.jp/dp/4798169447/

How to start MLOps

How to start MLOps

shibuiwilliam

More Decks by shibuiwilliam

Other Decks in Technology

Featured

Transcript

MLOpsのはじめ方 2021/04/15 shibui yusuke

自己紹介 shibui yusuke • 自動運転スタートアップのティアフォー所属 • MLOpsエンジニア & インフラエンジニア &

CatOps! 放置しているとネコに椅子を奪われる。ネコ障害対応（餌、遊ぶ）。「遊ぶ」を自動化する。椅子に座っていてもハンズフリーで遊べる。 day 奪わ

なぜ機械学習にDevOpsが必要か

• 機械学習の有用性を試す PoCから次の段階に行くためには機械学習の DevOpsが必要 • 機械学習を含むプロダクトの価値を継続的に引き出すのが MLOps 0->1の次を目指す PoCの数々ようやく成功した

最近の機械学習界隈の状況 • モデル開発から利用へデータ収集学習デプロイ利用

機械学習を使ったプロダクト例画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知登録情報から違反をフィルタリング

機械学習を使ったプロダクトの評価例画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知登録情報から違反をフィルタリング

機械学習と仕組みと事業のライフサイクルコンバージョンコンバージョン率クリック数クリック率表示回数検索数レイテンシー協調フィルタリングランク学習等

課題

プロダクトを改善できない • 推論システムをリリースしても推論結果を評価してモデルを改善していないケースは多いデータ収集学習デプロイ利用

ワークフローを作れない • タスク間を繋げる仕組みや文化を作ることができず、個々のプログラムが非連続に存在するデータ収集前処理評価利用学習ビルドフィードバック

組織的な壁 • 機械学習は機械学習だけではない　 →　関係チームも多い https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf

組織的な壁（諸説あり） infrastructure engineer, SRE PM ??? ML engineer, data scientist

MLOpsのはじめ方

Good • プロダクトの課題からはじめる • 評価からはじめる • リリースからはじめる Bad • 機械学習からはじめる

モデルをリリースして効果を記録する協調フィルタリングランク学習等 time metrics 導入コンバージョンコンバージョン率クリック数クリック率

アンチパターン：アサインはリリースまでデータ収集前処理評価利用学習ビルドフィードバックデプロイ A/Bテスト

機械学習の価値を評価する time metrics 導入上がっている場合： 1. 維持、改善 2. 新たな施策の導入下がっている場合：

複数のモデルをリリースする time metrics 導入導入現新コンバージョン検索数 before

アンチパターン：リリース基準がない新機械学習の基準システムの基準セキュリティの基準 Precision MAE nDCG Accuracy F-score

複数のモデルを比較する time metrics 導入導入 - このリスクを回避したい - 長期的に比較したい現

カナリアリリースとA/Bテストを実施する現現：90%アクセス新：10%アクセス 90% 10% group A CTR 新

素早くモデルを増やす現現：50%アクセス新：45%アクセス v2：5%アクセス 50% 45% v1 v2 v3

アンチパターン：機械学習だけ更新するねこ v1 v2 v3 ・・・汎用的に使えるモデル動物の検索に有効 20代ユーザに有効同じUI/UX

スケールさせるために基盤と自動化する

まとめ

出版します！ • AIエンジニアのための機械学習システムデザインパターン • 2021年5月17日出版 • https://www.amazon.co.jp/dp/4798169447/