Step-by-step MLOps v1.2

Slide 1

Slide 1 text

Step-by-step MLOps v1.2 Shunta Ito (CSA) Kohei Ogawa (CSA) Keita Onabuta (FTA)

Slide 10

Slide 10 text

成熟度モデル https://docs.microsoft.com/ja-JP/azure/architecture/example-scenario/mlops/mlops-maturity-model https://techcommunity.microsoft.com/t5/ai-machine-learning-blog/mlops-maturity-model-with-azure-machine-learning/ba-p/3520625 Level 概要技術文化 Level 0 No MLOps • 機械学習モデルのライフサイクル全体を管理することは困難 • チームは別々で、リリースは困難 • ほとんどのシステムは "ブラックボックス " として存在し、デプロイ時およびデプロイ後のフィードバックはほとんどなし • 手動によるビルドとデプロイ • モデルおよびアプリケーションの手動によるテスト • モデルのパフォーマンスの一元的追跡なしモデル学習は手動 • まず動くものを作り上げ、スモールスタートでプロジェクトを推進する Level 1 DevOps no MLOps • Level 0 よりもリリースの苦労は少ないが、新しいモデルごとにデータチームに依存 • 運用段階でのモデルのパフォーマンスに関するフィードバックは依然として限られる • 結果の追跡および再現が困難 • 自動ビルド • アプリケーションコードの自動テスト • チーム内でのコード共有とレビューを行う • パイプラインなどの自動化技術を活用して、低摩擦に継続的に本番投入する • テストなどによりコード品質に配慮する Level 2 Automated Training • トレーニング環境は完全に管理され、追跡可能 • モデルの再現が容易 • リリースは手動であるが、摩擦は少ない • 自動化されたモデルの学習 • モデル学習のパフォーマンスを一元的に追跡 • モデル管理 • 機械学習固有の性質に配慮した自動化を行う • 機械学習実験の再現性確保に注意を払う Level 3 Automated Model Deployment • リリースは低摩擦で自動 • デプロイから元のデータまで完全に追跡可能 • 環境全体 (学習 > テスト > 運用) を管理 • デプロイするモデルのパフォーマンスに関する A/B テストを統合 • すべてのコードのテストを自動化 • モデルの学習性能を一元化 • 機械学習モデルの品質に配慮する • 投入先ソフトウェア開発チームと連携した継続的モデルデプロイとその自動化を推進する Level 4 Full MLOps Automated Retraining • システムを完全自動化し、監視を容易化 • 運用システムは、改善方法に関する情報を提供。場合によっては、新しいモデルで自動的に改善 • ゼロダウンタイムシステムに近づく • モデル学習とテストを自動化 • デプロイされたモデルからの詳細で一元化されたメトリック • 機械学習モデルの経時的な劣化を前提とした監視体制を整備する • 手動で実行する必要が無い部分について自動化を進め、「最大効率で機械学習モデルを運用できる体制」を目指す

Slide 141

Slide 141 text

ジョブステータスに基づくデバッグ Status 状況デバッグの確認箇所とNext Action Not started ジョブがクライアントから送信されて他のジョブとの実行タイムスケジュールを確認中。バックエンドに問題がない場合、基本的にはすぐPreparingへ遷移するため問題なることはほぼない。あまりにも時間がかかるようであれば、ネットワークの接続を確認し、「最新の情報に更新」を押して画面をリフレッシュしてみる。 Preparing 環境イメージのBuild中。使用している環境のビルドログを確認してみる。ビルドに失敗している可能性がある。使用しているコンピューティングのRAMやストレージも足りているか要チェック。 Queue コンピューティングリソースの割り当て中。使用しているコンピューティングの状態を確認してみる。ノードの空きリソースがなく準備中になっている可能性が高い。 Running ジョブが指定されたコンピューティングリソース上で実行中。主にランタイムの準備・環境イメージのpull ・Dockerの開始、データの準備 (マウント/Download) ・ユーザスクリプトの実行ソースコードを確認するために、実行中のジョブの「出力とログ」に書かれているメッセージを確認する。実行結果がFailedになった場合もまずは実行ジョブのログを確認するのがミソ。 Completed ジョブの実行がエラーなく実行された状態正しく実行されたため、必要であればパフォーマンスデバッグを行う。ジョブ実行に異様に時間がかかっている際にジョブステータスを見ることで原因と解決策の見通しを立てることができる。

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text