Step-by-Step MLOps and Microsoft Products

Slide 1

Slide 1 text

Step-by-Step MLOps and Microsoft Products v1.1 Kohei Ogawa CSU/CSA Data&AI Shunta Ito CSU/CSA Data&AI Keita Onabuta FastTrack Engineer for Azure (AI/ML)

Slide 10

Slide 10 text

成熟度モデル https://docs.microsoft.com/ja-JP/azure/architecture/example-scenario/mlops/mlops-maturity-model https://techcommunity.microsoft.com/t5/ai-machine-learning-blog/mlops-maturity-model-with-azure-machine-learning/ba-p/3520625 概要技術文化 Level 0 No MLOps • 機械学習モデルのライフサイクル全体を管理することは困難 • チームは別々で、リリースは困難 • ほとんどのシステムは "ブラックボックス " として存在し、デプロイ時およびデプロイ後のフィードバックはほとんどなし • 手動によるビルドとデプロイ • モデルおよびアプリケーションの手動によるテスト • モデルのパフォーマンスの一元的追跡なしモデル学習は手動 • まず動くものを作り上げ、スモールスタートでプロジェクトを推進する Level 1 DevOps no MLOps • Level 0 よりもリリースの苦労は少ないが、新しいモデルごとにデータチームに依存 • 運用段階でのモデルのパフォーマンスに関するフィードバックは依然として限られる • 結果の追跡および再現が困難 • 自動ビルド • アプリケーションコードの自動テスト • チーム内でのコード共有とレビューを行う • パイプラインなどの自動化技術を活用して、低摩擦に継続的に本番投入する • テストなどによりコード品質に配慮する Level 2 Automated Training • トレーニング環境は完全に管理され、追跡可能 • モデルの再現が容易 • リリースは手動であるが、摩擦は少ない • 自動化されたモデルの学習 • モデル学習のパフォーマンスを一元的に追跡 • モデル管理 • 機械学習固有の性質に配慮した自動化を行う • 機械学習実験の再現性確保に注意を払う Level 3 Automated Model Deployment • リリースは低摩擦で自動 • デプロイから元のデータまで完全に追跡可能 • 環境全体 (学習 > テスト > 運用) を管理 • デプロイするモデルのパフォーマンスに関する A/B テストを統合 • すべてのコードのテストを自動化 • モデルの学習性能を一元化 • 機械学習モデルの品質に配慮する • 投入先ソフトウェア開発チームと連携した継続的モデルデプロイとその自動化を推進する Level 4 Full MLOps Automated Retraining • システムを完全自動化し、監視を容易化 • 運用システムは、改善方法に関する情報を提供。場合によっては、新しいモデルで自動的に改善 • ゼロダウンタイムシステムに近づく • モデル学習とテストを自動化 • デプロイされたモデルからの詳細で一元化されたメトリック • 機械学習モデルの経時的な劣化を前提とした監視体制を整備する • 手動で実行する必要が無い部分について自動化を進め、「最大効率で機械学習モデルを運用できる体制」を目指す

Slide 101

Slide 101 text

Feature Store Open- Source Point-in-time Support Data Source Feature Transformation Feature materialization Performance Feature Type Feathr Yes Point-in-time対応。様々なタイムスタンプフォーマットをサポート。主要なソースとファイル形式（csv, parquet, avro, orc, delta lake）をサポート declarativeフレームワークによるネイティブな変換のサポート • 行レベル、ウィンドウ集計変換 • オフライン、ストリーミング、オンライン変換をサポート Python API and configuration files + CLIをサポート • スケールあり。 • 低レベルのSpark 最適化が組み込まれており、パフォーマンスが高い。テンソル型(for deep learning/ML) + プリミティブ型 Databricks Feature Store No time-travelのみ (point-in-timeは未対応) オフライン：・Delta Lake オンライン：・Azure Database for MySQL ・Azure SQL Database ・Amazon Aurora ・Amazon RDS MySQL etc… ネイティブな変換は未サポート • PySpark notebookによる一般的なデータ処理のみ。 • PySparkの知識が必要 • オンライン機能変換ができない • Sparkにベンダロックされている。 Notebookで手動管理 Sparkの最適化機能はないが、スケールありプリミティブ型 Feast Yes • Point-in-timeで、タイムスタンプのフォーマットが固定されている必要あり • 時系列でないデータでもタイムスタンプは必ず必要主要なソースに対応。ただ、CSVは未対応。詳細はここに記載あり。 feast-dev/feast: Feature Store for Machine Learning (github.com) ・Pandas（Pythonライブラリ）を用いた行レベル変換のみ CLIサポート • シングルノード • インメモリ • スケールしないプリミティブ型 Google Vertex AI Feature Store No time-travelのみ (point-in-timeは未対応) googleのデータソースのみ。 Not available GCP UI経由のみ BigQueryの性能に依存プリミティブ型

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text