15
従来のソフトウェアシステムとMLシステムの比較
従来ソフトウェアシステムの挙動は決定的 MLシステムはデータ・機械学習モデルに依存し確率的に変化
MLシステムの監視 = 従来システム監視 + データの監視 + 予測の監視
引用: The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction. Figure 1. ML Systems Require Extensive Testing and Monitoring.
Slide 16
Slide 16 text
16
MLシステムの関係者
データ変化してないかな...
精度は悪化してないかな...
リクエスト増えないかな...
インフラ負荷はOKかな...
アプリケーションエラーでてないかな...
異なる専門分野の人がMLシステムに関わるため、
関心ある監視項目が異なる
引用: Machine Learning Operations (MLOps): Overview, Definition, and Architecture. Figure 3. Roles and their intersections contributing to the MLOps paradigm.
18
ML Test Scoreの監視項目
分類 監視項目
データ
MLモデルの依存先の変化
学習時と推論時の入力データの普遍性
学習時と推論時の特徴量計算の普遍性
モデル
本番環境のモデルバージョン
モデルの数値的安定性
予測値 MLモデルの入力データに対する予測性能
システム MLシステムの計算性能
データサイエンス
に関わる監視
引用: The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction. Figure 1. ML Systems Require Extensive Testing and Monitoring.
Slide 19
Slide 19 text
19
ML Test Scoreの監視項目
ML Test ScoreはMLOpsの指針として有効だが抽象度が高く
具体的に何を監視すればいいか迷う
・学習時と推論時の入力データの普遍性
・モデルの数値的安定性
データドリフトは有名だが
実際には何をすればいい?
数値的に安定してるとは?
実際に生じた疑問
……
………………………
Slide 20
Slide 20 text
20
Neptune AIの監視項目(抜粋)
大分類 小分類 項目
データ
データ品質 データの欠損・型チェック
データドリフト 連続・カテゴリ特徴のデータ距離指標
外れ値監視 大きなデータドリフト検知
モデル
モデルドリフト 過去と現在の予測値のデータ分布距離
モデル設定 学習時のメタデータ
予測
モデル評価指標 本番環境の予測値に対する評価指標
予測ドリフト 予測値の分布変化
引用: A Comprehensive Guide on How to Monitor Your Models in Production
Slide 21
Slide 21 text
21
Neptune AIの監視項目(抜粋)
大分類 小分類 項目
パイプライン
データパイプライン 入力/出力データの状態
モデルパイプライン 学習ジョブの実行状態
コスト 推論コンピューティング費用
システム
システムパフォーマンス 推論リクエスト数・レイテンシー
システム信頼性 インフラ・ネットワーク指標
引用: A Comprehensive Guide on How to Monitor Your Models in Production