Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MLOpsの意義 -機械学習プロジェクトを成功させるための鍵-

nokoxxx1212
January 07, 2024
78

MLOpsの意義 -機械学習プロジェクトを成功させるための鍵-

nokoxxx1212

January 07, 2024
Tweet

Transcript

  1. MLOpsとは MLOpsの定義は様々あります。いくつかご紹介します。 • 「Software2.0のためのDevOps」(参考: MLOpsのこれまでとこれから) • 「データ前処理、モデル開発、デプロイ、運用などを含む機械学習のライフサイク ルを管理する技術/知見」(参考:MLOps勉強会) • 「MLOps

    is the art and science of bringing machine learning to production」 (参考:The state of MLOps in 2021) まとめると、「MLOpsとは、DevOpsの原則を機械学習に応用し、機械学習のライフサ イクルを管理することで、機械学習をプロダクション化するための技術」、と言えると思 います。
  2. MLエンジニアとMLOpsエンジニアの違い 上記で定義したMLOpsを担当する人がMLOpsエンジニアですが、さらにスコープを明 確にするためにMLエンジニアと責務を比較してみます MLエンジニア MLOpsエンジニア ChatGPT データを分析し、機械学習モデルを開発・トレーニングする専門家 機械学習モデルの開発から運用までを統合し、自動化、監視、およびパ フォーマンス最適化を担う専門家 ZOZO

    データ分析・機械学習・深層学習を用いた新規事業や機能の開発 ML(Machine Learning)を活用したプロダクトを世に送り出すために必 要となる、モデル開発以外のすべてのエンジニアリング また、MLとMLOpsの比較としては、MLOps って何?で話されていた「MLとMLOpsの関 係は、お菓子作りとお菓子工場作りの関係」という比喩もしっくり来ます。
  3. MLOpsが解決する課題と効果の指標例 MLチーム 全体 MLOpsチーム 全体 ex. 「リードタイム2週間、年間100リリース」(Sansan Labs) 「AI-OCR以外で新たに5つの機械学習による価値を作る」 (LayerX)

    エンジニアリングの力で、 MLを社会実装するアジリティと信頼性を向上させる ex. DevOpsのFour Keysを応用した例 1 2 3 4 デプロイメント頻度(Deployment Frequency) 機械学習モデルがどれだけ頻繁にプロダクション環境にデプロイされるかを測定 = 頻繁に リードタイム(Lead Time) モデルのアイデアから実際の運用環境でのデプロイメントまでの時間 = すぐに チェンジフェイル率(Change Failure Rate) 新たにデプロイされたモデルが期待通りに機能しない割合 = 期待通りに リカバリータイム(Time to Recover) モデルやシステムの障害から復旧するまでの時間 = 何かあってもすぐ復旧
  4. 機械学習プロジェクトで発生する課題(2/2) テーマ 課題 計算リソースの管理を怠ると 計算リソースの過剰または不足が生じ、コストの増加やプロジェクトの遅延を引き起こす可能性があります。また、リソース が不足すると、モデルのトレーニングや実験が効果的に行えなくなる可能性があります。 実験管理を怠ると どの実験がどの結果をもたらしたか追跡が困難になり、効果的な問題解決やモデルの改善が難しくなります。結果として、 プロジェクトの進行が遅れ、品質が低下する恐れがあります。 CI/CDを適切に行わない場合

    コードの変更やモデルの更新が本番環境に適切に統合されず、バグやパフォーマンスの問題が頻発する可能性がありま す。これにより、システムの信頼性やユーザー体験が低下する恐れがあります。 モデルレジストリを使用しない場合 モデルのバージョン管理や再利用が困難になり、再現性と一貫性の低下を招きます。これは、品質の一貫した保証が難し くなり、運用上の複雑さを増加させる可能性があります。 MLパイプラインを整備しない場合 データ処理やモデルトレーニングが非効率的になり、プロセス全体の時間とコストが増加します。また、結果の再現性や一 貫性の低下も招きます。 特徴量ストアを使用しない場合 特徴量の管理と再利用が難しくなり、データの前処理や特徴量の計算に多大な時間が必要になります。これは、全体的な プロジェクトの効率性を低下させる可能性があります。 モニタリングを怠ると モデルの性能が時間とともに低下する可能性があり、データドリフトやモデルの劣化に対応することが困難になります。ま た、問題が発生してもそれを迅速に検知し、対応することができなくなる可能性があります。
  5. 補足: MLOps版CAMSモデル また、DevOpsの重要な要素として、CAMSモデルがありました。MLOps版を考えると、 下記になると思います。 Culture MLOpsでは、データサイエン ティスト、機械学習エンジニア、 オペレーションチームが密接に 協力する文化が必要です。こ の文化は、実験的なアプローチ

    を奨励し、失敗から学ぶことを 重視し、機械学習モデルの開 発と運用の間のギャップを埋め ることに焦点を当てています。 Automation モデルトレーニング、テスト、デ プロイメント、モニタリングのプ ロセスを自動化することが重要 です。これには、連続的インテ グレーションとデプロイメント (CI/CD)の原則の適用、データ の前処理と変換、モデルのス ケーリングと管理が含まれま す。 Measurement モデルのパフォーマンス、デー タの品質、プロジェクトの進捗を 定量的に測定することが不可 欠です。これには、モデルの精 度、再現性、データの完全性、 予測の信頼性などの指標が含 まれます。これらの測定値を用 いて、モデルの改善やビジネス への影響を評価します。 Sharing データ、知見、ベストプラクティ ス、失敗事例の共有はMLOps の重要な側面です。これには、 実験の結果、モデルのパフォー マンスデータ、データの洞察な どが含まれます。共有により、 チーム間での透明性が高まり、 機械学習プロジェクトの効率と 効果が向上します。