Slide 1

Slide 1 text

AI時代におけるMLOpsのTips 〜 MLOpsを加速させるOSS 〜 @OSC東京 2025 Spring 閉会式LT大会 2025年02月22日(土) 小渕 周 Shu Kobuchi

Slide 2

Slide 2 text

自己紹介 ● 小渕 周(Shu Kobuchi)こぶシュー ● https://x.com/shu_kob @shu_kob ● システムエンジニア → ブロックチェーン業界 ● 2023年12月から生成 AI アプリケーション開発等 2 今日の昼飯

Slide 3

Slide 3 text

● モデル(LLM)自体の運用は不要 ● LLMバージョンアップへの追従が必要 生成AI LLMOpsとMLOpsの違い ● 生成AIブームにより機械学習も活用機会増加 3 生成AI LLMOps ● モデル自体の開発・運用が必要 ○ GPUを使うなど膨大な計算量 ● 他、LLMOpsに比べてやること多し MLOps ● ファインチューニングが可能 ● データの整形が必要 共通部分 生成AIでもオープンモデルは MLOpsに近い

Slide 4

Slide 4 text

機械学習モデル開発と運用の乖離 ● モデル開発に特化、運用フェーズの考慮不足 ● データ/環境変化への対応の遅れ・困難さ ● 性能監視・評価指標の不備/欠如 ● 運用エンジニアとの連携不足/知識共有不足 ● 技術的負債の蓄積、場当たり的対応の常態化 ● SRE原則を活用して、MLモデルのライフサイクル全体を見据えた設 計・運用体制の構築が必要 4

Slide 5

Slide 5 text

MLOpsにおけるデータマネジメント ● データ品質がモデルの成否を左右 ● 機械学習はデータ処理パイプラインが不可欠 ● データの段階的処理 ○ 作成、取り込み、前処理、保管、管理 ○ ETL(抽出、変換、読み込み)によるデータ整形 ○ マスキングなどのデータ加工で適切なデータへ ● データへの責任 ○ 出所、解釈方法、品質、更新、適切な整形利用 ● データ段階 ○ 収集と分析、ML訓練パイプライン、構築と検証、評価、測定 ● 責任範囲 ○ 作成(どこから来たか)とデータ系統(誰が責任を負うか) ● MLはデータにはじまり、データに終わる 5

Slide 6

Slide 6 text

可用性・信頼性確保の工夫 ● 計算量増大への対応 ○ GPUなど専用ハードウェアの活用 ○ Kubernetes等のコンテナオーケストレーション技術の導入 ● 大規模分散処理への対応 ● 計算資源の効率的な利用 ● 障害発生時の迅速な復旧 ● MLOpsの自動化 ○ 継続的インテグレーション・デリバリー(CI/CD) ○ 障害管理体制の確立・ポストモーテム ○ モニタリングと警告 ○ フォールバック(縮退運用)計画 6

Slide 7

Slide 7 text

MLOpsは やることが 多すぎる つまり 7

Slide 8

Slide 8 text

便利なものが 欲しい そこで 8

Slide 9

Slide 9 text

OSSで存在 MLOpsを効率化させるフレームワークが 9

Slide 10

Slide 10 text

Kubeflow ● https://github.com/kubeflow/kubeflow ● MLOps を加速させる Kubernetes ネイティブな ML プラット フォーム ● MLflow(次頁)もKubeflow上で稼働可能 ● Kubernetes ネイティブ: Kubernetes の機能を最大限に活用し、ス ケーラビリティ、可搬性、柔軟性を実現 ● ML ワークフローのオーケストレーション: データ前処理、モデル学 習、モデル評価、デプロイなどの ML ワークフローをパイプライン として定義し、実行・管理 ● 多様な ML ツールとの統合: TensorFlow、PyTorch、scikit-learn など、様々な ML フレームワークやツールを Kubeflow 上で利用可 能 10

Slide 11

Slide 11 text

MLflow ● https://github.com/mlflow/mlflow ● 機械学習ライフサイクル全体を管理するためのオープンソースプ ラットフォーム ● 実験のトラッキング、モデルのパッケージング、デプロイ、モデル レジストリなどの機能を提供し、MLOps を効率化 ● 包括的な ML ライフサイクル管理: 実験管理、モデルパッケージン グ、モデルデプロイ、モデルレジストリなど、ML ライフサイクル全 体をカバー ● 多様な ML フレームワークに対応: scikit-learn、TensorFlow、 PyTorch、Spark MLlib など、様々な ML フレームワークをサポー ト ● 柔軟なデプロイ: ローカル環境、クラウド環境、コンテナ環境など、 様々な環境へのモデルデプロイに対応 11

Slide 12

Slide 12 text

Kubeflowなど 便利なOSSで Enjoy MLOps! まとめ 12

Slide 13

Slide 13 text

参考書籍 ● Cathy Chen、Niall Richard Murphy、Kranti Parisa、D. Sculley、Todd Underwood 著、井伊 篤彦、張 凡、樋口 千洋 訳 「信頼性の高い機械学習 - SRE原則を活用したMLOps」2024年10 月 オライリー・ジャパン 13