Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MLflowの現在と未来 / MLflow Present and Future

MLflowの現在と未来 / MLflow Present and Future

Databricks Japan

March 18, 2025
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. 自己紹介 Yuki Watanabe Harutaka Kawamura 2023年10月にML OSSチームに参加 前職ではMLチームのSDE 趣味:テニス・イラスト 2019年に

    MLflow にコントリビュートし始める 2020年に Databricks に入社 趣味:韓国語(初心者)
  2. Classical ML Deep Learning GenAI / LLM 昨年の統計では 45%くらいがDL/GenAIで半 数以上がClassical

    MLでした 2024年では回答者の 80%がDL/GenAI の開発でmlflowを使っているという結果に
  3. 従来のMLOps Configuration Data Collection Feature Extraction ML Code Data Verification

    Machine Resource Management Analysis Tools Process Management Tools Serving Infrastructure Monitoring Hidden Technical Debt in Machine Learning Systems
  4. 従来のMLOps Configuration Data Collection Feature Extraction ML Code Data Verification

    Machine Resource Management Analysis Tools Process Management Tools Serving Infrastructure Monitoring Hidden Technical Debt in Machine Learning Systems MLモデルはブラックボックスな f(x) -> y 周りを堅牢にすることで MLシステム全体をReliableに データの検証 Feature Store 実験管理 モデルレジストリ 推論サービス Data Drift
  5. LLM時代のMLOps Configuration Data Collection Feature Extraction Data Verification Machine Resource

    Management Analysis Tools Process Management Tools Serving Infrastructure Monitoring Hidden Technical Debt in Machine Learning Systems Compound AI System
  6. MLとSWEの境界はより曖昧に データサイエンティスト ソフトウェアエンジニア ノートブック上で柔軟なEDA やモデルの学習・評価を行 う. 実験の設定や成果物は MLflowのような実験 管理ツールで管理・共有 本番システムのデータパイ

    プラインや推論システムは Gitでバージョン管理 TerraformやCDKのような IaCを用いてインフラもGit 管理するのが一般的 これまでのML開発では、モデルの重みファイルを通じてデータサイエンティストから MLE/SWEへの 橋渡しが行われることが一般的だった.
  7. MLとSWEの境界はより曖昧に データサイエンティスト ソフトウェアエンジニア Compound AI System プロンプト ツール ナレッジ LLM

    実験の成果物は単一の重み ではなく、複数ファイルの コードやデータに跨る.効率 的なバージョン管理や共有 方法が欲しい. Compoundシステムの構成要 素はノートブック上では 完結できないことが多い. 🤔 🤔 全てをGit管理したいところだ が、適切なパッケージ粒度と柔 軟性を保つのは難しい.また非 Engにとっては障壁になりうる. 🤔 ナレッジやプロンプトの変更を GitベースでCI/CDに組み込む のは未だに大変. 🤔 Compound AI Systemの開発では、モデル設計の段階からソフトウェアとして開発を進める必要がある. 一方でコード以外の動的なコンポーネントが多く、単純な Git管理では効率が悪い.
  8. MLとSWEの境界はより曖昧に 現状では、それぞれのコンポーネントに対して別々の解決策がある状態. プロンプト管理 ツール管理 基盤モデル管理 Prompt Registry ナレッジ管理 AI Gateway

    全部UIでやっちゃおう 全てをE2Eで完璧に管理できるツールはない 複数ツールを横断してアクセスやバージョンを 管理できるようなLineageが必要
  9. Quiz: ライブラリ別のドキュメント訪 問者数のランキング 1. LangChain 2. OpenAI 3. LangGraph 4.

    ??? 5. Amazon Bedrock MLflow Tracing 9ヶ月間で17個のライブラリ への自動トレーシングが可 能になりました。 1 2 3 5 4 ?
  10. Quiz: ライブラリ別のドキュメント訪 問者数のランキング 1. LangChain 2. OpenAI 3. LangGraph 4.

    CrewAI 5. Amazon Bedrock MLflow Tracing 9ヶ月間で17個のライブラリ への自動トレーシングが可 能になりました。 1 2 3 5 4
  11. MLflow Tracing • トレースした結果はMLflow Experiment に保存されます. • Runに自動で紐付けされるので、 モデル評価結果からトレースに 辿って原因を探ることも

    • Databricks / Jupyter Notebook 内に直接表示できます! (別タブを開いてリストの中から該当 するトレースを探してという手間なし)
  12. 36 MLflow Tracing、無料で使えます • MLflowのTracking Serverを自分で立てている場合、もちろん料金はかかり ま せん. • DatabricksではManaged

    MLflowも無料です. ◦ ”Why the heck is LLM observation and management tools so expensive?” (なんでLLMの監視ツールはこんなに高いの ?) MLflow Tracing
  13. 37 MLflow Tracing • トレースを元にモデルの Performanceや Latency、コストを評価・監視することが できます. • →はつい先週発表された

    Databricksの Agent Monitoringという機能で、MLflow のトレースを元にダッシュボードを簡単に 作成できます。 • Databricks / Jupyter Notebook 内に直接表示できます! (別タブを開いてリストの中から該当 するトレースを探してという手間なし)
  14. 38 MLflow Tracing MLflow OSS Client Trace Exporter (serving) Tracing

    SDK Any OpenTelemetry Compatible Collector MLflow OSS Client Trace Exporter (OTel) Tracing SDK Trace Data (See documentation for more detailed setup) MLflowのトレースはOpenTelemetryの仕様に準拠しています。そのため、 MLflowやDatabricksだけでなく様々な Traceバックエンドで保存・表示することができます。
  15. 深層学習向けの UXアップデート • System Metricsのロギング • チャートUIの拡充 • 大規模ロギング •

    Pytorch/Keras自動ログ • PEFT (LoRA) サポート Disk使用率 GPU Mem 使用率 Network I/O
  16. 深層学習向けの UXアップデート • System Metricsのロギング • チャートUIの拡充 • 大規模ロギング •

    Pytorch/Keras自動ログ • PEFT (LoRA) サポート Epochごと のラン比較     → 複数ランでの Metricの Aggregation ←
  17. 深層学習向けの UXアップデート • System Metricsのロギング • チャートUIの拡充 • 大規模ロギング •

    チェックポイント自動ログ • PEFT (LoRA) サポート mlflow.pytorch.autolog()で自動的にチェックポイ ントと評価指標が保存されます
  18. 深層学習向けの UXアップデート • System Metricsのロギング • チャートUIの拡充 • Bulkロギング •

    Pytorch/Keras自動ログ • PEFT (LoRA) サポート チュートリアルはこちらから
  19. マネージドサービスが次々と ! • SageMaker • Nebius • Databricks - 2024年6月にリリース

    - SageMakerのデプロイと連携 - 新しいUnified Studioにも - こちらの記事で試しています
  20. マネージドサービスが次々と • SageMaker • Nebius • Databricks - 2024年9月にリリース -

    Nvidia出資のGPUクラウド - LLMのFine-tuningがNebius でのMLflowの主な使い方
  21. Unity Catalog AI • Unity CatalogがOSSに • Unity CatalogをOSS MLflowの

    モデルレジストリとして利用できます! • アクセス管理、ガバナンスなどなど
  22. MLflow 2025: デプロイ管理  Version 3 Job Status: ❌  Version 2

    Job Status: ✅  Version 1 Job Status: ✅ CI/CDパイプライン モデルレジストリ Event-based Notification