Slide 1

Slide 1 text

MLflowの現在と未来 2025年3⽉18⽇

Slide 2

Slide 2 text

本日の内容 ● MLflowとは ● MLOps・LLMOpsの現在地 ● 2024年のMLflowの新機能とニュースの振り返り ● 2025年のロードマップ ● Q&A

Slide 3

Slide 3 text

自己紹介 Yuki Watanabe Harutaka Kawamura 2023年10月にML OSSチームに参加 前職ではMLチームのSDE 趣味:テニス・イラスト 2019年に MLflow にコントリビュートし始める 2020年に Databricks に入社 趣味:韓国語(初心者)

Slide 4

Slide 4 text

MLflowとは

Slide 5

Slide 5 text

MLflowとは ● 2018年にDatabricks CTOのMatei ZahariaがUC Berkeleyの研究室と 連携して開発した実験管理ツール ● Linux Foundationに参画しているオープンソースツール ● 機能開発や運用は我々DatabricksのMLOpsチームが主導

Slide 6

Slide 6 text

Github Stars 19.8K PyPI Downloads 1500万 (月間) Contributors >800

Slide 7

Slide 7 text

MLflowとは 実験管理を中心により広範囲な MLOpsを対象に進化 ● モデルレジストリ ● デプロイメント ● モデル評価 ● トレーシング ● などなど

Slide 8

Slide 8 text

MLflowの使用率Top5 実験管理 モデルレジストリ モデル評価 デプロイメント トレーシング

Slide 9

Slide 9 text

MLflowの使用率Top5 実験管理 モデルレジストリ モデル評価 デプロイメント トレーシング 2022年に追加 2024年に追加 モデルの評価と監視(トレーシ ング)が伸びてきている.

Slide 10

Slide 10 text

MLflowって古典的 MLでは 聞いたことあるけど ...

Slide 11

Slide 11 text

Classical ML Deep Learning GenAI / LLM 昨年の統計では 45%くらいがDL/GenAIで半 数以上がClassical MLでした 2024年では回答者の 80%がDL/GenAI の開発でmlflowを使っているという結果に

Slide 12

Slide 12 text

MLflow for ディープラーニング Checkpoint Autolog System Metrics GPU使用率 Disk使用率 Network I/O

Slide 13

Slide 13 text

MLflow for 生成AI/LLM トレーシング LLM評価 プロンプト管理

Slide 14

Slide 14 text

MLOpsの現在地

Slide 15

Slide 15 text

従来のMLOps Configuration Data Collection Feature Extraction ML Code Data Verification Machine Resource Management Analysis Tools Process Management Tools Serving Infrastructure Monitoring Hidden Technical Debt in Machine Learning Systems

Slide 16

Slide 16 text

従来のMLOps Configuration Data Collection Feature Extraction ML Code Data Verification Machine Resource Management Analysis Tools Process Management Tools Serving Infrastructure Monitoring Hidden Technical Debt in Machine Learning Systems MLモデルはブラックボックスな f(x) -> y 周りを堅牢にすることで MLシステム全体をReliableに データの検証 Feature Store 実験管理 モデルレジストリ 推論サービス Data Drift

Slide 17

Slide 17 text

The Shift from Models to Compound AI Systems モデルから AIシステムへ

Slide 18

Slide 18 text

従来のMLでは、単体のモ デルが単体の推論でタス クを解く Compound AI Systemでは複 数のモデルやコンポーネントが連 携してタスクを解く The Shift from Models to Compound AI Systems

Slide 19

Slide 19 text

LLM時代のMLOps Configuration Data Collection Feature Extraction Data Verification Machine Resource Management Analysis Tools Process Management Tools Serving Infrastructure Monitoring Hidden Technical Debt in Machine Learning Systems Compound AI System

Slide 20

Slide 20 text

LLM時代のMLOps 1 MLとソフトウェアエンジニアリングの境界がより曖昧になり、 これまでとは異なるリソース管理・共有の方法が必要に. 2 性能の評価・検証は高コストかつ不確実に. 3 監視対象はデータ分布からソフトウェアとしての監視へ

Slide 21

Slide 21 text

MLとSWEの境界はより曖昧に 従来のMLOpsは責務の分離を目標にしていた データサイエンティスト MLエンジニア ビジネスステークホルダー

Slide 22

Slide 22 text

MLとSWEの境界はより曖昧に データサイエンティスト ソフトウェアエンジニア ノートブック上で柔軟なEDA やモデルの学習・評価を行 う. 実験の設定や成果物は MLflowのような実験 管理ツールで管理・共有 本番システムのデータパイ プラインや推論システムは Gitでバージョン管理 TerraformやCDKのような IaCを用いてインフラもGit 管理するのが一般的 これまでのML開発では、モデルの重みファイルを通じてデータサイエンティストから MLE/SWEへの 橋渡しが行われることが一般的だった.

Slide 23

Slide 23 text

MLとSWEの境界はより曖昧に データサイエンティスト ソフトウェアエンジニア Compound AI System プロンプト ツール ナレッジ LLM 実験の成果物は単一の重み ではなく、複数ファイルの コードやデータに跨る.効率 的なバージョン管理や共有 方法が欲しい. Compoundシステムの構成要 素はノートブック上では 完結できないことが多い. 🤔 🤔 全てをGit管理したいところだ が、適切なパッケージ粒度と柔 軟性を保つのは難しい.また非 Engにとっては障壁になりうる. 🤔 ナレッジやプロンプトの変更を GitベースでCI/CDに組み込む のは未だに大変. 🤔 Compound AI Systemの開発では、モデル設計の段階からソフトウェアとして開発を進める必要がある. 一方でコード以外の動的なコンポーネントが多く、単純な Git管理では効率が悪い.

Slide 24

Slide 24 text

MLとSWEの境界はより曖昧に 現状では、それぞれのコンポーネントに対して別々の解決策がある状態. プロンプト管理 ツール管理 基盤モデル管理 Prompt Registry ナレッジ管理 AI Gateway 全部UIでやっちゃおう

Slide 25

Slide 25 text

MLとSWEの境界はより曖昧に 現状では、それぞれのコンポーネントに対して別々の解決策がある状態. プロンプト管理 ツール管理 基盤モデル管理 Prompt Registry ナレッジ管理 AI Gateway 全部UIでやっちゃおう 全てをE2Eで完璧に管理できるツールはない 複数ツールを横断してアクセスやバージョンを 管理できるようなLineageが必要

Slide 26

Slide 26 text

モデルの評価は高コストかつ不確実に データセットの作成     評価指標   評価候補の多さ 解決したい問題がより複雑かつ専門的になり、データセットの作成コストは上 昇。Contractorやクラウドソーシングでは簡単に解決できない。 現状LLMが対象としている問題はほとんど定性的評価が欠かせない。評価の 基準はビジネスによって様々なので、リーダーボードは参考になるが評価基準 としては使えない。 システムの各コンポーネントを入れ替えたり構成を変えることで無限に評価候 補が作れる。一度最善の方法を決めても、毎週のように新しい LLMや手法が 発表される。

Slide 27

Slide 27 text

モデルの評価は高コストかつ不確実に データセットの作成     評価指標   評価候補の多さ 現実的なデータを得るために、オフライン評価に見切りをつけて いち早くProductionデータを収集する方針の企業も多い. LLM-as-a-Judgeはビジネス目標に合った柔軟な評価指標を、スケーラブ ルな方法で評価できるため有用.ただし信頼性やバイアスの問題もあり、それ だけに完全に頼ることは難しい. 推論全体の入出力を評価するだけでなく、各 コンポーネントごとに評価 して小 さな改善サイクルを回す.また簡単にコンポーネントを入れ替えられるよう Modularに設計することも重要。

Slide 28

Slide 28 text

データ分布からソフトウェアとしての監視へ 従来のMLモデルの監視では、入出力データの監視が主な対象だった ● MLモデル自体は基本的にブラックボックス.その 内部挙動を監視するのは難しい. ● 代わりに、「入力データが変わらなければ出力も変 わらないだろう」という前提を設ける ● モデルの性能の低下があった場合、99%データが 原因

Slide 29

Slide 29 text

データ分布からソフトウェアとしての監視へ Compound AI Systemではソフトウェアとして監視する必要がある ● 全体の入出力データのみでは何が悪いか特定で きない. ● 入力データが変わらなければ出力も変わらないだ ろう」という前提も怪しい ● 個別のコンポーネントに対して、性能および非機 能の指標を計測して、改善する必要がある

Slide 30

Slide 30 text

2024年のMLflowまとめ

Slide 31

Slide 31 text

MLflow Tracing Compound AI System の中で何が起こっている かをデバッグ・監視・ 評価するための機能

Slide 32

Slide 32 text

MLflow Tracing 既存のコードに1行追加するだけで自動でトレーシング

Slide 33

Slide 33 text

Quiz: ライブラリ別のドキュメント訪 問者数のランキング 1. LangChain 2. OpenAI 3. LangGraph 4. ??? 5. Amazon Bedrock MLflow Tracing 9ヶ月間で17個のライブラリ への自動トレーシングが可 能になりました。 1 2 3 5 4 ?

Slide 34

Slide 34 text

Quiz: ライブラリ別のドキュメント訪 問者数のランキング 1. LangChain 2. OpenAI 3. LangGraph 4. CrewAI 5. Amazon Bedrock MLflow Tracing 9ヶ月間で17個のライブラリ への自動トレーシングが可 能になりました。 1 2 3 5 4

Slide 35

Slide 35 text

MLflow Tracing ● トレースした結果はMLflow Experiment に保存されます. ● Runに自動で紐付けされるので、 モデル評価結果からトレースに 辿って原因を探ることも ● Databricks / Jupyter Notebook 内に直接表示できます! (別タブを開いてリストの中から該当 するトレースを探してという手間なし)

Slide 36

Slide 36 text

36 MLflow Tracing、無料で使えます ● MLflowのTracking Serverを自分で立てている場合、もちろん料金はかかり ま せん. ● DatabricksではManaged MLflowも無料です. ○ ”Why the heck is LLM observation and management tools so expensive?” (なんでLLMの監視ツールはこんなに高いの ?) MLflow Tracing

Slide 37

Slide 37 text

37 MLflow Tracing ● トレースを元にモデルの Performanceや Latency、コストを評価・監視することが できます. ● →はつい先週発表された Databricksの Agent Monitoringという機能で、MLflow のトレースを元にダッシュボードを簡単に 作成できます。 ● Databricks / Jupyter Notebook 内に直接表示できます! (別タブを開いてリストの中から該当 するトレースを探してという手間なし)

Slide 38

Slide 38 text

38 MLflow Tracing MLflow OSS Client Trace Exporter (serving) Tracing SDK Any OpenTelemetry Compatible Collector MLflow OSS Client Trace Exporter (OTel) Tracing SDK Trace Data (See documentation for more detailed setup) MLflowのトレースはOpenTelemetryの仕様に準拠しています。そのため、 MLflowやDatabricksだけでなく様々な Traceバックエンドで保存・表示することができます。

Slide 39

Slide 39 text

DSPy ● コンセプト「プロンプトからプログラミングへ」 ● MLflowと同じ研究室から誕生、23k Github⭐ ● 評価指標を元に自動でLLMシステムを最適化

Slide 40

Slide 40 text

DSPy MLflowではmlflow.dspy.autolog()だけで最適化経過や指標のロギング、モジュール内部のトレーシン グやStateの保存が可能. 最適化の成果物は Child Runとして保存 評価指標の推移 内部で何が起こっているかを トレースで可視化

Slide 41

Slide 41 text

深層学習向けの UXアップデート ● System Metricsのロギング ● チャートUIの拡充 ● 大規模ロギング ● Pytorch/Keras自動ログ ● PEFT (LoRA) サポート Disk使用率 GPU Mem 使用率 Network I/O

Slide 42

Slide 42 text

深層学習向けの UXアップデート ● System Metricsのロギング ● チャートUIの拡充 ● 大規模ロギング ● Pytorch/Keras自動ログ ● PEFT (LoRA) サポート Epochごと のラン比較     → 複数ランでの Metricの Aggregation ←

Slide 43

Slide 43 text

深層学習向けの UXアップデート ● System Metricsのロギング ● チャートUIの拡充 ● 大規模ロギング ● Pytorch/Keras自動ログ ● PEFT (LoRA) サポート

Slide 44

Slide 44 text

深層学習向けの UXアップデート ● System Metricsのロギング ● チャートUIの拡充 ● 大規模ロギング ● チェックポイント自動ログ ● PEFT (LoRA) サポート mlflow.pytorch.autolog()で自動的にチェックポイ ントと評価指標が保存されます

Slide 45

Slide 45 text

深層学習向けの UXアップデート ● System Metricsのロギング ● チャートUIの拡充 ● Bulkロギング ● Pytorch/Keras自動ログ ● PEFT (LoRA) サポート チュートリアルはこちらから

Slide 46

Slide 46 text

MLflowの1番(?)の欠点 Trackingサーバーを立てるのが面倒 ...

Slide 47

Slide 47 text

マネージドサービスが次々と ! ● SageMaker ● Nebius ● Databricks - 2024年6月にリリース - SageMakerのデプロイと連携 - 新しいUnified Studioにも - こちらの記事で試しています

Slide 48

Slide 48 text

マネージドサービスが次々と ● SageMaker ● Nebius ● Databricks - 2024年9月にリリース - Nvidia出資のGPUクラウド - LLMのFine-tuningがNebius でのMLflowの主な使い方

Slide 49

Slide 49 text

マネージドサービスが次々と ● SageMaker ● Nebius ● Databricks マネージドMLflowは元々無料で使えたが、 Sign-upがより簡単になり誰でもチームでも無 料でManaged MLflowが使えるように! Googleアカウントやメールアドレスのみで登録 可能!

Slide 50

Slide 50 text

3 Billion Devices Teams run MLflow

Slide 51

Slide 51 text

Unity Catalog AI ● Unity CatalogがOSSに ● Unity CatalogをOSS MLflowの モデルレジストリとして利用できます! ● アクセス管理、ガバナンスなどなど

Slide 52

Slide 52 text

Unity Catalog AI ● PythonやSQLの関数をUCに登録することで、サンド ボックス内でツール実行できます。 ● Unity Catalog AIパッケージでは、様々なライブラリと UCツールの連携が簡単に行えます。 Unity Catalo g AI LangChain Anthropic OpenAI CrewAI Llama Index AutoGen

Slide 53

Slide 53 text

プロンプトレジストリ (new!) ● つい先週リリース ● プロンプトをバージョン管理す るための機能 ● 私もClaude+MCP用のプロン プトを早速保存して使っていま す

Slide 54

Slide 54 text

ドキュメントの刷新 ● ドキュメントもプロダクトの一部とし て、頻繁に改善しています. ● サイドバーと検索ツールが変更され て、見たいページを探しやすくなりま した. ● "Ask AI"という機能を使えば、 ドキュメントやソースコードの情報を 元に答えてくれます。

Slide 55

Slide 55 text

2025年のMLflow

Slide 56

Slide 56 text

MLflow in 2025 (前半) モデルを中心とした強固なリネージ フィードバックループ アノテーションとデータセットの Built-inサポート デプロイ管理 モデルレジストリを CI/CDと更に連携

Slide 57

Slide 57 text

MLflow 2025: モデルの質を高めるフィードバックループ MLflowでデータセットの管理とアノテーションが可能になります! データセット Model Traces ✅, ❌, ✅, …

Slide 58

Slide 58 text

MLflow 2025: より強固なリネージ Model Annotations Metrics Runs Traces Artifacts モデルを中心に、全てのリソースに対してリネージと検索を可能に. Datasets Prompts

Slide 59

Slide 59 text

MLflow 2025: デプロイ管理  Version 3 Job Status: ❌  Version 2 Job Status: ✅  Version 1 Job Status: ✅ CI/CDパイプライン モデルレジストリ Event-based Notification

Slide 60

Slide 60 text

MLflow in 2025 まだまだここでは紹介できないアップデートが .... 続きは6月のData and AI Summitにて!

Slide 61

Slide 61 text

Thank you! mlflow-users.slack.com github.com/mlflow/mlflow @MLflow (mlflow-org) @MLflow lu.ma/mlflow