Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MLflow × LLM 生成AI時代の実験管理とリスク低減

MLflow × LLM 生成AI時代の実験管理とリスク低減

機械学習の社会実装勉強会第50回 (https://machine-learning-workshop.connpass.com/event/366914/) の発表資料です。

More Decks by 西岡 賢一郎 (Kenichiro Nishioka)

Other Decks in Technology

Transcript

  1. MLflow × LLM 生成AI 時代の実験管理とリスク低減 なぜ今「実験管理」が重要なのか 西岡 賢一郎 Data Informed

    CEO / D-stats CTO 機械学習の社会実装勉強会 第50 回 2025 年8 月30 日  MLflow
  2. 背景:生成AI 開発の課題  LLM 活用は急速に進展中 Chatbot 、RAG 、要約など様々なユースケースで活用拡大  しかし実際の開発現場では…

    再現性がない(同じ結果を再現できない) 本番に何が動いているのか不明確 コストや品質がコントロール不能  PM 視点ではリスクが高い 予測不能な品質変動、説明責任の難しさ、コスト管理の困難さ  MLflow 2 / 11
  3. MLflow とは?  機械学習のライフサイクル管理プラットフォーム オープンソースソフトウェア(OSS )として広く使われている  もともとML 用 →

    今はLLM にも対応 生成AI アプリケーション開発にも活用できるように機能拡張  主な機能 Tracking :実験ログの記録と可視化 Model Registry :モデルのバージョン管理 Evaluation & Monitoring :品質検証と監視 Tracing :複雑な処理フローの可視化  MLflow 4 / 11
  4. LLM 時代のMLflow 活用ポイント  Tracking :実験ログの自動記録 プロンプト、パラメータ設定、生成結果、コスト、精度を自動で記録・比較可能  Prompt UI

    / Registry :プロンプト管理 プロンプトの編集・共有・バージョン管理を一元化し、最適プロンプトを組織で共有  Evaluation :品質の数値比較 LLM-as-a-Judge, Human Feedback など多様な評価方法で品質を客観的に測定  Tracing :複雑フローの可視化 RAG など複雑なアプリケーションフローを分解・可視化し、ボトルネックを特定  MLflow 5 / 11
  5. Before / After MLflow (RAG アプリ例)  Before  精度改善が偶然に依存

     設定変更の効果が不明  本番と検証環境が不一致  After  実験履歴から最適条件を選択  コスト・精度を可視化してPM が判断  Production モデルをRegistry で固定化    MLflow 6 / 11
  6. デモで見るMLflow  Jupyter Notebook → MLflow UI 簡単な実験コードからMLflow UI で詳細なログ情報を確認

     自動記録される実験情報 プロンプト内容とパラメータ設定 実行結果とモデル出力 実行コストやAPI 使用量  UI の比較機能 複数のRun を並べて精度やコストを比較、最適な設定を選定可能  高度な機能 Prompt Engineering UI やTracing 可視化による複雑なフローの把握  MLflow 7 / 11
  7. PM/ 開発者が得られる価値  透明性 本番モデルとその選定根拠を明確に説明可能  再現性 同じ実験を誰でも再現できる環境と条件を保証  リスク低減

    精度低下・コスト増を早期に検知し対策可能  協調 PM ・エンジニア・研究者が同じ画面を見て議論できる共通基盤  MLflow 8 / 11
  8. 運用イメージ  →  →  →  ↩ 

    開発フェーズ MLflow Tracking で実験履歴を残す プロンプト、パラメータ、出力結果、メトリクスを自動記録  検証フェーズ MLflow Evaluation で品質比較 LLM-as-a-Judge などを活用した客観的な品質評価  本番フェーズ MLflow Registry でモデルを管理 Staging → Production へのステージング管理と安全なデプロイ  改善フェーズ MLflow Tracing でボトルネックを特定 複雑なRAG や処理フローの可視化とパフォーマンス分析  MLflow 9 / 11
  9. 導入の第一歩  難しく考えなくてOK MLflow は段階的に導入でき、小さく始めて徐々に拡張可能です  「まずは実験ログを残す」ことから始める 最初はTracking のみの利用から、環境構築は最小限でOK 

    ローカル環境でもすぐ利用可能 pip install mlflow だけでインストール完了、コード数行で記録開始  チーム利用への発展 リモートサーバやクラウドでTracking UI を共有し、チーム全体で実験を可視化  MLflow 10 / 11
  10. まとめ  LLM 開発はスピードと同時に管理と再現性が必須 実験と改善の記録がなければ持続的な品質向上は困難  MLflow は「実験ノート+品質保証+本番管理」を一体化 従来の個別ツールをシームレスに統合し、開発効率を向上 

    RAG や要約など幅広いアプリでリスク低減に貢献 複雑なワークフローの可視化と品質評価を容易に実現  結論:LLM 活用にMLflow は欠かせない基盤 透明性・再現性・説明責任を担保し、生成AI 時代の信頼できる開発を実現  MLflow 11 / 11