Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLflow × LLM 生成AI時代の実験管理とリスク低減
Search
西岡 賢一郎 (Kenichiro Nishioka)
August 30, 2025
Technology
0
110
MLflow × LLM 生成AI時代の実験管理とリスク低減
機械学習の社会実装勉強会第50回 (
https://machine-learning-workshop.connpass.com/event/366914/
) の発表資料です。
西岡 賢一郎 (Kenichiro Nishioka)
August 30, 2025
Tweet
Share
More Decks by 西岡 賢一郎 (Kenichiro Nishioka)
See All by 西岡 賢一郎 (Kenichiro Nishioka)
Claude Agent SDKで始める実践的AIエージェント開発
knishioka
0
58
AIがAIを拡張する時代へ ~Claude Codeで実現する高品質文書作成~
knishioka
0
92
Conductor: Git Worktreeで実現する並列AIコーディング
knishioka
0
83
ローカルLLMでファインチューニング
knishioka
0
1.4k
自作MCPサーバ入門
knishioka
0
61
成功と失敗の実像と生成AI時代の展望
knishioka
0
80
MCPが変えるAIとの協働
knishioka
1
230
LangFlowではじめるRAG・マルチエージェントシステム構築
knishioka
0
310
DeepSeekを使ったローカルLLM構築
knishioka
0
250
Other Decks in Technology
See All in Technology
ソフトウェアテストのAI活用_ver1.50
fumisuke
0
230
AIがコードを書いてくれるなら、新米エンジニアは何をする? / komekaigi2025
nkzn
25
17k
Copilotの精度を上げる!カスタムプロンプト入門.pdf
ismk
10
2.5k
AI時代におけるドメイン駆動設計 入門 / Introduction to Domain-Driven Design in the AI Era
fendo181
0
480
Data Engineering Guide 2025 #data_summit_findy by @Kazaneya_PR / 20251106
kazaneya
PRO
10
1.8k
激動の2025年、Modern Data Stackの最新技術動向
sagara
0
1.1k
MCP サーバーの基礎から実践レベルの知識まで
azukiazusa1
25
12k
AIとの協業で実現!レガシーコードをKotlinらしく生まれ変わらせる実践ガイド
zozotech
PRO
2
360
これからアウトプットする人たちへ - アウトプットを支える技術 / that support output
soudai
PRO
11
3.4k
3年ぶりの re:Invent 今年の意気込みと前回の振り返り
kazzpapa3
0
150
コミュニティと共に変化する 私とFusicの8年間
ayasamind
0
330
從裝潢設計圖到 Home Assistant:打造智慧家庭的實戰與踩坑筆記
kewang
0
140
Featured
See All Featured
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Side Projects
sachag
455
43k
Speed Design
sergeychernyshev
32
1.2k
Facilitating Awesome Meetings
lara
57
6.6k
RailsConf 2023
tenderlove
30
1.3k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
The Cult of Friendly URLs
andyhume
79
6.7k
Practical Orchestrator
shlominoach
190
11k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
How GitHub (no longer) Works
holman
315
140k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Transcript
MLflow × LLM 生成AI 時代の実験管理とリスク低減 なぜ今「実験管理」が重要なのか 西岡 賢一郎 Data Informed
CEO / D-stats CTO 機械学習の社会実装勉強会 第50 回 2025 年8 月30 日 MLflow
背景:生成AI 開発の課題 LLM 活用は急速に進展中 Chatbot 、RAG 、要約など様々なユースケースで活用拡大 しかし実際の開発現場では…
再現性がない(同じ結果を再現できない) 本番に何が動いているのか不明確 コストや品質がコントロール不能 PM 視点ではリスクが高い 予測不能な品質変動、説明責任の難しさ、コスト管理の困難さ MLflow 2 / 11
典型的な困りごと 「どのプロンプトで精度が出たか忘れた」 試行錯誤の過程が記録されず、効果的だったプロンプトを再現できない 「Embedding モデルを変えたら結果が良くなった?悪くなった?」 設定変更の効果が客観的に比較・検証できない 「本番で走っているのはどのバージョン?」
環境間の差異が不明確で、トラブル発生時の原因特定が困難 「意思決定の根拠が残らない」 なぜその設定やモデルを採用したのか、後から検証できない MLflow 3 / 11
MLflow とは? 機械学習のライフサイクル管理プラットフォーム オープンソースソフトウェア(OSS )として広く使われている もともとML 用 →
今はLLM にも対応 生成AI アプリケーション開発にも活用できるように機能拡張 主な機能 Tracking :実験ログの記録と可視化 Model Registry :モデルのバージョン管理 Evaluation & Monitoring :品質検証と監視 Tracing :複雑な処理フローの可視化 MLflow 4 / 11
LLM 時代のMLflow 活用ポイント Tracking :実験ログの自動記録 プロンプト、パラメータ設定、生成結果、コスト、精度を自動で記録・比較可能 Prompt UI
/ Registry :プロンプト管理 プロンプトの編集・共有・バージョン管理を一元化し、最適プロンプトを組織で共有 Evaluation :品質の数値比較 LLM-as-a-Judge, Human Feedback など多様な評価方法で品質を客観的に測定 Tracing :複雑フローの可視化 RAG など複雑なアプリケーションフローを分解・可視化し、ボトルネックを特定 MLflow 5 / 11
Before / After MLflow (RAG アプリ例) Before 精度改善が偶然に依存
設定変更の効果が不明 本番と検証環境が不一致 After 実験履歴から最適条件を選択 コスト・精度を可視化してPM が判断 Production モデルをRegistry で固定化 MLflow 6 / 11
デモで見るMLflow Jupyter Notebook → MLflow UI 簡単な実験コードからMLflow UI で詳細なログ情報を確認
自動記録される実験情報 プロンプト内容とパラメータ設定 実行結果とモデル出力 実行コストやAPI 使用量 UI の比較機能 複数のRun を並べて精度やコストを比較、最適な設定を選定可能 高度な機能 Prompt Engineering UI やTracing 可視化による複雑なフローの把握 MLflow 7 / 11
PM/ 開発者が得られる価値 透明性 本番モデルとその選定根拠を明確に説明可能 再現性 同じ実験を誰でも再現できる環境と条件を保証 リスク低減
精度低下・コスト増を早期に検知し対策可能 協調 PM ・エンジニア・研究者が同じ画面を見て議論できる共通基盤 MLflow 8 / 11
運用イメージ → → → ↩
開発フェーズ MLflow Tracking で実験履歴を残す プロンプト、パラメータ、出力結果、メトリクスを自動記録 検証フェーズ MLflow Evaluation で品質比較 LLM-as-a-Judge などを活用した客観的な品質評価 本番フェーズ MLflow Registry でモデルを管理 Staging → Production へのステージング管理と安全なデプロイ 改善フェーズ MLflow Tracing でボトルネックを特定 複雑なRAG や処理フローの可視化とパフォーマンス分析 MLflow 9 / 11
導入の第一歩 難しく考えなくてOK MLflow は段階的に導入でき、小さく始めて徐々に拡張可能です 「まずは実験ログを残す」ことから始める 最初はTracking のみの利用から、環境構築は最小限でOK
ローカル環境でもすぐ利用可能 pip install mlflow だけでインストール完了、コード数行で記録開始 チーム利用への発展 リモートサーバやクラウドでTracking UI を共有し、チーム全体で実験を可視化 MLflow 10 / 11
まとめ LLM 開発はスピードと同時に管理と再現性が必須 実験と改善の記録がなければ持続的な品質向上は困難 MLflow は「実験ノート+品質保証+本番管理」を一体化 従来の個別ツールをシームレスに統合し、開発効率を向上
RAG や要約など幅広いアプリでリスク低減に貢献 複雑なワークフローの可視化と品質評価を容易に実現 結論:LLM 活用にMLflow は欠かせない基盤 透明性・再現性・説明責任を担保し、生成AI 時代の信頼できる開発を実現 MLflow 11 / 11