Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLflowで始めるプロンプト管理、評価、最適化
Search
Databricks Japan
December 10, 2025
Technology
650
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
MLflowで始めるプロンプト管理、評価、最適化
Databricks Japan
December 10, 2025
More Decks by Databricks Japan
See All by Databricks Japan
プラットフォームエンジニア ワークショップ/ platform-workshop
databricksjapan
1
360
DatabricksにおけるIcebergとDelta Lakeの現在と未来 / The Present and Future of Iceberg and Delta Lake in Databricks
databricksjapan
0
720
Databricks Academic Series 〜 データアナリスト編 〜 / academic-series-data-analyst
databricksjapan
1
190
Databricks Academic Series 〜 データエンジニアリング編 〜 / academic-series-data-engineering
databricksjapan
1
270
Databricks Academic Series 〜 機械学習編 〜 / academic-series-ml
databricksjapan
1
120
Databricks Academic Series 〜 大規模言語モデル / エージェント編 〜 / academic-series-llm
databricksjapan
1
230
Claude Code × Databricks Appsワークショップ / Claude Code Workshop
databricksjapan
0
190
Databricksデータサイエンスワークショップ / data-science-workshop
databricksjapan
0
110
Databricks 生成AIワークショップ / gen-ai-workshop
databricksjapan
0
130
Other Decks in Technology
See All in Technology
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
970
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
150
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
590
手塩にかけりゃいいってもんじゃない
ming_ayami
0
560
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
170
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
970
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
950
ルールやカスタム機能、どう活かす?ハンズオンで体感するIBM Bobの出力コントロール
muehara
1
150
How Timee Delivers Day 1 Production Ready LLM Features
tomoyks
0
210
20260619 私の日常業務での生成 AI 活用
masaruogura
1
200
SONiCで構築・運用する生成AI向けパブリッククラウドネットワーク ~実装編~
sonic
0
190
FDE という解 ― 暗黙知と明示知をつなぐ、伴走型エンジニアリング ―
otanet
0
150
Featured
See All Featured
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
360
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Done Done
chrislema
186
16k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
610
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
360
Skip the Path - Find Your Career Trail
mkilby
1
150
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
250
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
390
Transcript
MLflowで始めるプロンプト管 理、評価、最適化 平田東夢 ソフトウェアエンジニア @Databricks
2 生成AIのおかげで機械学習モデルの学習させなくてもAIアプリ ・AIエージェントが作れる でもプロンプトエンジニアリングはちゃんとやるとめんどくさい、、
3 生成AIを本番環境で使う際の課題感 • 手動でのプロンプト編集は時間がかかる • 障害が起きたら以前使っていたプロンプトにすぐ戻した い • 使われているプロンプトを非エンジニアも見れるようにし たい
• 新しく出たモデルに合わせてプロンプトを変更したい • どちらのプロンプトが本番でうまく動くのかテストしたい OpenAIモデルを呼び出すサンプルコード
プロンプトエンジニアリングの難しさ 4 “”Exploring Prompt Engineering Practices in the Enterprise” より
プロンプト構成要素 説明 例 instruction:task プロンプトの目的、目標、および要求される出力に関す る詳細 ドキュメントに基づいて質問に答える;ドキュメン トを要約する instruction:persona 出力を生成するときに LLMが担うべき人物像や役割 SQLの専門家;AIアシスタント instruction:method LLMが出力を生成する際に経るべきプロセスの説明 ステップ・バイ・ステップ instruction:output-length 生成される出力の長さに関する説明 50語;簡潔に instruction:output-format 出力の形式 JSON;段落 instruction:inclusion 出力に 含めるべき または 含めるべきでない 要素 説明、与えられたドキュメントからの具体的情報 instruction:handle-unknown 必要な知識が不足している場合にどのように出力すべ きかの説明 わからない場合は […] と回答 label プロンプト内の要素を識別するためのテキスト Instruction:;< Context >;</ Context > プロンプトには様々な構成要素が含まれている
プロンプトエンジニアリングの難しさ 5 最適なプロンプトはモデルによって異なる “Tuning LLM-based Code Optimization via Meta-Prompting: An
Industrial Perspective”より
プロンプト管理の悩みMLflowで解決しましょう 6 🧩 プロンプトのバージョン管理 • プロンプトを作成、更新、比較 🔧 保存されたプロンプトをアプリで呼び出し • プロンプトを読み込みエージェントで使用
🚀 プロンプトのパフォーマンスを分析 • 実行トレースを使用されたプロンプトごとに分析 🛠 プロンプトを自動最適化 • データドリブンな自動最適化で手動プロンプトエンジニアリングから解放
プロンプト管理の悩みMLflowで解決しましょう 7 初期プロンプトの開発 エージェントの評価、テ スト エージェントのデプロイ 実行ログを分析 プロンプトをアップデート
プロンプトのバージョン管理 8 UIもしくはPython SDKからプロンプトの作成 UIで作成 Python SDKで作成
プロンプトのバージョン管理 9 UIもしくはPython SDKからプロンプトの更新 UIから更新 Python SDKで更新
プロンプトのバージョン管理 10 UIでプロンプトを比較、エイリアスを追加 UIでプロンプトを比較 プロンプトにエイリアスを追加
プロンプトの使用 11 プロンプトテンプレートをエージェントのコードで読み込み、変数を渡す プロンプトテンプレートの読み込み テンプレートからプロンプトを作成
プロンプトのパフォーマンス分析 12 実行トレースを使用されたプロンプトごとに比較することでパフォーマンスを分析 実行トレースをプロンプトごとに比較
MLflowでプロンプトを最適化 13 MLflowのプロンプト最適化では現状のエージェントのコードをほとんど変更することなく 、最新のア ルゴリズムを使用したプロンプトの自動最適化が出来ます プロンプト最適化のフロー
MLflowでプロンプトを最適化 14 ステップ1・プロンプトをエージェントで使用し、トレーシングを有効化します @mlflow.traceでトレーシングを有 効化 登録されたプロンプトを使用
MLflowでプロンプトを最適化 15 ステップ2・エージェントを入力例に対して実行し、実行トレースを取得します
MLflowでプロンプトを最適化 16 ステップ3・実行トレースに対しラベル付けします MLflowのUI上で実行トレースにアノテーション
MLflowでプロンプトを最適化 17 ステップ4・評価指標を選択 スコアラー 評価内容 正解データが必要か RelevanceToQuery 応答がユーザー入力に直接対応しているか いいえ Correctness
応答が正解データと比較して正しいか はい* Completeness** エージェントが1つのユーザープロンプト内のすべての質問に答えているか いいえ Guidelines 応答が与えられたガイドラインに従っているか はい* ExpectationsGuidelines 応答が特定の期待やガイドラインを満たしているか はい* Safety 応答が有害・不適切な内容を避けているか いいえ RetrievalGroundedness 応答が検索で取得した情報に基づいているか いいえ RetrievalRelevance 取得された文書がユーザーの要求に関連しているか いいえ RetrievalSufficiency 取得された文書が必要な情報をすべて含んでいるか はい
MLflowでプロンプトを最適化 18 ステップ5・最適化を実行 以下の情報を指定 • トレーニングデータセット • エージェント • 最適化したいプロンプト
• 評価指標
MLflowでプロンプトを最適化 19 余談:最適化の仕組み “GEPA: Reflective Prompt Evolution Can Outperform Reinforcement
Learning”より
MLflowでプロンプトを最適化 20 ステップ6・最適化されたプロンプトを確認、使用 最適化前 最適化後 感情を分類してください。回答は 'positive' または 'negative' または
'neutral' のいず れかで答えてください。 Text: {{text}} 与えられたテキストの感情を分類してください。回答は次のいずれかの単語のみとします : 'positive' / 'negative' / 'neutral' 回答は必ず小文字で、これら 3つの単語のうち1つだけを含む形式としてください。 Text: {{text}} ガイドライン: ・'positive':テキストが満足、幸福、承認を表す場合 ・'negative':テキストが不満、怒り、失望を表す場合 ・'neutral':テキストが客観的で強い感情を含まない場合 回答は追加の説明なしで、この形式に正確に一致させてください。
2 ありがとうございました !