$30 off During Our Annual Pro Sale. View Details »

MLflowで始めるプロンプト管理、評価、最適化

 MLflowで始めるプロンプト管理、評価、最適化

Avatar for Databricks Japan

Databricks Japan

December 10, 2025
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. 3 生成AIを本番環境で使う際の課題感 • 手動でのプロンプト編集は時間がかかる • 障害が起きたら以前使っていたプロンプトにすぐ戻した い • 使われているプロンプトを非エンジニアも見れるようにし たい

    • 新しく出たモデルに合わせてプロンプトを変更したい • どちらのプロンプトが本番でうまく動くのかテストしたい OpenAIモデルを呼び出すサンプルコード
  2. プロンプトエンジニアリングの難しさ 4 “”Exploring Prompt Engineering Practices in the Enterprise” より

    プロンプト構成要素 説明 例 instruction:task プロンプトの目的、目標、および要求される出力に関す る詳細 ドキュメントに基づいて質問に答える;ドキュメン トを要約する instruction:persona 出力を生成するときに LLMが担うべき人物像や役割 SQLの専門家;AIアシスタント instruction:method LLMが出力を生成する際に経るべきプロセスの説明 ステップ・バイ・ステップ instruction:output-length 生成される出力の長さに関する説明 50語;簡潔に instruction:output-format 出力の形式 JSON;段落 instruction:inclusion 出力に 含めるべき または 含めるべきでない 要素 説明、与えられたドキュメントからの具体的情報 instruction:handle-unknown 必要な知識が不足している場合にどのように出力すべ きかの説明 わからない場合は […] と回答 label プロンプト内の要素を識別するためのテキスト Instruction:;< Context >;</ Context > プロンプトには様々な構成要素が含まれている
  3. プロンプト管理の悩みMLflowで解決しましょう 6 🧩 プロンプトのバージョン管理 • プロンプトを作成、更新、比較 🔧 保存されたプロンプトをアプリで呼び出し • プロンプトを読み込みエージェントで使用

    🚀 プロンプトのパフォーマンスを分析 • 実行トレースを使用されたプロンプトごとに分析 🛠 プロンプトを自動最適化 • データドリブンな自動最適化で手動プロンプトエンジニアリングから解放
  4. MLflowでプロンプトを最適化 17 ステップ4・評価指標を選択 スコアラー 評価内容 正解データが必要か RelevanceToQuery 応答がユーザー入力に直接対応しているか いいえ Correctness

    応答が正解データと比較して正しいか はい* Completeness** エージェントが1つのユーザープロンプト内のすべての質問に答えているか いいえ Guidelines 応答が与えられたガイドラインに従っているか はい* ExpectationsGuidelines 応答が特定の期待やガイドラインを満たしているか はい* Safety 応答が有害・不適切な内容を避けているか いいえ RetrievalGroundedness 応答が検索で取得した情報に基づいているか いいえ RetrievalRelevance 取得された文書がユーザーの要求に関連しているか いいえ RetrievalSufficiency 取得された文書が必要な情報をすべて含んでいるか はい
  5. MLflowでプロンプトを最適化 20 ステップ6・最適化されたプロンプトを確認、使用 最適化前 最適化後 感情を分類してください。回答は 'positive' または 'negative' または

    'neutral' のいず れかで答えてください。 Text: {{text}} 与えられたテキストの感情を分類してください。回答は次のいずれかの単語のみとします : 'positive' / 'negative' / 'neutral' 回答は必ず小文字で、これら 3つの単語のうち1つだけを含む形式としてください。 Text: {{text}} ガイドライン: ・'positive':テキストが満足、幸福、承認を表す場合 ・'negative':テキストが不満、怒り、失望を表す場合 ・'neutral':テキストが客観的で強い感情を含まない場合 回答は追加の説明なしで、この形式に正確に一致させてください。