評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発

評価駆動開発で不確実性を制御する MLﬂow 3 が⽀えるエージェント開発渡辺祐貴 SWE / テックリード @ Databricks

(これまでの) MLﬂowとは学習の記録と可視化再現性の担保モデルの管理

Github Stars 22.3K PyPI Downloads >2500万 (月間) Contributors >900 Hosted
by

⽣成AIのためのMLﬂow 3

AIエージェント開発で最⼤の課題とは？

エージェントの「品質」が本番環境にリリースする上での最も大きな障害 A. 品質ハルシネーションが多くて顧客向けに出すにはリスクが⾼すぎる⼀通りテストはしたが、実際のユーザの⼊⼒をどこまでカバーできているか⾃信がない
エージェントが参照してくる情報源が古い‧ 適切でないどうやら動いているみたいだが、どうして上⼿く⾏っているのかわからない

どうやって品質を上げるか • プロンプトの改善、ドキュメントの前後処理、クエリ⽅法、ツールの選定、コンテキストの圧縮． • 毎⽉のように新しいLLMが現れてベンチマークを更新していく．ただし実際のタスクで使えるかどうかは試してみないと分からない． • LLMは極めて不確実で、⼩さな変更が別の場所に及ぼす影響は未知． •
試せる⽅法は無数にあるが、全てを検証する時間はない．品質を改善するものを選んで取り⼊れる必要がある

評価駆動開発 Collect Data Building Feedback Automatic Eval Monitoring

Collect Data Building Feedback Automatic Eval Monitoring 評価駆動開発 AIシステム‧エージェントの開発において、基準となる評価指
標を先ず設計し、評価結果をフィードバックとして⾼速に改善サイクルを回す⼿法．

評価駆動開発は〜〜ではない 🤔 「本番前に時間をかけて評価をすればよい？」 ◦ 素早くリリースして本番でのデータを得ることが最重要。 ◦ 「とりあえず動く」から「本番リリース」までの道を⾼速で駆け上がるためのテクニック。 🤔 「評価は最適化の段階になってからの話だよね」 ◦
従来の機械学習では、Accuracyを90%→95%にチューニングしていくイメージ． ◦ AIエージェント開発における評価は、どちらかというとソフトウェアのテストに近く、⾼速なフィードバックループを得るための仕組み。 🤔 「いきなり評価から始めないといけないの？」 ◦ 0→1の段階でいきなり評価を取り⼊れるのは難しい。 ◦ 評価駆動開発に移⾏できる状態にはしておく。（例：トレースの有効化）

基盤: トレース‧可観測性

MLﬂowトレーシングエージェントやワークフローの各ステップについて、入出力やレイテンシ、例外などを記録して可視化

mlﬂow.library.autolog() OpenTelemetry Traces MLﬂowトレーシング既存のコードに1⾏⾜すだけで⾃動トレーシング

• ソフトウェアの可観測性における業界標準の仕様とSDK • MLflowのトレースはOpenTelemetry SDK上に構築されており、データも仕様に準拠しているため、ベンダーや⾔語に⾮依存。 • 例えばMLflowのトレースをGrafanaやNew Relicに送ったり、 OpenTelemetryをサポートしているあらゆる⾔語（Java,
Go, Rust, …）のサービスから直接MLflowにトレースを記録できる。 OpenTelemetry準拠

評価駆動開発の流れ

#1: エージェントをとりあえず”動く”状態にトレースが例外の詳細を記録各ステップの入出力を用いて簡単にデバッグフレークワークを活用して高速に、トレースで抽象化の内部を可視化

#2: ⼈⼿での評価ドメインエキスパートや開発者自身による評価は過半数の PJで実施されているトレース上でアノテーションして結果を直接保存できる

＃3: ⾃動評価評価指標 (Scorer) mlﬂow.genai.evaluate() MLflowではmlflow.genai.evaluate() APIとScorerの組み合わせで実装データセットエージェントトレース

評価指標の選び⽅ No one-size-ﬁts-all. ⽬的に合わせて適切な⽅法を選ぶ． MLﬂow標準の評価指標シンプルなガイドラインJudge ⾃前プロンプトを⽤いたLLM Judge指標完全にカスタムなコード実装単純さ
柔軟性

標準装備の評価指標 21 質問との関連度 (RelevanceToQuery) 正確性 (Correctness) 要求達成度 (Completeness) 安全性 (Safety)
正答との⼀致 (Equivalence) ユーザの満⾜度 (UserFrustration) ハルシネーション (Groundedness) コンテキストの⼗分性 (RetrievalSuﬃciency) ドキュメントの関連性 (DocumentRelevance) … 年内にさらに追加予定

‧類似度 ‧完全⼀致 ‧SQLクエリ同値性 ‧有害性 ‧PII漏洩 ‧バイアス ‧画像⼀貫性 ‧画像参照の正しさ ‧要約 ‧会話の関連性
‧会話の完結性標準装備の評価指標 + α MLflowと評価ライブラリの連携を利用して、あらゆる指標を MLflowで一元管理 ‧コンテキスト適合率 ‧コンテキスト再現率 ‧ノイズ感受性 ‧忠実性 ‧トピック順守度 ‧ロール順守度 ‧知識の保持率 ‧ツール呼び出し精度 ‧ツール呼び出し再現性 ‧ツール呼び出しF1スコア ‧エージェント⽬標達成精度 ‧質問の関連度 ‧正確性 ‧要求達成度 ‧安全性 ‧正答との⼀致 ‧ユーザの満⾜度 ‧ハルシネーション ‧コンテキストの⼗分性 ‧ドキュメントの関連性 ‧トークン使⽤数 ‧レイテンシー

coherence_judge = make_judge( name="coherence", instructions=( "Evaluate if the response is
coherent, maintaining a constant tone " "and following a clear flow of thoughts/concepts" "Question: {{ inputs }}\n\n Response: {{ outputs }}\n" ), feedback_value_type=Literal["coherent", "incoherent", “unsure”], model="anthropic:/claude-opus-4-1-20250805", ) カスタムのLLM Judge指標 23 is_english = Guidelines(“answer must be English”, name=) ⽅法１: ガイドラインAPIで簡単にLLM Judgeを定義⽅法２: より複雑なケースでは make_judge() APIを利⽤

from mlflow.genai import scorer @scorer def tool_call_trajectory(trace, expectations) -> Feedback:
# 呼び出されたツールをトレースから取得 tool_call_spans = trace.search_spans(span_type=SpanType.TOOL) # ツールの実行履歴を期待した順番と比較 actual_trajectory = [span.name for span in tool_call_spans] expected_trajectory = expectations["tool_call_trajectory"] if actual_trajectory == expected_trajectory: return Feedback(value=1, rationale="The tool call trajectory is correct.") else: return Feedback(value=0,　rationale="The tool call trajectory is incorrect.") コードで指標を実装する 24 例：ツール呼び出しの順番を評価する指標トレース‧⼊⼒‧出⼒‧教師値の任意の組み合わせを引数にとる @scorerデコレータをつけてあらゆる関数を評価指標に

⾃動評価の仕組み作りビジネスゴールに沿った適切な指標の設計が重要 1. KPIや⼈⼿での評価結果に基づいて、重要な評価基準を決定 2. 想定される質問‧⼊⼒を収集 3. 標準の評価指標で⾜りない場合、カスタムの指標を実装‧テスト 4. ⾃動評価を実⾏、⼈⼿での評価とズレていないか確認

LLMによる評価を⼈間の評価にアラインする • ライブラリ標準の指標は便利だが、最適ではない． • しかし、評価指標を全てプロンプトエンジニアリングするのは⾮現実的 • → トレースに記録した⼈⼿評価をターゲットとしてプロンプト最適化 from mlflow.genai.judges.optimizers
import SIMBAAlignmentOptimizer judge = Guidelines(name="tone_judge”, guidelines=“The answer must be polite”) optimizer = SIMBAAlignmentOptimizer(model="anthropic:/claude-opus-4-1-20250805") aligned_judge = judge.align(traces, optimizer)

Agent-as-a-Judge 評価⽤のAgentがトレースを⾃ら⾛査して評価

ジャッジコストの可視化プロンプト最適化で軽量モデルへの移行でも、お⾼いんでしょう？使⽤したLLMや評価の理由も記録

⾃動評価を⽤いた⾼速フィードバックループ 1. 実装やモデルを変更 2. 評価/テスト結果を元に実装の変更 3. 複数⼿法の結果を可視化‧⽐較 4. 新しい問題が⾒つかったら対応する Judgeを作成（テストケースの追加）
5. １に戻る

#4: 本番環境での監視‧観測

#4: 本番環境での監視‧観測 ↑ トレースの検索 ↑ トークン使⽤量の追跡

#4: 本番環境での監視‧観測評価指標を登録してオフラインとオンラインで実行

#5: 本番データの収集‧分析 ↑ データセットの作成 ↑ トレースをデータセットに追加 → データセットの変更を管理

34 #5: 本番データの収集‧活⽤ Coding Agentでエラーや低品質の回答の原因を分析トレース分析エージェント (Coming soon!) プロンプトの自動最適化

MLflow 3をはじめる

36 💻 でインストール 📦 Python環境がなくてもDockerでデプロイできます 📚 詳しい機能はウェブサイトとDocもぜひ: https://mlflow.org/ 🚀
デモ⽤のプロジェクトを1⽉に追加予定 👕 何も設定したくない⼈はDatabricksの無料版もおすすめ MLflowのはじめ⽅ $pip install mlflow

評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発

評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発

Databricks Japan

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript

評価駆動開発で不確実性を制御する MLﬂow 3 が⽀えるエージェント開発渡辺祐貴 SWE / テックリード @ Databricks

(これまでの) MLﬂowとは学習の記録と可視化再現性の担保モデルの管理

Github Stars 22.3K PyPI Downloads >2500万 (月間) Contributors >900 Hosted

⽣成AIのためのMLﬂow 3

AIエージェント開発で最⼤の課題とは？

評価駆動開発 Collect Data Building Feedback Automatic Eval Monitoring

Collect Data Building Feedback Automatic Eval Monitoring 評価駆動開発 AIシステム‧エージェントの開発において、基準となる評価指

基盤: トレース‧可観測性

MLﬂowトレーシングエージェントやワークフローの各ステップについて、入出力やレイテンシ、例外などを記録して可視化

mlﬂow.library.autolog() OpenTelemetry Traces MLﬂowトレーシング既存のコードに1⾏⾜すだけで⾃動トレーシング

評価駆動開発の流れ

#1: エージェントをとりあえず”動く”状態にトレースが例外の詳細を記録各ステップの入出力を用いて簡単にデバッグフレークワークを活用して高速に、トレースで抽象化の内部を可視化

#2: ⼈⼿での評価ドメインエキスパートや開発者自身による評価は過半数の PJで実施されているトレース上でアノテーションして結果を直接保存できる

＃3: ⾃動評価評価指標 (Scorer) mlﬂow.genai.evaluate() MLflowではmlflow.genai.evaluate() APIとScorerの組み合わせで実装データセットエージェントトレース

評価指標の選び⽅ No one-size-ﬁts-all. ⽬的に合わせて適切な⽅法を選ぶ． MLﬂow標準の評価指標シンプルなガイドラインJudge ⾃前プロンプトを⽤いたLLM Judge指標完全にカスタムなコード実装単純さ

標準装備の評価指標 21 質問との関連度 (RelevanceToQuery) 正確性 (Correctness) 要求達成度 (Completeness) 安全性 (Safety)

‧類似度 ‧完全⼀致 ‧SQLクエリ同値性 ‧有害性 ‧PII漏洩 ‧バイアス ‧画像⼀貫性 ‧画像参照の正しさ ‧要約 ‧会話の関連性

coherence_judge = make_judge( name="coherence", instructions=( "Evaluate if the response is

from mlflow.genai import scorer @scorer def tool_call_trajectory(trace, expectations) -> Feedback:

Agent-as-a-Judge 評価⽤のAgentがトレースを⾃ら⾛査して評価

ジャッジコストの可視化プロンプト最適化で軽量モデルへの移行でも、お⾼いんでしょう？使⽤したLLMや評価の理由も記録

⾃動評価を⽤いた⾼速フィードバックループ 1. 実装やモデルを変更 2. 評価/テスト結果を元に実装の変更 3. 複数⼿法の結果を可視化‧⽐較 4. 新しい問題が⾒つかったら対応する Judgeを作成（テストケースの追加）

#4: 本番環境での監視‧観測

#4: 本番環境での監視‧観測 ↑ トレースの検索 ↑ トークン使⽤量の追跡

#4: 本番環境での監視‧観測評価指標を登録してオフラインとオンラインで実行

#5: 本番データの収集‧分析 ↑ データセットの作成 ↑ トレースをデータセットに追加 → データセットの変更を管理

34 #5: 本番データの収集‧活⽤ Coding Agentでエラーや低品質の回答の原因を分析トレース分析エージェント (Coming soon!) プロンプトの自動最適化

MLflow 3をはじめる

36 💻 でインストール 📦 Python環境がなくてもDockerでデプロイできます 📚 詳しい機能はウェブサイトとDocもぜひ: https://mlﬂow.org/ 🚀