Databricks （と気合い）で頑張るAI Agent 運用

Databricks（と気合い）で頑張る AI Agent 運用 DATUM STUDIO株式会社亀井友裕 2026/02/24 JEDAI
Meetup! 2026年2月

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2
講演者亀井友裕会社 DATUM STUDIO 株式会社職業データエンジニア / AIエンジニア主な業務経験データパイプラインの構築（Databricks）需要予測モデルの運用（Databricks） RAGの精度改善（AWS） AIエージェントの構築（AWS, Databricks） X @Camay119 （アイコンは→）

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、作ってますか？

AI エージェントの作成 Databricks でも、コーディングエージェントに統合できるAI Dev Kit や Agent Bricks などによって、AI エージェントは簡単に作れるようになってきました。 Databricks AI Dev Kit Agent Bricks (日本リージョンはよ) • コーディングエージェントに統合できる Skills, MCP Tools をまとめた公式パッケージ • Databricks SDK, CLI で操作可能なリソースは大体内包されており、Mlflow Experiment, Model Serving などもコーディングエージェントに操作させることができる • AIエージェントをノーコードで作成できる機能 • 情報抽出、RAG、スーパーバイザーなどの典型的なエージェントをぽちぽちで作成できる

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、運用してますか？

AI エージェントの運用 AI エージェントを真面目に運用していくのはとても大変です。たくさんやることがあります。ロギング・トレーシングオフライン評価オンライン評価ユーザーフィードバック収集フィードバック分析回答不可ケース収集評価用データセット管理プロンプトインジェクション検知・対応システムプロンプト運用 LLMモデルバージョン管理メモリ管理ガードレール設計個人情報混入検知・対応デプロイメント

代表的な運用タスク代表的なタスクに、エージェントのバージョン管理、ロギング、オンライン評価、オフライン評価があります。本発表では、それぞれのタスク実行に使う Databricks の機能を紹介します。ロギングトレーシング ✓ リクエストデータのトレースをリアルタイムで評価・監視し、問題があればアラートバージョン管理デプロイメント ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービングオンライン評価 ✓ リクエスト/ツール呼び出し/応答を時系列で記録・可視化オフライン評価 ✓ 事前定義した評価用データセットを用いて、エージェント更新前後で品質変化がないかを確認 ✓ 常時 ✓ エージェント更新時 ✓ 常時 ✓ エージェント更新時概要タスク実行タイミング

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. Databricks
のエージェント運用に関連する機能

Databricks のエージェント運用に関連する機能 Databricks Mlflow Experiment Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用ツール・利用モデル・ワークフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、合否を判定する（LLM as a Judge / ルールベース） evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞いを格納した評価用データセット Logs Charts ダッシュボード Agent versions model agent.py や依存ライブラリをまとめたファイル群 trace archiving table model Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管理・デプロイメント →: ロギング・トレーシング →: オンライン評価 →: オフライン評価

バージョン管理、デプロイメント何をやるのか ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービングなぜやるのか ✓ 外部ツールからのエージェントクエリ ✓ モデルに異変が起こった場合のグレードダウン ✓ エージェント変更時の A/B テスト Serving Endpoint の画面

バージョン管理、デプロイメント Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、合否を判定する（LLM as a Judge / ルールベース） evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞いを格納した評価用データセット Logs Charts ダッシュボード trace archiving table Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管理・デプロイメント →: ロギング・トレーシング →: オンライン評価 →: オフライン評価 Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用ツール・利用モデル・ワークフロー定義を記載 Agent versions model agent.py や依存ライブラリをまとめたファイル群 model Databricks ①agent.py を作成 ② モデルのバージョン更新 mlflow.pyfunc.log_model() ③ モデルを UC に登録 mlflow.register_model() Unity Catalog ④ デプロイ agents.deploy()

ロギング、トレーシング何をやるのか ✓ リクエスト / ツール呼び出し/応答を時系列で記録・可視化なぜやるのか ✓ モニタリングによって検出した問題の原因探索 ✓ ユーザー体験の深掘りによる改善の機会の発見 Tracing の画面 https://docs.databricks.com/gcp/ja/mlflow3/genai/getting-started/tracing/tracing-notebook より

ロギング、トレーシング Unity Catalog agent.py システムプロンプト・利用ツール・利用モデル・ワークフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、合否を判定する（LLM as a Judge / ルールベース） evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞いを格納した評価用データセット Charts ダッシュボード trace archiving table model evaluate run 評価の実行結果 → :バージョン管理・デプロイメント →: ロギング・トレーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Agent versions model agent.py や依存ライブラリをまとめたファイル群 Trace エージェントのログ ①ユーザーがエージェントとやり取り ②やりとりの履歴をTrace に保存 mlflow.pyfunc.autolog()

オンライン評価（ベータ機能）何をやるのか ✓ リクエストデータのトレースをリアルタイムで評価・監視なぜやるのか ✓ アプリケーションの障害やセキュリティ攻撃、ドリフト等のリスク軽減 ✓ 改善の機会の発見 Production Monitoring の画面 https://mlflow.org/docs/3.1.3/genai/tracing/prod-tracing/#querying-traces-with-context より

オンライン評価（ベータ機能） Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用ツール・利用モデル・ワークフロー定義を記載 evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまとめたファイル群 model evaluate run 評価の実行結果 → :バージョン管理・デプロイメント →: ロギング・トレーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、合否を判定する（LLM as a Judge / ルールベース） Traces Logs trace archiving table Trace エージェントのログ Charts ダッシュボード ①スコアラーを作成 Automatically evaluate future traces using this scorer ②出力されたトレースを自動評価 ③トレースの Delta Sync を on に設定（Delta Table が作成され、同期される） ④ダッシュボードに反映される

オフライン評価何をやるのか ✓ 事前定義した評価用データセットを用いて、エージェント更新前に品質変化がないかを確認なぜやるのか ✓ ベンチマーク評価 ✓ 弱点となるユースケースの特定 Evaluation の画面 https://www.databricks.com/jp/blog/introducing-enhanced-agent-evaluation より

オフライン評価 Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Charts ダッシュボード trace archiving table model Trace エージェントのログ → :バージョン管理・デプロイメント →: ロギング・トレーシング →: オンライン評価 →: オフライン評価 ①agent.py を作成 Databricks Mlflow Experiment agent.py システムプロンプト・利用ツール・利用モデル・ワークフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、合否を判定する（LLM as a Judge / ルールベース） Datasets Dataset ユーザークエリ + 理想の振る舞いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまとめたファイル群 evaluate runs evaluate run 評価の実行結果 ③スコアラーを定義 ②モデルのバージョン更新 mlflow.pyfunc.log_model() ④評価用データセットを用意 ⑤評価を実行

Databricks には、AI エージェント運用に役立つ機能がたくさんあります

とはいえ…

「あるべき姿」は人間が決めないといけない

エージェントの「あるべき姿」は人間が決めないといけない前述の運用業務には、前提として集計するメトリクスや評価観点、評価データの整理が必要です。これら全て、エージェントのあるべき姿を定義することに他なりません。ロギングトレーシングバージョン管理デプロイメントオンライン評価オフライン評価集計メトリクスの定義＝どの失敗パターンを捕捉したいの？ LLM as a Judge による評価観点＝どの観点の品質を重視するの？評価用データ＝どんな振る舞いをよしとするの？これら全て、「理想の AI エージェント」が決まらないと定義できない

「あるべき姿」を定めるために ◼ 「このエージェントで解決したかった問題」を問い続ける ✓ RAG アプリケーションに届いた「エクセルの使い方に関する質問」は、回答できるようにすべき？ ✓ どのような要求まで対応できるようにする？をチーム内で話し合う ◼ 利用ユーザーから直接 FB を集める（明示的な FB） ✓ アプリケーション UI に good / bad や自然言語フィードバックの入力機構をつける ✓ 利用ユーザーに直接聞く ◼ 実際のユーザーの利用履歴（トレース）を観察する（暗示的な FB） ✓ ユーザーから、表現を変えた同様の質問を受け取っていないかを確認する ✓ ユーザーグループ間で会話あたりのターン数に差がないか、あるならその原因は何かを確認するエージェントの「あるべき姿」を定めるためには、ユーザーのフィードバックに根気強く向き合い続け、理想のエージェントについて考え続けることが必要です。根気強くユーザー体験に向き合っていきましょう！

Databricks （と気合い）で頑張るAI Agent 運用

Databricks （と気合い）で頑張るAI Agent 運用

camay

More Decks by camay

Other Decks in Technology

Featured

Transcript

Databricks（と気合い）で頑張る AI Agent 運用 DATUM STUDIO株式会社亀井友裕 2026/02/24 JEDAI

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 4

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. Databricks

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 10

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 14

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 15

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 16

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21

© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22