Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks (と気合い)で頑張るAI Agent 運用

Avatar for camay camay
February 24, 2026

Databricks (と気合い)で頑張るAI Agent 運用

JEDAI Meetup! 2026年2月( https://jedai.connpass.com/event/383582/ )の発表資料です

Avatar for camay

camay

February 24, 2026
Tweet

More Decks by camay

Other Decks in Technology

Transcript

  1. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2

    講演者 亀井 友裕 会社 DATUM STUDIO 株式会社 職業 データエンジニア / AIエンジニア 主な 業務経験 データパイプラインの構築(Databricks) 需要予測モデルの運用(Databricks) RAGの精度改善(AWS) AIエージェントの構築(AWS, Databricks) X @Camay119 (アイコンは→)
  2. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI

    エージェント、作ってますか?
  3. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 4

    AI エージェントの作成 Databricks でも、コーディングエージェントに統合できるAI Dev Kit や Agent Bricks などによって、AI エージェントは簡単に作れるようになってきました。 Databricks AI Dev Kit Agent Bricks (日本リージョンはよ) • コーディングエージェントに統合できる Skills, MCP Tools をまとめた公式パッケージ • Databricks SDK, CLI で操作可能なリソースは大体内包されており、Mlflow Experiment, Model Serving などもコーディングエージェントに操作させることができ る • AIエージェントをノーコードで作成できる機能 • 情報抽出、RAG、スーパーバイザーなどの典型的なエージェントをぽちぽちで作成できる
  4. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI

    エージェント、運用してますか?
  5. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6

    AI エージェントの運用 AI エージェントを真面目に運用していくのはとても大変です。たくさんやることがあります。 ロギング・トレーシング オフライン評価 オンライン評価 ユーザーフィードバック収集 フィードバック分析 回答不可ケース収集 評価用データセット管理 プロンプトインジェクション検知・対応 システムプロンプト運用 LLMモデルバージョン管理 メモリ管理 ガードレール設計 個人情報混入検知・対応 デプロイメント
  6. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7

    代表的な運用タスク 代表的なタスクに、エージェントのバージョン管理、ロギング、オンライン評価、オフライン評価があります。本発 表では、それぞれのタスク実行に使う Databricks の機能を紹介します。 ロギング トレーシング ✓ リクエストデータのトレースをリアルタイムで評価・監視し、問題があればアラー ト バージョン管理 デプロイメント ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービ ング オンライン評価 ✓ リクエスト/ツール呼び出し/応答を時系列で記録・可視化 オフライン評価 ✓ 事前定義した評価用データセットを用いて、エージェント更新前後で品質変 化がないかを確認 ✓ 常時 ✓ エージェント更新時 ✓ 常時 ✓ エージェント更新時 概要 タスク 実行タイミング
  7. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. Databricks

    のエージェント運用に関連する機能
  8. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9

    Databricks のエージェント運用に関連する機能 Databricks Mlflow Experiment Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード Agent versions model agent.py や依存ライブラリをまと めたファイル群 trace archiving table model Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価
  9. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 10

    バージョン管理、デプロイメント 何をやるのか ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービング なぜやるのか ✓ 外部ツールからのエージェントクエリ ✓ モデルに異変が起こった場合のグレードダウン ✓ エージェント変更時の A/B テスト Serving Endpoint の画面
  10. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11

    バージョン管理、デプロイメント Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード trace archiving table Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Agent versions model agent.py や依存ライブラリをまと めたファイル群 model Databricks ①agent.py を作成 ② モデルのバージョン更新 mlflow.pyfunc.log_model() ③ モデルを UC に登録 mlflow.register_model() Unity Catalog ④ デプロイ agents.deploy()
  11. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12

    ロギング、トレーシング 何をやるのか ✓ リクエスト / ツール呼び出し/応答を時系列で記録・可視化 なぜやるのか ✓ モニタリングによって検出した問題の原因探索 ✓ ユーザー体験の深掘りによる改善の機会の発見 Tracing の画面 https://docs.databricks.com/gcp/ja/mlflow3/genai/getting-started/tracing/tracing-notebook より
  12. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13

    ロギング、トレーシング Unity Catalog agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Charts ダッシュボード trace archiving table model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Agent versions model agent.py や依存ライブラリをまと めたファイル群 Trace エージェントのログ ①ユーザーがエージェント とやり取り ②やりとりの履歴をTrace に保存 mlflow.pyfunc.autolog()
  13. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 14

    オンライン評価(ベータ機能) 何をやるのか ✓ リクエストデータのトレースをリアルタイムで評価・監視 なぜやるのか ✓ アプリケーションの障害やセキュリティ攻撃、ドリフト等のリスク軽減 ✓ 改善の機会の発見 Production Monitoring の画面 https://mlflow.org/docs/3.1.3/genai/tracing/prod-tracing/#querying-traces-with-context より
  14. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 15

    オンライン評価(ベータ機能) Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Traces Logs trace archiving table Trace エージェントのログ Charts ダッシュボード ①スコアラーを作成 Automatically evaluate future traces using this scorer ②出力されたトレースを自動評価 ③トレースの Delta Sync を on に設定 (Delta Table が作成され、同期される) ④ダッシュボードに反映される
  15. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 16

    オフライン評価 何をやるのか ✓ 事前定義した評価用データセットを用いて、エージェント更新前に品質変化がないかを確認 なぜやるのか ✓ ベンチマーク評価 ✓ 弱点となるユースケースの特定 Evaluation の画面 https://www.databricks.com/jp/blog/introducing-enhanced-agent-evaluation より
  16. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17

    オフライン評価 Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Charts ダッシュボード trace archiving table model Trace エージェントのログ → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 ①agent.py を作成 Databricks Mlflow Experiment agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 evaluate runs evaluate run 評価の実行結果 ③スコアラーを定義 ②モデルのバージョン更新 mlflow.pyfunc.log_model() ④評価用データセットを用意 ⑤評価を実行
  17. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18

    Databricks には、AI エージェント運用に役立つ 機能がたくさんあります
  18. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20

    「あるべき姿」は 人間が決めないといけない
  19. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21

    エージェントの「あるべき姿」は人間が決めないといけない 前述の運用業務には、前提として集計するメトリクスや評価観点、評価データの整理が必要です。これら全て、 エージェントのあるべき姿を定義することに他なりません。 ロギング トレーシング バージョン管理 デプロイメント オンライン評価 オフライン評価 集計メトリクスの定義 = どの失敗パターンを捕捉したいの? LLM as a Judge による評価観点 = どの観点の品質を重視するの? 評価用データ = どんな振る舞いをよしとするの? これら全て、「理想の AI エージェント」が決まらないと定義できない
  20. © 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22

    「あるべき姿」を定めるために ◼ 「このエージェントで解決したかった問題」を問い続ける ✓ RAG アプリケーションに届いた「エクセルの使い方に関する質問」は、回答できるようにすべき? ✓ どのような要求まで対応できるようにする?をチーム内で話し合う ◼ 利用ユーザーから直接 FB を集める(明示的な FB) ✓ アプリケーション UI に good / bad や自然言語フィードバックの入力機構をつける ✓ 利用ユーザーに直接聞く ◼ 実際のユーザーの利用履歴(トレース)を観察する(暗示的な FB) ✓ ユーザーから、表現を変えた同様の質問を受け取っていないかを確認する ✓ ユーザーグループ間で会話あたりのターン数に差がないか、あるならその原因は何かを確認する エージェントの「あるべき姿」を定めるためには、ユーザーのフィードバックに根気強く向き合い続け、理想のエー ジェントについて考え続けることが必要です。 根気強くユーザー体験に向き合っていきましょう!