Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks (と気合い)で頑張るAI Agent 運用
Search
camay
February 24, 2026
Technology
0
140
Databricks (と気合い)で頑張るAI Agent 運用
JEDAI Meetup! 2026年2月(
https://jedai.connpass.com/event/383582/
)の発表資料です
camay
February 24, 2026
Tweet
Share
More Decks by camay
See All by camay
Databricks Lakebaseで見る、ML/LLMシステムでのPostgreSQLの使いどころ
kameitomohiro
0
500
Databricks AI/BI Genie の「値ディクショナリー」をAmazonの奥地(S3)まで見に行く
kameitomohiro
1
550
Lakebaseを使ったAIエージェントを実装してみる
kameitomohiro
0
420
新卒3年目の後悔〜機械学習モデルジョブの運用を頑張った話〜
kameitomohiro
0
560
SnowflakeとDatabricks両方でRAGを構築してみた
kameitomohiro
2
1.5k
SPCSでMLflow~初心者によるMLOps事始め~
kameitomohiro
0
190
Other Decks in Technology
See All in Technology
【Claude Code】Plugins作成から始まったファインディの開発フロー改革
starfish719
0
400
フルスタックGoでスコア改ざんを防いだ話
ponyo877
0
510
20260222ねこIoTLT ねこIoTLTをふりかえる
poropinai1966
0
180
opsmethod第1回_アラート調査の自動化にむけて
yamatook
0
270
AI時代のAPIファースト開発
nagix
1
420
Claude Codeはレガシー移行でどこまで使えるのか?
ak2ie
0
200
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
57
47k
LINEアプリ開発のための Claude Code活用基盤の構築
lycorptech_jp
PRO
0
450
LLMOpsのこれまでとこれからを学ぶ
nsakki55
2
660
全自動で回せ!Claude Codeマーケットプレイス運用術
yukyu30
3
110
Open Table Formatにおけるストレージ抽象化の比較
lycorptech_jp
PRO
1
200
GitHub Copilot CLI 現状確認会議(2026年2月のすがた)
torumakabe
4
530
Featured
See All Featured
Mind Mapping
helmedeiros
PRO
1
100
The Mindset for Success: Future Career Progression
greggifford
PRO
0
250
Marketing to machines
jonoalderson
1
5k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
It's Worth the Effort
3n
188
29k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
80
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
320
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
350
Transcript
Databricks(と気合い)で 頑張る AI Agent 運用 DATUM STUDIO株式会社 亀井友裕 2026/02/24 JEDAI
Meetup! 2026年2月
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2
講演者 亀井 友裕 会社 DATUM STUDIO 株式会社 職業 データエンジニア / AIエンジニア 主な 業務経験 データパイプラインの構築(Databricks) 需要予測モデルの運用(Databricks) RAGの精度改善(AWS) AIエージェントの構築(AWS, Databricks) X @Camay119 (アイコンは→)
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、作ってますか?
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 4
AI エージェントの作成 Databricks でも、コーディングエージェントに統合できるAI Dev Kit や Agent Bricks などによって、AI エージェントは簡単に作れるようになってきました。 Databricks AI Dev Kit Agent Bricks (日本リージョンはよ) • コーディングエージェントに統合できる Skills, MCP Tools をまとめた公式パッケージ • Databricks SDK, CLI で操作可能なリソースは大体内包されており、Mlflow Experiment, Model Serving などもコーディングエージェントに操作させることができ る • AIエージェントをノーコードで作成できる機能 • 情報抽出、RAG、スーパーバイザーなどの典型的なエージェントをぽちぽちで作成できる
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. AI
エージェント、運用してますか?
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6
AI エージェントの運用 AI エージェントを真面目に運用していくのはとても大変です。たくさんやることがあります。 ロギング・トレーシング オフライン評価 オンライン評価 ユーザーフィードバック収集 フィードバック分析 回答不可ケース収集 評価用データセット管理 プロンプトインジェクション検知・対応 システムプロンプト運用 LLMモデルバージョン管理 メモリ管理 ガードレール設計 個人情報混入検知・対応 デプロイメント
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7
代表的な運用タスク 代表的なタスクに、エージェントのバージョン管理、ロギング、オンライン評価、オフライン評価があります。本発 表では、それぞれのタスク実行に使う Databricks の機能を紹介します。 ロギング トレーシング ✓ リクエストデータのトレースをリアルタイムで評価・監視し、問題があればアラー ト バージョン管理 デプロイメント ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービ ング オンライン評価 ✓ リクエスト/ツール呼び出し/応答を時系列で記録・可視化 オフライン評価 ✓ 事前定義した評価用データセットを用いて、エージェント更新前後で品質変 化がないかを確認 ✓ 常時 ✓ エージェント更新時 ✓ 常時 ✓ エージェント更新時 概要 タスク 実行タイミング
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. Databricks
のエージェント運用に関連する機能
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9
Databricks のエージェント運用に関連する機能 Databricks Mlflow Experiment Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード Agent versions model agent.py や依存ライブラリをまと めたファイル群 trace archiving table model Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 10
バージョン管理、デプロイメント 何をやるのか ✓ プロンプトや基盤モデル、ツールの更新をバージョン管理し、最新版をサービング なぜやるのか ✓ 外部ツールからのエージェントクエリ ✓ モデルに異変が起こった場合のグレードダウン ✓ エージェント変更時の A/B テスト Serving Endpoint の画面
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 11
バージョン管理、デプロイメント Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Traces Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Logs Charts ダッシュボード trace archiving table Trace エージェントのログ evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Agent versions model agent.py や依存ライブラリをまと めたファイル群 model Databricks ①agent.py を作成 ② モデルのバージョン更新 mlflow.pyfunc.log_model() ③ モデルを UC に登録 mlflow.register_model() Unity Catalog ④ デプロイ agents.deploy()
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12
ロギング、トレーシング 何をやるのか ✓ リクエスト / ツール呼び出し/応答を時系列で記録・可視化 なぜやるのか ✓ モニタリングによって検出した問題の原因探索 ✓ ユーザー体験の深掘りによる改善の機会の発見 Tracing の画面 https://docs.databricks.com/gcp/ja/mlflow3/genai/getting-started/tracing/tracing-notebook より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13
ロギング、トレーシング Unity Catalog agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Charts ダッシュボード trace archiving table model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Agent versions model agent.py や依存ライブラリをまと めたファイル群 Trace エージェントのログ ①ユーザーがエージェント とやり取り ②やりとりの履歴をTrace に保存 mlflow.pyfunc.autolog()
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 14
オンライン評価(ベータ機能) 何をやるのか ✓ リクエストデータのトレースをリアルタイムで評価・監視 なぜやるのか ✓ アプリケーションの障害やセキュリティ攻撃、ドリフト等のリスク軽減 ✓ 改善の機会の発見 Production Monitoring の画面 https://mlflow.org/docs/3.1.3/genai/tracing/prod-tracing/#querying-traces-with-context より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 15
オンライン評価(ベータ機能) Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 evaluate runs Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 model evaluate run 評価の実行結果 → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 Databricks Mlflow Experiment Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Traces Logs trace archiving table Trace エージェントのログ Charts ダッシュボード ①スコアラーを作成 Automatically evaluate future traces using this scorer ②出力されたトレースを自動評価 ③トレースの Delta Sync を on に設定 (Delta Table が作成され、同期される) ④ダッシュボードに反映される
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 16
オフライン評価 何をやるのか ✓ 事前定義した評価用データセットを用いて、エージェント更新前に品質変化がないかを確認 なぜやるのか ✓ ベンチマーク評価 ✓ 弱点となるユースケースの特定 Evaluation の画面 https://www.databricks.com/jp/blog/introducing-enhanced-agent-evaluation より
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17
オフライン評価 Unity Catalog Serving endpoint 外部からのリクエストを受け付ける API Traces Logs Charts ダッシュボード trace archiving table model Trace エージェントのログ → :バージョン管 理・デプロイメント →: ロギング・ト レーシング →: オンライン評価 →: オフライン評価 ①agent.py を作成 Databricks Mlflow Experiment agent.py システムプロンプト・利用 ツール・利用モデル・ワー クフロー定義を記載 Judges scorer エージェントの振る舞いを採点し、 合否を判定する(LLM as a Judge / ルールベース) Datasets Dataset ユーザークエリ + 理想の振る舞 いを格納した評価用データセット Agent versions model agent.py や依存ライブラリをまと めたファイル群 evaluate runs evaluate run 評価の実行結果 ③スコアラーを定義 ②モデルのバージョン更新 mlflow.pyfunc.log_model() ④評価用データセットを用意 ⑤評価を実行
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18
Databricks には、AI エージェント運用に役立つ 機能がたくさんあります
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19
とはいえ…
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20
「あるべき姿」は 人間が決めないといけない
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21
エージェントの「あるべき姿」は人間が決めないといけない 前述の運用業務には、前提として集計するメトリクスや評価観点、評価データの整理が必要です。これら全て、 エージェントのあるべき姿を定義することに他なりません。 ロギング トレーシング バージョン管理 デプロイメント オンライン評価 オフライン評価 集計メトリクスの定義 = どの失敗パターンを捕捉したいの? LLM as a Judge による評価観点 = どの観点の品質を重視するの? 評価用データ = どんな振る舞いをよしとするの? これら全て、「理想の AI エージェント」が決まらないと定義できない
© 2026 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22
「あるべき姿」を定めるために ◼ 「このエージェントで解決したかった問題」を問い続ける ✓ RAG アプリケーションに届いた「エクセルの使い方に関する質問」は、回答できるようにすべき? ✓ どのような要求まで対応できるようにする?をチーム内で話し合う ◼ 利用ユーザーから直接 FB を集める(明示的な FB) ✓ アプリケーション UI に good / bad や自然言語フィードバックの入力機構をつける ✓ 利用ユーザーに直接聞く ◼ 実際のユーザーの利用履歴(トレース)を観察する(暗示的な FB) ✓ ユーザーから、表現を変えた同様の質問を受け取っていないかを確認する ✓ ユーザーグループ間で会話あたりのターン数に差がないか、あるならその原因は何かを確認する エージェントの「あるべき姿」を定めるためには、ユーザーのフィードバックに根気強く向き合い続け、理想のエー ジェントについて考え続けることが必要です。 根気強くユーザー体験に向き合っていきましょう!