Databricksデータサイエンスワークショップ / data-science-workshop

©2025 Databricks Inc. — All rights reserved 1 データブリックス・ジャパン株式会社 2025年11月
1 2時間で身につく！ Databricksを用いたデータサイエンス

©2025 Databricks Inc. — All rights reserved 2時間で身につく！ Databricksを用いたデータサイエンス主な対象者
2時間のワークショップを通じて、 Databricksを活用したデータサイエンス、機械学習モデル構築をハンズオン形式で体験いただきます。 • データブリックスを用いたデータ分析にご興味をお持ちの方 • 生成AIを含むAI・MLモデルを本番化（バッチ・API化）、運用する方々ゴール事前準備アジェンダ 1. 事前説明（30分） ◦ データブリックスにおけるデータサイエンス・ ML 2. ハンズオン（90分） ◦ Notebookを使ってモデル作成 ◦ Unity Catalogへ登録、推論 • DatabricksにおけるMLOps関連の機能を把握する • Notebookを用いたデータ分析に加えて機械学習モデル構築、MLFlowを使って比較する方法を理解する • 環境：お客様のDatabricks環境を利用いただきます • データ：弊社よりサンプルデータを提供いたします

あなたのすべてのデータに対するオープンで統合された基盤データレイクハウスデータとAIを容易にスケール、活用生成AI 組織全体におけるデータ+AIの民主化データインテリジェンスプラットフォーム

すべての生データ (ログ、テキスト、音声、動画、画像 ) ETL & リアルタイム分析オーケストレーションデータウェアハウスデータサイエンス &
AI Mosaic AI Delta Live Tables Workﬂows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォームオープンデータレイク

ETL & リアルタイム分析オーケストレーションデータウェアハウスデータサイエンス & AI Mosaic AI
Delta Live Tables Workﬂows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog Databricksデータインテリジェンスプラットフォーム信頼性と共有のための統合データストレージ Delta Lake データのセマンティクスを理解するために生成AIを活用データインテリジェンスエンジンオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像 )

ETL & Real-time Analytics Orchestration Data Warehousing Data Science &
AI Mosaic AI Workflows Databricks SQL Unified security, governance, and cataloging Unity Catalog Databricksデータインテリジェンスプラットフォーム Unified data storage for reliability and sharing Delta Lake データのセマンティクスを理解するために生成AIを活用データインテリジェンスエンジンオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像 ) Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化 Databricks SQL Text-to-SQL Workflows 過去の実行に基づくジョブコストの最適化 Delta Live Tables 自動化されたデータ品質 Mosaic AI カスタムLLMの作成、チューン、サービング

Databricksデータインテリジェンスプラットフォームデータ中心の AI 生成AI • カスタムモデル • モデルサービング • RAG
エンドツーエンド AI • MLOps (MLﬂow) • AutoML • モニタリング • ガバナンスデータのセマンティクスを理解するために生成AIを活用データインテリジェンスエンジンオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL Text-to-SQL Workﬂows 過去の実行に基づくジョブコストの最適化 Delta Live Tables 自動化されたデータ品質 Mosaic AI カスタムLLMの作成チューン、サービング Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化

AI ML DL LLM …. ? 人工知能 (AI) 人間の知能を模倣できるシステムの構築を狙いとしたコンピュータサイエンスの学祭的領域機械学習
(ML) 明示的にプログラムすることなしに既存データから学習して予測 Deep Learning (DL) データから学習するために人工ニューラルネットワークを活用生成AI 新たなコンテンツ(画像、テキスト、音声、コード...)の生成にフォーカスしたAIのサブ領域 LLM 高度な言語処理能力を達成するために膨大なデータセットでトレーニングされたモデル基盤モデル (GPT-4, BERT, MPT-7B, …) 特定の言語の理解、生成タスクにファインチューンされたLLM

従来型、プロプライエタリ、オープンソース生成AI + LLMをサポートあなたのユースケースにベストなモデルを選択 Databricksの生成AIアプローチディープラーニングモデル従来のML アルゴリズム
プロプライエタリLLM オープンソース AI + LLM チェーン & エージェント Dolly MPT Stable Diffusion

Mosaic AIはデータ中心のアプローチです事前学習モデルの活用、カスタムモデルの構築リアルタイムアプリへのモデルのサービング、監視ネイティブツールでデータと特徴量を準
備データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データセットモデルアプリケーション

Mosaic AIはデータ中心のアプローチです事前学習モデルの活用、カスタムモデルの構築リアルタイムアプリへのモデルのサービング、監視ネイティブツールでデータと特徴量を準
備データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データセットモデルアプリケーションデータプラットフォーム上に構築高速なデプロイメントビルトインのガバナンスとモニタリング

DSとMLのライフサイクル 13

完全なMLライフサイクルデータクリーニングデータ収集 EDA 探索的データ分析特徴量エンジニアリングモデル選択モデルトレーニングモデル評価実験トラッキング
コラボレーションとガバナンスモデルデプロイメントモデルモニタリングモデルメンテナンスバージョン管理継続的モニタリングモデルのバージョン管理 / タグ付けモデルの昇格モデルメタデータ管理 CI/CDと自動化ハイパーパラメーターチューニング

コラボレーションとガバナンスモデルデプロイメントモデルモニタリングモデルメンテナンスバージョン管理継続的モニタリングモデルのバージョン管理 / タグ付けモデルの昇格モデルメタデータ管理 CI/CDと自動化ハイパーパラメーターチューニングデータエンジニアリングモデル開発モデルトラッキングモデルレジストリモデルデプロイメント

コラボレーションとガバナンスモデルデプロイメントレイクハウスモニタリングモデルメンテナンスバージョン管理継続的モニタリングモデルのバージョン管理 / タグ付けモデルの昇格モデルメタデータ管理 CI/CDと自動化ハイパーパラメーターチューニングデータエンジニアリングモデル開発モデルトラッキングモデルレジストリモデルデプロイメントデータエンジニアリングモデル開発 Databricks ML ランタイムモデルトラッキングモデルデプロイメント Databricks モデルサービングモデルレジストリ Unity Catalog

Mosaic AI レイクハウスと完全にインテグレーション Mosaic AIの機能 (AI) レイクハウスの機能 (データ + AI)
MLOps + LLMOps MLﬂow アセットバンドル (DAB) CI/CDサポートデータとベクトルの準備ネイティブツールでデータと特徴量を準備 SQL ワークフロー Delta Live Tables ノートブックアプリケーションの提供リアルタイムアプリへのモデルのサービングおよび監視モデルサービング AI Functions Models from SQL Lakehouse Apps レイクハウスモニタリングモデルの構築と評価カスタムモデルのトレーニング、ファインチューン事前学習モデルのプロンプトエンジニアリングノートブック w/ MLランタイム AutoML ファインチューンマーケットプレースのモデル MPT LLaMA2 AI Playground MLﬂow Track & Evaluate データとベクトルのサービング Feature Serving Vector Search Function Serving ガバナンスモデルレジストリ in Unity Catalog Unity Catalog Feature Store in Unity Catalog データプラットフォーム Deltaテーブル構造化データファイル (ボリューム) 非構造化データ

クラウドネイティブの連携機能コメント同時参照同時編集マルチ言語: Scala, SQL, Python, R MLﬂow連携による実験トラッキング
Databricksノートブック

バージョンレビューテスト開発 / 実験本番運用ジョブ Git / CI/CD
システム CI/CD連携 ▲ ▼ サポートする Gitプロバイダー (Gitベースの) Repos

• 自然言語でコードを生成、説明、修正 • すべてのユーザー体験にAI アシスタントを • 高度に適切な回答のために DatabricksIQを活用 Databricksアシスタント
コンテキストを解するAIアシスタントで生産性をブースト 23 🚀 10万以上のユーザーを毎月支援！ 🚀

コンテキストを解するAIアシスタントの例 24 AIは質問されたビジネスの質問に適した正しい SQLの作成方法を知っている AIは適切なデータがどこにあるのかを知っ
ており、私がアクセスできるテーブルのみを表示

自然言語でコードを生成、説明、修正 • 自然言語のリクエストを受け付け、コードスニペットを作成 • 精度を改善するために、コードのセル、ライブラリ、ランタイムなどからの詳細情報を適用 • セル内で問題を説明、診断、修正
25

すべてのユーザー体験にAIアシスタントを 26 ダッシュボードでの Databricks アシスタント SQLエディタのDatabricks アシスタントすべてのユーザーの生産性をブースト
データサイエンティスト | データエンジニア | SQLアナリスト | ビジネスユーザーヘルプでの Databricks アシスタントノートブックの Databricks アシスタント

Unity Catalogでの特徴量エンジニアリング (new) 主キーを持つすべてのテーブルを特徴量として利用できます • 主キーが設定されているすべての UCテーブルで特徴量をサービングすることができます • すべてのML資産の統合ビュー
◦ 特徴量、モデル、関数、エンドポイントをカタログでグルーピングできます利用可能 ALTER TABLE <full_table_name > ADD CONSTRAINT <pk_name> PRIMARY KEY(pk_col1)

Unity Catalogでの特徴量エンジニアリングすべてのデータ資産に対する単一の権限モデル • Unity Catalogの権限モデルによって特徴量データとメタデータが管理されます。 • Unity
Catalogにおけるデータガバナンスの更なる改善点が特徴量データに適用されます。利用可能

Feature Serving 31 Public Preview (AWS, Azure) 特徴量に対する外部アクセス、 Feature Storeで
ホストされている特徴量関数に対する一貫性のあるAPI: RESTエンドポイント、python (後ほど) UCにおける特徴量サービング Databricks Online Table/ DynamoDB/CosmosDB

Databricks AutoML コントロールを奪うことなしにデータチームを支援するガラスボックスソリューション AutoMLをスタートするためのUIとAPI データ探索ノートブック特徴量のサマリー統計情報と分布を示すノートブックを生成再現可能なトライアルノート
ブックすべてのモデルのソースコードを含むノートブックを生成 MLﬂowエクスペリメントモデルとメトリクスを追跡するために自動生成される MLﬂowエクスペリメントモデルレジストリへのデプロイが容易データ品質、前処理の理解、デバッグ AutoMLのモデルに専門知識を埋め込み精度を改善

設定トレーニングと評価 UIによる”ガラスボックス”の AutoML カスタマイズデプロイ

Notebook source databricks.automl.classify(df, target_col='label', timeout_minutes=60) APIによる”ガラスボックス”のAutoML

問題のタイプモデル / チューン分類回帰特徴量時系列予測数値カテゴリ変数
テキストタイムスタンプ ARIMA UIでの特徴量選択設定可能なnull値の補完設定可能なモデル選択 new new new new 分散トレーニングのサポート UIでの特徴量選択 new new new new new roadmap AutoMLのリリースとロードマップ問題、モデル、特徴量タイプ、カスタマイズのサポートの拡張

MLﬂow

MLFlow って　聞いたことありますか？

聞いたことない使ったことはあるけどよくわかってない MLFlow って　聞いたことありますか？

機械学習のライフサイクルを簡単にするためのフレームワーク Tracking 実験パラメータや評価指標の管理。コードやデータ、結果を保持 Model モデルを再現可能な形でパッケージ化して別環境でのデプ
ロイ担保 Model Registry バージョン管理やバッチ推論用にデプロイする機能 Serving モデルをリアルタイム推論のために REST APIとしてデプロイ MLFlowの主要な機能

機械学習のライフサイクル管理のデファクトスタンダード GitHub Stars 約2万件 (2025年3⽉時点)

月間でPyPIから1300万回以上ダウンロードされている Databricksが2018年に開発

Models デプロイメントオプションを標準化する汎用モデルフォーマット Projects 任意の計算プラットフォームで再現可能なフォーマットにパッケージ
Tracking エクスペリメントの記録とクエリー: コード、メトリクスパラメーターアーティファクトモデルのコンポーネント

Tracking ノートブックローカルアプリクラウドジョブ UI API Tracking Server
パラメータメトリクスアーティファクトモデルメタデータ Spark データソース

48 トラッキングにおけるキーコンセプトエクスペリメント : 実験におけるトップレベルの追跡オブジェクトラン: エクスペリメントにおけるトライアルの一つパラメータ
: コードに対するキーバリューの入力メトリクス : 数値(時間と共に更新) アーティファクト : モデルを含む任意のファイルソース: どのコードを実行した？

1行のコードでML開発を追跡: パラメータ、メトリクス、データリネージ、モデル、環境 MLﬂowトラッキングと自動ロギング mlflow.autolog() UIやプログラムから結果を解析 • チューニングパラメータXはメトリックにどのような影響が？
• ベストモデルはどれ？ • 十分長い期間トレーニングを実行した？ • どのバージョンのDeltaテーブルを使った？データバージョンを含むパラメータ、タグモデル、環境、アーティファクトメトリクス再現性を確保

50 再現性のための自動ロギングクラスターの仕様や環境の依存関係を自動ロギングランの再現機能 : ✓ ✓ ✓ ✓ コードのバージョン
データのバージョンクラスターの設定環境の仕様再現性チェックリスト :

のデータバージョンの自動ロギング Sparkの自動ロギング: 1行のコードでSparkデータソースとDeltaのバージョン情報を記録 df = spark.read.format("delta") \ .option("versionAsOf", 2) \
.load("/delta/clemens_windfarm") 再現するには:

様々なツールで利用できるシンプルなモデルフレーバーコンテナバッチ & ストリームスコアリングクラウド推論サービスインラインコード
モデルモデルフォーマット Flavor 2 Flavor 1 カスタムモデル

MLﬂowモデルの例 my_model/ ├── MLmodel │ │ │ │ │ └──
estimator/ ├── saved_model.pb └── variables/ ... run_id: 769915006efd4c4bbd662461 time_created: 2018-06-28T12:34 flavors: tensorflow: saved_model_dir: estimator signature_def_key: predict python_function: loader_module: mlflow.tensorflow TensorFlowモデルフォーマットを理解するツールで利用可能 Pythonを実行できるすべてのツール (Docker, Spark, etc!)で利用可能

可視化の改善 • ランの詳細の再設計 • メトリックの集計 • チャートのグルーピング • DLチャートの改善ロギングの改善
• システムメトリクス • 非同期 + バッチロギング • 1Mステップ/イテレーションのサポート • 更なるautologgingのサポート使いやすさの改善 • 新たなチュートリアルとドキュメント • シームレスなログイン • 検索の改善ディープラーニングでのMLﬂow モデルトレーニングのためのMLﬂowの拡張UI

Break 5 minutes

Databricksプロジェクトのアーティファクト、リソース、設定を指定する YAMLファイル bundle.ymlファイルを用いて Databricksアセットバンドルを検証、デプロイ、実行する機能を持つ新たなDatabricks CLI
バンドルは開発やCI/CD プロセスで有用です Databricksアセットバンドルとは？バンドルはどこで使う？バンドルはどこで使う？ 58 Databricksアセットバンドル一度コードを書いたらどこでもデプロイ

詳細リソース設定 • ジョブ、DLTパイプライン、MLﬂow、 etc. • REST APIのスキーマに準拠環境ベースの仕様 •
異なる環境でのプロジェクトの挙動を制御 59 名前とデフォルトのワークスペース

どこでバンドルを使うのか？ $ databricks bundle deploy -t “development” $ databricks bundle
run pipeline –refresh-all -t “development” ★ あなたのプロジェクトをデプロイ、実行。設定を調整し変更をテスト。 ★ 違いをテストするために複数のワークスペースにデプロイ。 ★ IDE、ターミナル、Databricksからデプロイ、実行。 Alice アクティブな開発の一部として 60

どこでバンドルを使うのか？ As part of CI/CD processes ★ CI/CDサーバーで実行 (例: GitHub
Actions) ★ CIやリリースパイプラインによって起動 ★ サービスプリンシパルとして実行することが理想 commit pull request deploy as test merge release deploy to prod check out ➜ databricks bundle deploy -t “staging” ➜ databricks bundle run pipeline –refresh-all -t “staging” ➜ databricks bundle deploy -t “production” ➜ databricks bundle run pipeline –refresh-all -t “production” 61 🔗 Github Actionsのサンプル: https://docs.databricks.com/en/dev-tools/bundles/ci-cd.html

DABs: 一度コードを書いたらどこでもデプロイ • CI/CDとプロジェクト管理のベストプラクティスを民主化 • コードとリソース、設定の共同バージョン管理 • 自動化との高い親和性 (CLI vs.
1000個のRESTコール) • 自信を持ってコラボレーション、デプロイ (分離、自動テスト、etc) • あなたのプロジェクトを定義、デプロイするための統合された単一の方法サマリー 62

UCで新規モデルバージョンを作成 # sklearnモデルのトレーニング clf = RandomForestClassifier(max_depth=7) clf.fit(X, y) # モデルを記録してUCの新規バージョンとして登録
mlflow.sklearn.log_model( sk_model=clf, artifact_path="model", input_example=X.iloc[[0]], registered_model_name="prod.ml.iris_model") • モデルバージョンを作成する際には、input_example を提供するか、明示的にモデルのシグネチャを指定しますシグネチャへの入力サンプルを追加

Unity Catalogにおけるモデルのエイリアスとバージョン • モデルのエイリアスはモデルバージョンに対する変更可能なリファレンスです。 Champion or Challengerと言ったものになります。 • モデルのバージョンはモデル名に対して増加していくリファレンスとなります。
1,2,3,...と言ったものになります。 • モデルはMLﬂowのAPI(やUI)を用いて設定することができ、モデルが新規の場合バージョン1が作成され、それ以外の場合にはバージョンが増加します。 ◦ mlflow.register_model(model_uri, name="prod.ml.iris_model") • MLﬂowクライアント(やUI)を通じてモデルが登録されると、モデルのエイリアスが使えるようになります。モデルのエイリアスは特定のモデルバージョンに紐づけられます。 ◦ client.set_registered_model_alias(name="prod.ml.iris_model", alias="Champion", version=1)

Unity Catalogにおけるモデルのエイリアスとバージョン • mlflow.register_model() を用いて登録されたモデルは、そのモデル名に対する追加のランによって以降のバージョンが増加します。

Unity Catalogにおけるモデルのエイリアスとバージョン • MLﬂowクライアントのclient.set_registered_model_alias() を用いることでモデルのエイリアスが定義されます。

Unity Catalogにおけるモデルのデプロイバッチ推論 • モデルが登録されるとモデルのURIを通じて参照できるようになります ◦ エイリアス経由: "models:/prod.ml.iris_model@Champion" ◦ バージョン経由:
"models:/prod.ml.iris_model/1" • 以下の例ではpyfuncモデルが呼び出され、データ test_x のスコアリングに用いられます。 ◦ champion_model = mlflow.pyfunc.load_model( "models:/prod.ml.iris_model@Champion") champion_model.predict(test_x)

Unity Catalogにおけるモデルのデプロイ • モデルがUnity Catalogに登録されると、1クリックでエンドポイントとしてデプロイできます。 • また、プログラムからサービングエンドポイントを作成することができま
す。モデルサービング

73 モデルサービング • モデルサービングはリアルタイムのMLモデルデプロイメントをシンプルにするために、プロダクションレディ、サーバレスのソリューションを提供します。 • アプリケーションやウェブサイトとモデルの予測結果を連携するために
APIとしてモデルをデプロイします。 • モデルサービングは : ◦ 運用コストを削減します。 ◦ MLライフサイクルを円滑にします。 ◦ データサイエンスチームはプロダクションレベルのリアルタイム MLを自身のソリューションに組み込むというコアタスクにフォーカスできるようになります。リアルタイムのMLモデルデプロイメント

74 モデルサービング MLOpsのメリットデプロイメントを自動化し、エラーを削減する特徴量/ベクトル検索モニタリング統合ガバナンスレイクハウスネイティブ CPUやGPUに任意のモデルを
デプロイ。自動化されたコンテナ構築とインフラ管理がメンテナンスコストを削減し、デプロイメントを加速デプロイメントをシンプルに非常に低いレイテンシー (オーバーヘッドのレイテンシーのp50 < 10ms)と高いクエリーボリューム (QPS >25k) 持つ高可用性、スケーラブルなサービングサーバレス

75 モデルサービングサービングエンドポイントに複数のモデルをサービングする能力を通じてA/Bテストやカナリアデプロイメントのようなオンライン評価戦略をサポートオンライン評価

Databricksモデルサービングサービングすべきすべてのモデルに対する統合管理モデルサービングカスタムモデル基盤モデル外部モデルサーバレスコンピュートによる REST API として任意のモデルをデプロイ、
MLﬂowによる管理。 CPUとGPUをサポート。Feature Store やVector Searchと連携。外部モデルとAPIを管理。 MLﬂow AI Gatewayと従来の Databricksモデルサービングの監視とペイロード記録のガバナンスを提供。 Databricksがトップの基盤モデルを選定し、シンプルな APIとして提供。自分でサービングを設定することなしに即座に実験をスタート。 Available now Available now Available now

マーケットプレイスのAIモデル要件に適したモデル : 汎用あるいは特定タスク両方向けのオープンソース、プロプライエタリなモデルへのアクセス。シンプルなアクセス : 提供されるサンプルコードを用いてモデルサービングに
デプロイ、あるいはカスタム用途のためにダウンロード。インテグレーション : Unity Catalogでマーケットプレイスのモデルを管理し、バッチ・リアルタイム推論からファインチューニングに至るMosaic AIの他の機能で活用。 OSSモデルのガイド: 研究チームによる知見がこちらで公開されています。オープンなマーケットプレイスでのAIモデルの配布とアクセス

データとMLパイプラインに対する自動化された洞察とすぐに利用できるメトリクス • 完全マネージドなので、インフラの管理やメトリクスの計算、スクラッチからのダッシュボード構築による時間を無駄にしません • 簡単なセットアップ、すぐに利用できるメトリクス、自動生成の
ダッシュボードでストレスなし • 全体的な理解のためのデータとモデルに対する統合ソリューション Databricksレイクハウスモニタリング Generally Available July 2024

パイプラインの処理は成功するかもしれませんがデータ品質は劣化しますデータエンジニアはパイプラインのデータ劣化を特定するためにデータアナリストやデータサイエンティストのからのフィードバックに依存しています。受動的な問題の検知データやモデルの監視に異なるツールを使うことで、ワー
クフローを分断し、データチーム間のチームワークの妨げとなります。分断されたツール中央管理の監視サービスの欠如はデータチームの完全なパイプラインに対するビューの妨げとなり、問題の特定や担当者の割り当てを困難にします。診断が困難データ管理の課題

プロアクティブな問題管理によるセルフサービスデータ基盤を実現あなたのデータ製品における問題探索を容易にするための自動生成ダッシュボード、レディメイドのメトリクス、分析ツールで、組織全体の品質のアップデートを共有レポートの自動生成データ製品の構築にどのようなフレームワークやプラットフォー
ムを使っていたとしても、すべてのデータ製品の品質を監視。データ製品のインパクトを計測するために容易に品質とビジネスメトリクスをレイクハウスに連携。統合モニタリングコスト効率の高い「保険」でデータ製品の問題が影響を及ぼす前に捕捉。データと AIパイプラインにおけるスマートな自動化で不必要な再訓練を回避し効率を改善。自動化された根本原因分析 Databricksレイクハウスモニタリング

モデルレイクハウスのすべてのテーブルを監視 Bronze/Silver/Gold モニター時系列テーブルモニター推論テーブルモニター •Databricksバッチスコアリングパイプライン •Databricksモデルサービングエンドポイント
•外部サービング(リクエストログ)やバッチパイプラインから取り込むための ETL • カラム • タイムスタンプ • カラム/特徴量テーブルタイプに基づいてすぐに利用できる様々な分析メトリクススナップショットテーブル • タイムスタンプ • 特徴量 • 予測カラム • ラベルカラム • モデルID 特徴量テーブル

プロファイリングテーブルドリフトテーブルダッシュボードレイクハウスのテーブルの監視テーブル 🔎モニターアラート
Webhooks DBSQL 動作原理入出力の分布に関する統計情報最小、最大、標準偏差、分位数、最頻値、 … モデル品質メトリクス (ラベルが提供された場合 ) 分類: Accuracy, F1, precision, recall 回帰: MSE, RMSE, MAE, R2, … Anomaly detection and drift for training-vs-scoring and scoring-vs-scoring nullやカウントの変動、PSI、コルモゴロフ–スミルノフ検定、平均のシフト、変異距離の合計、 L-inf distance、カイ二乗検定、Wasserstein distance, … カスタムメトリクス SQLエクスプレッションとして表現

Unity Catalogを基盤として構築 • UCテーブルに格納されるプロファイルメトリクスを計算 • UCテーブルに格納されるドリフトメトリクスを計算 • SQLエクスプレッションとしての
カスタムメトリクスのサポート • メトリクスの時系列を変化を可視化するために自動生成されるDBSQL ダッシュボード Unity Catalogのテーブルをインクリメンタルに処理するバックグラウンドサービス

レイクハウスモニタリングテーブルとモデルに対するオープンなモニタリング 87 プロファイリングテーブルテーブル (データ ) テーブル (データ
) テーブル (特徴量 ) テーブル (データ ) モデルテーブル (推論) レイクハウスモニタリング (とAIサポート) ダッシュボードデータドリフトテーブルモニター import databricks.data_monitoring as dm dm.create_or_update_monitor( table_name=... , analysis_type=dm.analysis.InferenceLog(...), output_schema_name=... ... ) dm.refresh_metrics(...) モニターモニターモニターモニターモニターモニタリングUIやPython APIでの設定: Mosaic AIや BIツール DB SQL アラート監視するモデルを表現 Databricks サーバレススケジュールされたパイプラインユーザー / 管理者モニタリングの定義: モデルのパイプライン:

DatabricksによるMLOps

Updated MLOps with Models in UC

Databricksデータサイエンスワークショップ / data-science-work...

Databricksデータサイエンスワークショップ / data-science-workshop

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript