Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksデータサイエンスワークショップ / data-science-work...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

Databricksデータサイエンスワークショップ / data-science-workshop

Databricks を使い、データ分析・機械学習モデル構築・MLOps の基本をハンズオンで体験する実践ワークショップです。

Avatar for Databricks Japan

Databricks Japan

April 27, 2026

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2025 Databricks Inc. — All rights reserved 1 データブリックス・ジャパン株式会社 2025年11月

    1 2時間で身につく! Databricksを用いた データサイエンス
  2. ©2025 Databricks Inc. — All rights reserved 2時間で身につく! Databricksを用いたデータサイエンス 主な対象者

    2時間のワークショップを通じて、 Databricksを活用したデータサイエンス、機械学習モデル構築 を ハンズオン 形式で体験いただきます。 • データブリックスを用いたデータ分析にご興味をお持ちの方 • 生成AIを含むAI・MLモデルを本番化(バッチ・API化)、運用 する方々 ゴール 事前準備 アジェンダ 1. 事前説明 (30分) ◦ データブリックスにおけるデータサイエンス・ ML 2. ハンズオン (90分) ◦ Notebookを使ってモデル作成 ◦ Unity Catalogへ登録、推論 • DatabricksにおけるMLOps関連の機能を把握する • Notebookを用いたデータ分析に加えて機械学習モデル構 築、MLFlowを使って比較する方法を理解する • 環境:お客様のDatabricks環境を利用いただきます • データ:弊社よりサンプルデータを提供いたします
  3. すべての生データ (ログ、テキスト、音声、動画、画像 ) ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス &

    AI Mosaic AI Delta Live Tables Workflows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク
  4. ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI

    Delta Live Tables Workflows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 )
  5. ETL & Real-time Analytics Orchestration Data Warehousing Data Science &

    AI Mosaic AI Workflows Databricks SQL Unified security, governance, and cataloging Unity Catalog Databricksデータインテリジェンスプラットフォーム Unified data storage for reliability and sharing Delta Lake データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化 Databricks SQL Text-to-SQL Workflows 過去の実行に基づく ジョブコストの最適化 Delta Live Tables 自動化されたデータ品質 Mosaic AI カスタムLLMの作成、チュー ン、サービング
  6. Databricksデータインテリジェンスプラットフォーム データ中心の AI 生成AI • カスタムモデル • モデルサービング • RAG

    エンドツーエンド AI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL Text-to-SQL Workflows 過去の実行に基づく ジョブコストの最適化 Delta Live Tables 自動化されたデータ品質 Mosaic AI カスタムLLMの作成チュー ン、サービング Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化
  7. Databricksデータインテリジェンスプラットフォーム データのセマンティクスを理解するために生成 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 Workflo 過去の実行に ジョブコストの Delta

    Live Tables 自動化されたデータ品質 Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動 Mosaic AI カスタムLLMの作成チュー ン、サービング オペレーション 財務 マーケティング カスタマーサービス どのようにして 組織の全員に データとAIを展開 できるのか? Genie” 自然言語で誰でもデータ&AI
  8. AI ML DL LLM …. ? 人工知能 (AI) 人間の知能を模倣できるシステムの構築を狙いとしたコンピュータサイエンスの学祭的領域 機械学習

    (ML) 明示的にプログラムすることなしに既存データから学習して予測 Deep Learning (DL) データから学習するために人工ニューラルネットワークを活用 生成AI 新たなコンテンツ(画像、テキスト、音声、コード...)の生成にフォーカスしたAIのサブ領域 LLM 高度な言語処理能力を達成するために膨大なデータセットでトレーニングされたモデル 基盤モデル (GPT-4, BERT, MPT-7B, …) 特定の言語の理解、生成タスクにファインチューンされたLLM
  9. Mosaic AIはデータ中心のアプローチです 事前学習モデルの 活用、カスタム モデルの構築 リアルタイムアプリへ のモデルの サービング、監視 ネイティブツールで データと特徴量を準

    備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データ セット モデル アプリ ケーション データプラットフォーム上に構築 高速なデプロイメント ビルトインのガバナンスとモニタリング
  10. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  11. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング データ エンジニア リング モデル開発 モデル トラッキング モデル レジストリ モデル デプロイ メント
  12. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント レイクハウス モニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング データ エンジニア リング モデル開発 モデル トラッキング モデル レジストリ モデル デプロイ メント データエンジニアリング モデル開発 Databricks ML ランタイム モデルトラッキング モデルデプロイメント Databricks モデルサービング モデルレジストリ Unity Catalog
  13. The Full ML Lifecycle Databricks Feature Store Databricks Workspaces Lakehouse

    Monitoring MLFlow Lakehouse Monitoring Databricks Asset Bundles Databricks Notebook / Databricks SQL Data Engineering Model Development Databricks ML Runtime Model Tracking Model Registry Unity Catalog Model Deployment Databricks Model Serving
  14. Mosaic AI レイクハウスと完全にインテグレーション Mosaic AIの機能 (AI) レイクハウスの機能 (データ + AI)

    MLOps + LLMOps MLflow アセットバンドル (DAB) CI/CDサポート データとベクトルの準備 ネイティブツールでデータと特徴量を準備 SQL ワークフロー Delta Live Tables ノートブック アプリケーションの提供 リアルタイムアプリへのモデルのサービングおよび監視 モデル サービング AI Functions Models from SQL Lakehouse Apps レイクハウス モニタリング モデルの構築と評価 カスタムモデルのトレーニング、ファインチューン 事前学習モデルのプロンプトエンジニアリング ノートブック w/ MLランタイム AutoML ファインチューン マーケット プレースのモデル MPT LLaMA2 AI Playground MLflow Track & Evaluate データとベクトルのサービング Feature Serving Vector Search Function Serving ガバナンス モデルレジストリ in Unity Catalog Unity Catalog Feature Store in Unity Catalog データプラットフォーム Deltaテーブル 構造化データ ファイル (ボリューム) 非構造化データ
  15. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  16. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  17. バージョン レビュー テスト 開発 / 実験 本番運用ジョブ Git / CI/CD

    システム CI/CD連携 ▲ ▼ サポートする Gitプロバイダー (Gitベースの) Repos
  18. すべてのユーザー体験にAIアシスタントを 26 ダッシュボードでの Databricks アシスタント SQLエディタ のDatabricks アシスタント すべてのユーザー の生産性をブースト

    データサイエンティスト | データエンジニア | SQLアナリスト | ビジネスユーザー ヘルプでの Databricks アシスタント ノートブックの Databricks ア シスタント
  19. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  20. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  21. Feature Serving 31 Public Preview (AWS, Azure) 特徴量に対する外部アクセス、 Feature Storeで

    ホストされている特徴量関数に対する一貫性の あるAPI: RESTエンドポイント、python (後ほど) UCにおける特徴量サービング Databricks Online Table/ DynamoDB/CosmosDB
  22. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  23. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  24. Databricks AutoML コントロールを奪うことなしにデータチームを支援するガラスボックスソリューション AutoMLを スタートするため のUIとAPI データ探索ノートブック 特徴量のサマリー統計情報と分布 を示すノートブックを生成 再現可能なトライアルノート

    ブック すべてのモデルのソースコードを含む ノートブックを生成 MLflowエクスペリメント モデルとメトリクスを追跡するために 自動生成される MLflowエクス ペリメント モデルレジストリ へのデプロイが容易 データ品質、前処理 の理解、デバッグ AutoMLのモデルに 専門知識を埋め込み 精度を改善
  25. 問題のタイプ モデル / チューン 分類 回帰 特徴量 時系列予測 数値 カテゴリ変数

    テキスト タイムスタンプ ARIMA UIでの特徴量選択 設定可能なnull値の 補完 設定可能な モデル選択 new new new new 分散トレーニングのサ ポート UIでの特徴量選択 new new new new new roadmap AutoMLのリリースとロードマップ 問題、モデル、特徴量タイプ、カスタマイズのサポートの拡張
  26. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  27. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  28. 機械学習のライフサイクルを簡単にするためのフレームワーク Tracking 実験パラメータや 評価指標の管理。 コードやデータ、結 果を保持 Model モデルを再現可能 な形でパッケージ化 して別環境でのデプ

    ロイ担保 Model Registry バージョン管理や バッチ推論用に デプロイする機能 Serving モデルをリアルタ イム推論のために REST APIとしてデ プロイ MLFlowの主要な機能
  29. Models デプロイメント オプションを標準化 する汎用モデル フォーマット Projects 任意の計算プラットフォー ムで再現可能なフォーマッ トに パッケージ

    Tracking エクスペリメントの 記録とクエリー: コード、メトリクス パラメーター アーティファクト モデル のコンポーネント
  30. Tracking ノートブック ローカル アプリ クラウド ジョブ UI API Tracking Server

    パラメータ メトリクス アーティファ クト モデル メタデータ Spark データソース
  31. 48 トラッキングにおけるキーコンセプト エクスペリメント : 実験における トップレベルの追跡オブジェクト ラン: エクスペリメントにおける トライアルの一つ パラメータ

    : コードに対するキー バリューの入力 メトリクス : 数値(時間と共に更新) アーティファクト : モデルを含む任意のファ イル ソース: どのコードを実行した?
  32. 1行のコードでML開発を追 跡: パラメータ、 メトリクス、データ リネージ、モデル、環境 MLflowトラッキングと自動ロギング mlflow.autolog() UIやプログラムから結果を解析 • チューニングパラメータXはメトリックにどのような影響が?

    • ベストモデルはどれ? • 十分長い期間トレーニングを実行した? • どのバージョンのDeltaテーブルを使った? データバージョンを 含むパラメータ、タグ モデル、環境、アーティファクト メトリクス 再現性を確保
  33. MLflowモデルの例 my_model/ ├── MLmodel │ │ │ │ │ └──

    estimator/ ├── saved_model.pb └── variables/ ... run_id: 769915006efd4c4bbd662461 time_created: 2018-06-28T12:34 flavors: tensorflow: saved_model_dir: estimator signature_def_key: predict python_function: loader_module: mlflow.tensorflow TensorFlowモデルフォーマットを 理解するツールで利用可能 Pythonを実行できるすべての ツール (Docker, Spark, etc!)で 利用可能
  34. 可視化の改善 • ランの詳細の再設計 • メトリックの集計 • チャートのグルーピング • DLチャートの改善 ロギングの改善

    • システムメトリクス • 非同期 + バッチロギング • 1Mステップ/イテレーションのサポート • 更なるautologgingのサポート 使いやすさの改善 • 新たなチュートリアルとドキュメント • シームレスなログイン • 検索の改善 ディープラーニングでのMLflow モデルトレーニングのためのMLflowの拡張UI
  35. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  36. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  37. Databricksプロジェクトのアー ティファクト、 リソース、設定を指定する YAMLファイル bundle.ymlファイルを用いて Databricksアセットバンドルを 検証、デプロイ、実行 する機能 を持つ新たなDatabricks CLI

    バンドルは開発やCI/CD プロセスで有用です Databricksアセット バンドルとは? バンドルはどこで使う? バンドルはどこで使う? 58 Databricksアセットバンドル 一度コードを書いたら どこでもデプロイ
  38. 詳細 リソース設定 • ジョブ、DLTパイプライン、MLflow、 etc. • REST APIのスキーマに準拠 環境ベースの仕様 •

    異なる環境でのプロジェクトの挙 動を制御 59 名前とデフォルトのワーク スペース
  39. どこでバンドルを使うのか? $ databricks bundle deploy -t “development” $ databricks bundle

    run pipeline –refresh-all -t “development” ★ あなたのプロジェクトをデプロイ、実行。設定を調整し 変更をテスト。 ★ 違いをテストするために複数のワークスペースにデプロイ。 ★ IDE、ターミナル、Databricksからデプロイ、実行。 Alice アクティブな開発の一部として 60
  40. どこでバンドルを使うのか? As part of CI/CD processes ★ CI/CDサーバーで実行 (例: GitHub

    Actions) ★ CIやリリースパイプラインによって 起動 ★ サービスプリンシパルとして実行 することが理想 commit pull request deploy as test merge release deploy to prod check out ➜ databricks bundle deploy -t “staging” ➜ databricks bundle run pipeline –refresh-all -t “staging” ➜ databricks bundle deploy -t “production” ➜ databricks bundle run pipeline –refresh-all -t “production” 61 🔗 Github Actionsのサンプル: https://docs.databricks.com/en/dev-tools/bundles/ci-cd.html
  41. DABs: 一度コードを書いたらどこでもデプロイ • CI/CDとプロジェクト管理のベストプラクティスを民主化 • コードとリソース、設定の共同バージョン管理 • 自動化との高い親和性 (CLI vs.

    1000個のRESTコール) • 自信を持ってコラボレーション、デプロイ (分離、自動テスト、etc) • あなたのプロジェクトを定義、デプロイするための統合された単一の 方法 サマリー 62
  42. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  43. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  44. UCで新規モデルバージョンを作成 # sklearnモデルのトレーニング clf = RandomForestClassifier(max_depth=7) clf.fit(X, y) # モデルを記録してUCの新規バージョンとして登録

    mlflow.sklearn.log_model( sk_model=clf, artifact_path="model", input_example=X.iloc[[0]], registered_model_name="prod.ml.iris_model") • モデルバージョンを作成する際には、input_example を提供するか、明示的にモデル のシグネチャを指定します シグネチャへの入力サンプルを追加
  45. Unity Catalogにおけるモデルのエイリアスとバー ジョン • モデルのエイリアスはモデルバージョンに対する変更可能なリファレンスです。 Champion or Challengerと言ったものになります。 • モデルのバージョンはモデル名に対して増加していくリファレンスとなります。

    1,2,3,...と 言ったものになります。 • モデルはMLflowのAPI(やUI)を用いて設定することができ、モデルが新規の場合 バージョン1が作成され、それ以外の場合にはバージョンが増加します。 ◦ mlflow.register_model(model_uri, name="prod.ml.iris_model") • MLflowクライアント(やUI)を通じてモデルが登録されると、モデルのエイリアスが使えるよ うになります。モデルのエイリアスは特定のモデルバージョンに紐づけられます。 ◦ client.set_registered_model_alias(name="prod.ml.iris_model", alias="Champion", version=1)
  46. Unity Catalogにおけるモデルのデプロイ バッチ推論 • モデルが登録されるとモデルのURIを通じて参照できるようになります ◦ エイリアス経由: "models:/prod.ml.iris_model@Champion" ◦ バージョン経由:

    "models:/prod.ml.iris_model/1" • 以下の例ではpyfuncモデルが呼び出され、データ test_x のスコア リングに用いられます。 ◦ champion_model = mlflow.pyfunc.load_model( "models:/prod.ml.iris_model@Champion") champion_model.predict(test_x)
  47. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  48. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  49. 73 モデルサービング • モデルサービングはリアルタイムのMLモデル デプロイメントをシンプルにするために、 プロダクションレディ、サーバレスの ソリューションを提供します。 • アプリケーションやウェブサイトとモデルの予 測結果を連携するために

    APIとしてモデルをデ プロイします。 • モデルサービングは : ◦ 運用コストを削減します。 ◦ MLライフサイクルを円滑にします。 ◦ データサイエンスチームは プロダクションレベルのリアルタイム MLを 自身のソリューションに組み込むと いうコアタスクにフォーカスできるようにな ります。 リアルタイムのMLモデルデプロイメント
  50. 74 モデルサービング MLOpsのメリット デプロイメントを自動化し、エ ラーを削減する 特徴量/ベクトル検索 モニタリング 統合ガバナンス レイクハウスネイティブ CPUやGPUに任意のモデルを

    デプロイ。自動化された コンテナ構築とインフラ管理がメ ンテナンスコストを削減し、デプ ロイメントを加速 デプロイメントを シンプルに 非常に低いレイテンシー (オーバーヘッドのレイテンシー のp50 < 10ms)と高い クエリーボリューム (QPS >25k) 持つ高可用性、 スケーラブルなサービング サーバレス
  51. Databricksモデルサービング サービングすべきすべてのモデルに対する統合管理 モデルサービング カスタムモデル 基盤モデル 外部モデル サーバレスコンピュートによる REST API として任意のモデルをデプロイ、

    MLflowによる管理。 CPUとGPUをサポート。Feature Store やVector Searchと連携。 外部モデルとAPIを管理。 MLflow AI Gatewayと従来の Databricksモデルサービングの監視と ペイロード記録のガバナンスを 提供。 Databricksがトップの基盤モデルを 選定し、シンプルな APIとして提供。 自分でサービングを設定することなしに 即座に実験をスタート。 Available now Available now Available now
  52. マーケットプレイスのAIモデル 要件に適したモデル : 汎用あるいは特定タスク両 方向けのオープンソース、プロプライエタリなモデ ルへのアクセス。 シンプルなアクセス : 提供されるサンプル コードを用いてモデルサービングに

    デプロイ、あるいはカスタム用途のために ダウンロード。 インテグレーション : Unity Catalogで マーケットプレイスのモデルを管理し、 バッチ・リアルタイム推論からファインチューニング に至るMosaic AIの他の機能で 活用。 OSSモデルのガイド: 研究チームによる知見が こちらで公開されています 。 オープンなマーケットプレイスでのAIモデルの配布とアクセス
  53. AI関数 モデルは単にファンシーな関数です! リアルタイムアプリにモデ ルをサービングし監視 SQLクエリーにおける関数としてモデルを 利用可能 AI関数 + 関数サービング =

    あるモデルを他のモデルに対する機能として 活用することができ、主要なモデルがサービ ングされる際に自動で サービング/リアルタイムのスコアリングを行 うことができます。
  54. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  55. 完全なMLライフサイクル データクリーニング データ収集 EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング

    コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング
  56. パイプラインの処理は成功するかもしれませんがデータ品質は劣化します データエンジニアはパイプ ラインのデータ劣化を特定 するためにデータアナリストや データサイエンティストのからの フィードバックに依存していま す。 受動的な問題の検知 データやモデルの監視に 異なるツールを使うことで、ワー

    クフローを分断し、 データチーム間のチーム ワークの妨げとなります。 分断されたツール 中央管理の監視サービスの 欠如はデータチームの完全なパ イプラインに対するビューの妨 げとなり、問題の特定や担当者 の割り当てを困難にします。 診断が困難 データ管理の課題
  57. プロアクティブな問題管理によるセルフサービスデータ基盤を実現 あなたのデータ製品における問 題探索を容易にするための自 動生成ダッシュボード、 レディメイドのメトリクス、分析 ツールで、組織全体の 品質のアップデートを共有 レポートの自動生成 データ製品の構築にどのような フレームワークやプラットフォー

    ムを使っていたとしても、すべて のデータ製品の 品質を監視。データ製品の インパクトを計測するために容 易に品質とビジネスメトリクスを レイクハウスに連携。 統合モニタリング コスト効率の高い「保険」でデー タ製品の問題が影響を 及ぼす前に捕捉。データと AIパ イプラインにおける スマートな自動化で不必要な再 訓練を回避し効率を改善。 自動化された根本原因分析 Databricksレイクハウスモニタリング
  58. モデル レイクハウスのすべてのテーブルを監視 Bronze/Silver/Gold モニター 時系列テーブル モニター 推論テーブル モニター •Databricksバッチスコアリングパイプライン •Databricksモデルサービングエンドポイント

    •外部サービング(リクエストログ)やバッチ パイプラインから取り込むための ETL • カラム • タイムスタンプ • カラム/特徴量 テーブルタイプに基づいてすぐに利用できる様々な分析メトリクス スナップショット テーブル • タイムスタンプ • 特徴量 • 予測カラム • ラベルカラム • モデルID 特徴量テーブル
  59. プロファイリン グテーブル ドリフト テーブル ダッシュボー ド レイクハウスのテーブルの監視 テーブル 🔎モニター アラート

    Webhooks DBSQL 動作原理 入出力の分布に関する統計情報 最小、最大、標準偏差、分位数、最頻値、 … モデル品質メトリクス (ラベルが 提供された場合 ) 分類: Accuracy, F1, precision, recall 回帰: MSE, RMSE, MAE, R2, … Anomaly detection and drift for training-vs-scoring and scoring-vs-scoring nullやカウントの変動、PSI、コルモゴロフ–スミルノフ 検定、平均のシフト、変異距離の合計、 L-inf distance、カイ二乗検定、Wasserstein distance, … カスタムメトリクス SQLエクスプレッションとして表現
  60. Unity Catalogを基盤として構築 • UCテーブルに格納されるプロファイルメト リクスを計算 • UCテーブルに格納されるドリフト メトリクスを計算 • SQLエクスプレッションとしての

    カスタムメトリクス のサポート • メトリクスの時系列を変化を可視化 するために自動生成されるDBSQL ダッシュボード Unity Catalogのテーブルをインクリメンタルに処理するバックグラウンドサービス
  61. レイクハウスモニタリング テーブルとモデルに対するオープンなモニタリング 87 プロファイリン グテーブル テーブル (データ ) テーブル (データ

    ) テーブル (特徴量 ) テーブル (データ ) モデル テーブル (推論) レイクハウスモニタリング (とAIサポート) ダッシュボー ド データドリフト テーブル モニター import databricks.data_monitoring as dm dm.create_or_update_monitor( table_name=... , analysis_type=dm.analysis.InferenceLog(...), output_schema_name=... ... ) dm.refresh_metrics(...) モニター モニター モニター モニター モニター モニタリングUIやPython APIでの 設定: Mosaic AIや BIツール DB SQL アラート 監視するモデルを 表現 Databricks サーバレス スケジュール されたパイプラ イン ユーザー / 管理者 モニタリングの定義: モデルのパイプライン: