Databricksによるデータサイエンスと機械学習 / Data Science With Databricks

©2024 Databricks Inc. — All rights reserved Databricksによるデータサイエンスと機械学習
1

©2024 Databricks Inc. — All rights reserved あなたのすべてのデータに対するオープンで統合された基盤データレイクハウス
データとAIを容易にスケール、活用生成AI 組織全体におけるデータ+AIの民主化データインテリジェンスプラットフォーム

©2024 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像 )
ETL & リアルタイム分析オーケストレーションデータウェアハウスデータサイエンス & AI Mosaic AI Delta Live Tables Workﬂows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォームオープンデータレイク

©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析
オーケストレーションデータウェアハウスデータサイエンス & AI Mosaic AI Delta Live Tables Workﬂows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog Databricksデータインテリジェンスプラットフォーム信頼性と共有のための統合データストレージ Delta Lake データのセマンティクスを理解するために生成AIを活用データインテリジェンスエンジンオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像 )

©2024 Databricks Inc. — All rights reserved ETL & Real-time
Analytics Orchestration Data Warehousing Data Science & AI Mosaic AI Delta Live Tables Workflows Databricks SQL Unified security, governance, and cataloging Unity Catalog Databricksデータインテリジェンスプラットフォーム Unified data storage for reliability and sharing Delta Lake データのセマンティクスを理解するために生成AIを活用データインテリジェンスエンジンオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像 ) Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化 Databricks SQL Text-to-SQL Workflows 過去の実行に基づくジョブコストの最適化 Delta Live Tables 自動化されたデータ品質 Mosaic AI カスタムLLMの作成、チューン、サービング

©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォームデータ中心の AI
生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLﬂow) • AutoML • モニタリング • ガバナンスデータのセマンティクスを理解するために生成AIを活用データインテリジェンスエンジンオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL Text-to-SQL Workﬂows 過去の実行に基づくジョブコストの最適化 Delta Live Tables 自動化されたデータ品質 Mosaic AI カスタムLLMの作成チューン、サービング Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化

©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォームデータのセマンティクスを理解するために生成データインテリジェンスエンジ
オープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像 Workﬂo 過去の実行にジョブコストの Delta Live Tables 自動化されたデータ品質 Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動 Mosaic AI カスタムLLMの作成チューン、サービングオペレーション財務マーケティングカスタマーサービスどのようにして組織の全員にデータとAIを展開できるのか？ “Project Genie” 自然言語で誰でもデータ&AI

©2024 Databricks Inc. — All rights reserved AI ML DL
LLM …. ? 人工知能 (AI) 人間の知能を模倣できるシステムの構築を狙いとしたコンピュータサイエンスの学祭的領域機械学習 (ML) 明示的にプログラムすることなしに既存データから学習して予測 Deep Learning (DL) データから学習するために人工ニューラルネットワークを活用生成AI 新たなコンテンツ(画像、テキスト、音声、コード...)の生成にフォーカスしたAIのサブ領域 LLM 高度な言語処理能力を達成するために膨大なデータセットでトレーニングされたモデル基盤モデル (GPT-4, BART, MPT-7B, …) 特定の言語の理解、生成タスクにファインチューンされたLLM

©2024 Databricks Inc. — All rights reserved 従来型、プロプライエタリ、オープンソース生成AI + LLMをサポート
あなたのユースケースにベストなモデルを選択 Databricksの生成AI不可知論的アプローチディープラーニングモデル従来のML アルゴリズムプロプライエタリLLM オープンソース AI + LLM チェーン & エージェント Dolly MPT Stable Diffusion

©2024 Databricks Inc. — All rights reserved Mosaic AIはデータ中心のアプローチです事前学習モデルの
活用、カスタムモデルの構築リアルタイムアプリへのモデルのサービング、監視ネイティブツールでデータと特徴量を準備データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データセットモデルアプリケーション

©2024 Databricks Inc. — All rights reserved Mosaic AIはデータ中心のアプローチです事前学習モデルの
活用、カスタムモデルの構築リアルタイムアプリへのモデルのサービング、監視ネイティブツールでデータと特徴量を準備データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データセットモデルアプリケーションデータプラットフォーム上に構築高速なデプロイメントビルトインのガバナンスとモニタリング

©2024 Databricks Inc. — All rights reserved 完全なMLライフサイクルデータクリーニングデータ収集
EDA 探索的データ分析特徴量エンジニアリングモデル選択モデルトレーニングモデル評価実験トラッキングコラボレーションとガバナンスモデルデプロイメントモデルモニタリングモデルメンテナンスバージョン管理継続的モニタリングモデルのバージョン管理 / タグ付けモデルの昇格モデルメタデータ管理 CI/CDと自動化ハイパーパラメーターチューニング

EDA 探索的データ分析特徴量エンジニアリングモデル選択モデルトレーニングモデル評価実験トラッキングコラボレーションとガバナンスモデルデプロイメントモデルモニタリングモデルメンテナンスバージョン管理継続的モニタリングモデルのバージョン管理 / タグ付けモデルの昇格モデルメタデータ管理 CI/CDと自動化ハイパーパラメーターチューニングデータエンジニアリングモデル開発モデルトラッキングモデルレジストリモデルデプロイメント

EDA 探索的データ分析特徴量エンジニアリングモデル選択モデルトレーニングモデル評価実験トラッキングコラボレーションとガバナンスモデルデプロイメントレイクハウスモニタリングモデルメンテナンスバージョン管理継続的モニタリングモデルのバージョン管理 / タグ付けモデルの昇格モデルメタデータ管理 CI/CDと自動化ハイパーパラメーターチューニングデータエンジニアリングモデル開発モデルトラッキングモデルレジストリモデルデプロイメントデータエンジニアリングモデル開発 Databricks ML ランタイムモデルトラッキングモデルデプロイメント Databricks モデルサービングモデルレジストリ Unity Catalog

©2024 Databricks Inc. — All rights reserved Mosaic AI レイクハウスと完全にインテグレーション
Mosaic AIの機能 (AI) レイクハウスの機能 (データ + AI) MLOps + LLMOps MLﬂow アセットバンドル (DAB) CI/CDサポートデータとベクトルの準備ネイティブツールでデータと特徴量を準備 SQL ワークフロー Delta Live Tables ノートブックアプリケーションの提供リアルタイムアプリへのモデルのサービングおよび監視モデルサービング AI Functions Models from SQL Lakehouse Apps レイクハウスモニタリングモデルの構築と評価カスタムモデルのトレーニング、ファインチューン事前学習モデルのプロンプトエンジニアリングノートブック w/ MLランタイム AutoML ファインチューンマーケットプレースのモデル MPT LLaMA2 AI Playground MLﬂow Track & Evaluate データとベクトルのサービング Feature Serving Vector Search Function Serving ガバナンスモデルレジストリ in Unity Catalog Unity Catalog Feature Store in Unity Catalog データプラットフォーム Deltaテーブル構造化データファイル (ボリューム) 非構造化データ

©2024 Databricks Inc. — All rights reserved クラウドネイティブの連携機能コメント同時参照
同時編集マルチ言語: Scala, SQL, Python, R MLﬂow連携による実験トラッキング Databricksノートブック

©2024 Databricks Inc. — All rights reserved バージョンレビューテスト
開発 / 実験本番運用ジョブ Git / CI/CD システム CI/CD連携 ▲ ▼ サポートする Gitプロバイダー (Gitベースの) Repos

©2024 Databricks Inc. — All rights reserved • 自然言語でコードを生成、説明、修正
• すべてのユーザー体験にAI アシスタントを • 高度に適切な回答のために DatabricksIQを活用 Databricksアシスタントコンテキストを解するAIアシスタントで生産性をブースト 22 🚀 10万以上のユーザーを毎月支援！ 🚀

©2024 Databricks Inc. — All rights reserved コンテキストを解するAIアシスタントの例 23 AIは質問された
ビジネスの質問に適した正しい SQLの作成方法を知っている AIは適切なデータがどこにあるのかを知っており、私がアクセスできるテーブルのみを表示

©2024 Databricks Inc. — All rights reserved 自然言語でコードを生成、説明、修正 • 自然言語のリクエストを受け付け、コー
ドスニペットを作成 • 精度を改善するために、コードのセル、ライブラリ、ランタイムなどからの詳細情報を適用 • セル内で問題を説明、診断、修正 24

©2024 Databricks Inc. — All rights reserved すべてのユーザー体験にAIアシスタントを 25 ダッシュボードでの
Databricks アシスタント SQLエディタの Databricksアシスタントすべてのユーザーの生産性をブーストデータサイエンティスト | データエンジニア | SQLアナリスト | ビジネスユーザーヘルプでのDatabricks アシスタントノートブックの Databricks アシスタント

©2024 Databricks Inc. — All rights reserved Unity Catalogでの特徴量エンジニアリング (new)
主キーを持つすべてのテーブルを特徴量として利用できます • 主キーが設定されているすべての UCテーブルで特徴量をサービングすることができます • すべてのML資産の統合ビュー ◦ 特徴量、モデル、関数、エンドポイントをカタログでグルーピングできます利用可能 ALTER TABLE <full_table_name> ADD CONSTRAINT <pk_name> PRIMARY KEY(pk_col1)

©2024 Databricks Inc. — All rights reserved Unity Catalogでの特徴量エンジニアリングすべてのデータ資産に対する単一の権限モデル
• Unity Catalogの権限モデルによって特徴量データとメタデータが管理されます。 • Unity Catalogにおけるデータガバナンスの更なる改善点が特徴量データに適用されます。利用可能

©2024 Databricks Inc. — All rights reserved Feature Serving 30
Public Preview (AWS, Azure) 特徴量に対する外部アクセス、Feature Storeでホストされている特徴量関数に対する一貫性のあるAPI: RESTエンドポイント、python (後ほど) UCにおける特徴量サービング Databricks Online Table/ DynamoDB/CosmosDB

©2024 Databricks Inc. — All rights reserved Databricks AutoML コントロールを奪うことなしにデータチームを支援するガラスボックスソリューション
AutoMLをスタートするための UIとAPI データ探索ノートブック特徴量のサマリー統計情報と分布を示すノートブックを生成再現可能なトライアルノートブックすべてのモデルのソースコードを含むノートブックを生成 MLﬂowエクスペリメントモデルとメトリクスを追跡するために自動生成されるMLﬂowエクスペリメントモデルレジストリへのデプロイが容易データ品質、前処理の理解、デバッグ AutoMLのモデルに専門知識を埋め込み精度を改善

©2024 Databricks Inc. — All rights reserved 設定トレーニングと評価 UIによる”ガラスボックス”の
AutoML カスタマイズデプロイ

©2024 Databricks Inc. — All rights reserved Notebook source databricks.automl.classify(df,
target_col='label', timeout_minutes=60) APIによる”ガラスボックス”のAutoML

©2024 Databricks Inc. — All rights reserved 問題のタイプモデル /
チューン分類回帰特徴量時系列予測数値カテゴリ変数テキストタイムスタンプ ARIMA UIでの特徴量選択設定可能なnull値の補完設定可能なモデル選択 new new new new 分散トレーニングのサポート UIでの特徴量選択 new new new new new roadmap AutoMLのリリースとロードマップ問題、モデル、特徴量タイプ、カスタマイズのサポートの拡張

©2024 Databricks Inc. — All rights reserved Models デプロイメントオプションを標準化
する汎用モデルフォーマット Projects 任意の計算プラットフォームで再現可能なフォーマットにパッケージ Tracking エクスペリメントの記録とクエリー: コード、メトリクスパラメーターアーティファクトモデルのコンポーネント

©2024 Databricks Inc. — All rights reserved Tracking ノートブックローカル
アプリクラウドジョブ UI API Tracking Server パラメータメトリクスアーティファクトモデルメタデータ Spark データソース

©2024 Databricks Inc. — All rights reserved 42 トラッキングにおけるキーコンセプトエクスペリメント
: 実験におけるトップレベルの追跡オブジェクトラン: エクスペリメントにおけるトライアルの一つパラメータ : コードに対するキーバリューの入力メトリクス : 数値(時間と共に更新) アーティファクト : モデルを含む任意のファイルソース: どのコードを実行した？

©2024 Databricks Inc. — All rights reserved 1行のコードでML開発を追跡: パラメータ、
メトリクス、データリネージ、モデル、環境 MLﬂowトラッキングと自動ロギング mlflow.autolog() UIやプログラムから結果を解析 • チューニングパラメータXはメトリックにどのような影響が？ • ベストモデルはどれ？ • 十分長い期間トレーニングを実行した？ • どのバージョンのDeltaテーブルを使った？データバージョンを含むパラメータ、タグモデル、環境、アーティファクトメトリクス再現性を確保

©2024 Databricks Inc. — All rights reserved 44 再現性のための自動ロギングクラスターの仕様や環境の依存関係を自動ロギング
ランの再現機能 : ✓ ✓ ✓ ✓ コードのバージョンデータのバージョンクラスターの設定環境の仕様再現性チェックリスト :

©2024 Databricks Inc. — All rights reserved のデータバージョンの自動ロギング Sparkの自動ロギング: 1行のコードでSparkデータソースとDeltaのバージョン情報を記録
df = spark.read.format("delta") \ .option("versionAsOf", 2) \ .load("/delta/clemens_windfarm") 再現するには :

©2024 Databricks Inc. — All rights reserved 様々なツールで利用できるシンプルなモデルフレーバー
コンテナバッチ & ストリームスコアリングクラウド推論サービスインラインコードモデルモデルフォーマット Flavor 2 Flavor 1 カスタムモデル

©2024 Databricks Inc. — All rights reserved MLﬂowモデルの例 my_model/ ├──
MLmodel │ │ │ │ │ └── estimator/ ├── saved_model.pb └── variables/ ... run_id: 769915006efd4c4bbd662461 time_created: 2018-06-28T12:34 flavors: tensorflow: saved_model_dir: estimator signature_def_key: predict python_function: loader_module: mlflow.tensorflow TensorFlowモデルフォーマットを理解するツールで利用可能 Pythonを実行できるすべてのツール (Docker, Spark, etc!)で利用可能

©2024 Databricks Inc. — All rights reserved 可視化の改善 • ランの詳細の再設計
• メトリックの集計 • チャートのグルーピング • DLチャートの改善ロギングの改善 • システムメトリクス • 非同期 + バッチロギング • 1Mステップ/イテレーションのサポート • 更なるautologgingのサポート使いやすさの改善 • 新たなチュートリアルとドキュメント • シームレスなログイン • 検索の改善ディープラーニングでのMLﬂow モデルトレーニングのためのMLﬂowの拡張UI

©2024 Databricks Inc. — All rights reserved Databricksプロジェクトのアーティファクト、リソース、設定を指定する
YAMLファイル bundle.ymlファイルを用いて Databricksアセットバンドルを検証、デプロイ、実行する機能を持つ新たなDatabricks CLI バンドルは開発やCI/CD プロセスで有用です Databricksアセットバンドルとは？バンドルはどこで使う？バンドルはどこで使う？ 54 Databricksアセットバンドル一度コードを書いたらどこでもデプロイ

©2024 Databricks Inc. — All rights reserved 詳細リソース設定 •
ジョブ、DLTパイプライン、MLﬂow、 etc. • REST APIのスキーマに準拠環境ベースの仕様 • 異なる環境でのプロジェクトの挙動を制御 55 名前とデフォルトのワークスペース

©2024 Databricks Inc. — All rights reserved どこでバンドルを使うのか？ $ databricks
bundle deploy -t “development” $ databricks bundle run pipeline –refresh-all -t “development” ★ あなたのプロジェクトをデプロイ、実行。設定を調整し変更をテスト。 ★ 違いをテストするために複数のワークスペースにデプロイ。 ★ IDE、ターミナル、Databricksからデプロイ、実行。 Alice アクティブな開発の一部として 56

©2024 Databricks Inc. — All rights reserved どこでバンドルを使うのか？ As part
of CI/CD processes ★ CI/CDサーバーで実行 (例: GitHub Actions) ★ CIやリリースパイプラインによって起動 ★ サービスプリンシパルとして実行することが理想 commit pull request deploy as test merge release deploy to prod check out ➜ databricks bundle deploy -t “staging” ➜ databricks bundle run pipeline –refresh-all -t “staging” ➜ databricks bundle deploy -t “production” ➜ databricks bundle run pipeline –refresh-all -t “production” 57 🔗 Github Actionsのサンプル: https://docs.databricks.com/en/dev-tools/bundles/ci-cd.html

©2024 Databricks Inc. — All rights reserved DABs: 一度コードを書いたらどこでもデプロイ •
CI/CDとプロジェクト管理のベストプラクティスを民主化 • コードとリソース、設定の共同バージョン管理 • 自動化との高い親和性 (CLI vs. 1000個のRESTコール) • 自信を持ってコラボレーション、デプロイ (分離、自動テスト、etc) • あなたのプロジェクトを定義、デプロイするための統合された単一の方法サマリー 58

©2024 Databricks Inc. — All rights reserved UCで新規モデルバージョンを作成 # sklearnモデルのトレーニング
clf = RandomForestClassifier(max_depth=7) clf.fit(X, y) # モデルを記録してUCの新規バージョンとして登録 mlflow.sklearn.log_model( sk_model=clf, artifact_path="model", input_example=X.iloc[[0]], registered_model_name="prod.ml.iris_model") • モデルバージョンを作成する際には、input_example を提供するか、明示的にモデルのシグネチャを指定しますシグネチャへの入力サンプルを追加

©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるモデルのエイリアスとバージョン
• モデルのエイリアスはモデルバージョンに対する変更可能なリファレンスです。Champion or Challengerと言ったものになります。 • モデルのバージョンはモデル名に対して増加していくリファレンスとなります。1,2,3,...と言ったものになります。 • モデルはMLﬂowのAPI(やUI)を用いて設定することができ、モデルが新規の場合バージョン1が作成され、それ以外の場合にはバージョンが増加します。 ◦ mlflow.register_model(model_uri, name="prod.ml.iris_model") • MLﬂowクライアント(やUI)を通じてモデルが登録されると、モデルのエイリアスが使えるようになります。モデルのエイリアスは特定のモデルバージョンに紐づけられます。 ◦ client.set_registered_model_alias(name="prod.ml.iris_model", alias="Champion", version=1)

• mlflow.register_model() を用いて登録されたモデルは、そのモデル名に対する追加のランによって以降のバージョンが増加します。

• MLﬂowクライアントのclient.set_registered_model_alias() を用いることでモデルのエイリアスが定義されます。

©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるモデルのデプロイバッチ推論
• モデルが登録されるとモデルのURIを通じて参照できるようになります ◦ エイリアス経由: "models:/prod.ml.iris_model@Champion" ◦ バージョン経由: "models:/prod.ml.iris_model/1" • 以下の例ではpyfuncモデルが呼び出され、データ test_x のスコアリングに用いられます。 ◦ champion_model = mlflow.pyfunc.load_model( "models:/prod.ml.iris_model@Champion") champion_model.predict(test_x)

©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるモデルのデプロイ •
モデルがUnity Catalogに登録されると、1クリックでエンドポイントとしてデプロイできます。 • また、プログラムからサービングエンドポイントを作成することができます。モデルサービング

©2024 Databricks Inc. — All rights reserved 69 モデルサービング •
モデルサービングはリアルタイムのMLモデルデプロイメントをシンプルにするために、プロダクションレディ、サーバレスのソリューションを提供します。 • アプリケーションやウェブサイトとモデルの予測結果を連携するためにAPIとしてモデルをデプロイします。 • モデルサービングは: ◦ 運用コストを削減します。 ◦ MLライフサイクルを円滑にします。 ◦ データサイエンスチームはプロダクションレベルのリアルタイムMLを自身のソリューションに組み込むというコアタスクにフォーカスできるようになります。リアルタイムのMLモデルデプロイメント

©2024 Databricks Inc. — All rights reserved 70 モデルサービング MLOpsのメリット
デプロイメントを自動化し、エラーを削減する特徴量/ベクトル検索モニタリング統合ガバナンスレイクハウスネイティブ CPUやGPUに任意のモデルをデプロイ。自動化されたコンテナ構築とインフラ管理がメンテナンスコストを削減し、デプロイメントを加速デプロイメントをシンプルに非常に低いレイテンシー (オーバーヘッドのレイテンシーのp50 < 10ms)と高いクエリーボリューム (QPS >25k) 持つ高可用性、スケーラブルなサービングサーバレス

©2024 Databricks Inc. — All rights reserved 71 モデルサービングサービングエンドポイントに複数のモデルを
サービングする能力を通じてA/Bテストやカナリアデプロイメントのようなオンライン評価戦略をサポートオンライン評価

©2024 Databricks Inc. — All rights reserved Databricksモデルサービングサービングすべきすべてのモデルに対する統合管理モデルサービング
カスタムモデル基盤モデル外部モデルサーバレスコンピュートによるREST API として任意のモデルをデプロイ、 MLﬂowによる管理。 CPUとGPUをサポート。Feature Store やVector Searchと連携。外部モデルとAPIを管理。 MLﬂow AI Gatewayと従来の Databricksモデルサービングの監視とペイロード記録のガバナンスを提供。 Databricksがトップの基盤モデルを選定し、シンプルなAPIとして提供。自分でサービングを設定することなしに即座に実験をスタート。 Available now Available now Available now

©2024 Databricks Inc. — All rights reserved マーケットプレイスのAIモデル要件に適したモデル :
汎用あるいは特定タスク両方向けのオープンソース、プロプライエタリなモデルへのアクセス。シンプルなアクセス : 提供されるサンプルコードを用いてモデルサービングにデプロイ、あるいはカスタム用途のためにダウンロード。インテグレーション : Unity Catalogでマーケットプレイスのモデルを管理し、バッチ・リアルタイム推論からファインチューニングに至るMosaic AIの他の機能で活用。 OSSモデルのガイド: 研究チームによる知見がこちらで公開されています。オープンなマーケットプレイスでのAIモデルの配布とアクセス

©2024 Databricks Inc. — All rights reserved AI関数モデルは単にファンシーな関数です！リアルタイムアプリにモデ
ルをサービングし監視 SQLクエリーにおける関数としてモデルを利用可能 AI関数 + 関数サービング = あるモデルを他のモデルに対する機能として活用することができ、主要なモデルがサービングされる際に自動でサービング/リアルタイムのスコアリングを行うことができます。

©2024 Databricks Inc. — All rights reserved データとMLパイプラインに対する自動化された洞察とすぐに利用できるメトリクス • 完全マネージド
なので、インフラの管理やメトリクスの計算、スクラッチからのダッシュボード構築による時間を無駄にしません • 簡単なセットアップ、すぐに利用できるメトリクス、自動生成のダッシュボードでストレスなし • 全体的な理解のためのデータとモデルに対する統合ソリューション Databricksレイクハウスモニタリング Generally Available July 2024

©2024 Databricks Inc. — All rights reserved パイプラインの処理は成功するかもしれませんがデータ品質は劣化しますデータエンジニアはパイプラインのデータ劣化を特定
するためにデータアナリストやデータサイエンティストのからのフィードバックに依存しています。受動的な問題の検知データやモデルの監視に異なるツールを使うことで、ワークフローを分断し、データチーム間のチームワークの妨げとなります。分断されたツール中央管理の監視サービスの欠如はデータチームの完全なパイプラインに対するビューの妨げとなり、問題の特定や担当者の割り当てを困難にします。診断が困難データ管理の課題

©2024 Databricks Inc. — All rights reserved プロアクティブな問題管理によるセルフサービスデータ基盤を実現あなたのデータ製品における問題探索を容易にするための自
動生成ダッシュボード、レディメイドのメトリクス、分析ツールで、組織全体の品質のアップデートを共有レポートの自動生成データ製品の構築にどのようなフレームワークやプラットフォームを使っていたとしても、すべてのデータ製品の品質を監視。データ製品のインパクトを計測するために容易に品質とビジネスメトリクスをレイクハウスに連携。統合モニタリングコスト効率の高い「保険」でデータ製品の問題が影響を及ぼす前に捕捉。データとAIパイプラインにおけるスマートな自動化で不必要な再訓練を回避し効率を改善。自動化された根本原因分析 Databricksレイクハウスモニタリング

©2024 Databricks Inc. — All rights reserved モデルレイクハウスのすべてのテーブルを監視 Bronze/Silver/Gold
モニター時系列テーブルモニター推論テーブルモニター •Databricksバッチスコアリングパイプライン •Databricksモデルサービングエンドポイント •外部サービング(リクエストログ)やバッチパイプラインから取り込むための ETL • カラム • タイムスタンプ • カラム/特徴量テーブルタイプに基づいてすぐに利用できる様々な分析メトリクススナップショットテーブル • タイムスタンプ • 特徴量 • 予測カラム • ラベルカラム • モデルID 特徴量テーブル

©2024 Databricks Inc. — All rights reserved プロファイリングテーブルドリフト
テーブルダッシュボードレイクハウスのテーブルの監視テーブル 🔎モニターアラート Webhooks DBSQL 動作原理入出力の分布に関する統計情報最小、最大、標準偏差、分位数、最頻値、 … モデル品質メトリクス (ラベルが提供された場合) 分類: Accuracy, F1, precision, recall 回帰: MSE, RMSE, MAE, R2, … Anomaly detection and drift for training-vs-scoring and scoring-vs-scoring nullやカウントの変動、PSI、コルモゴロフ–スミルノフ検定、平均のシフト、変異距離の合計、 L-inf distance、カイ二乗検定、Wasserstein distance, … カスタムメトリクス SQLエクスプレッションとして表現

©2024 Databricks Inc. — All rights reserved Unity Catalogを基盤として構築 •
UCテーブルに格納されるプロファイルメトリクスを計算 • UCテーブルに格納されるドリフトメトリクスを計算 • SQLエクスプレッションとしてのカスタムメトリクスのサポート • メトリクスの時系列を変化を可視化するために自動生成される DBSQL ダッシュボード Unity Catalogのテーブルをインクリメンタルに処理するバックグラウンドサービス

©2024 Databricks Inc. — All rights reserved レイクハウスモニタリングテーブルとモデルに対するオープンなモニタリング 83
プロファイリングテーブルテーブル (データ ) テーブル (データ ) テーブル (特徴量 ) テーブル (データ ) モデルテーブル (推論) レイクハウスモニタリング (とAIサポート) ダッシュボードデータドリフトテーブルモニター import databricks.data_monitoring as dm dm.create_or_update_monitor( table_name=... , analysis_type=dm.analysis.InferenceLog(...), output_schema_name=... ... ) dm.refresh_metrics(...) モニターモニターモニターモニターモニターモニタリングUIやPython APIでの設定: Mosaic AIや BIツール DB SQL アラート監視するモデルを表現 Databricks サーバレススケジュールされたパイプラインユーザー / 管理者モニタリングの定義: モデルのパイプライン:

©2024 Databricks Inc. — All rights reserved 84 モデルサービングモデルを監視、デバッグするための推論テーブル:
• それぞれのリクエストとレスポンスがUnity Catalogの推論テーブルに記録されます。 ◦ あなたのモデルの次のイテレーションの再トレーニングのデータセットとして活用 ◦ プロダクションのデータとモデルに対する品質モニタリングを作成 ◦ 疑いのある推論結果の診断とデバッグの実施 ◦ 再ラベリングすべきラベルの間違ったデータの作成推論テーブル

©2024 Databricks Inc. — All rights reserved 85 LLMを活用した Q&Aでビジネス
ユーザーによるデータ分析を実現自然言語で質問を行い、テキストや可視化で回答を得ます。カスタム指示によるデータセット固有の体験を提供 Databricks SQL & DatabricksIQを活用 Gated Public Preview in Q1 Project Genie

©2024 Databricks Inc. — All rights reserved 98 Unity Catalog
Single governance solution for data and AI assets on the Lakehouse: ◦ Centralized access control ◦ Auditing ◦ Lineage ◦ Discovery Uniﬁed governance for data and AI MLOps - What’s new?

With Feature Engineering in Unity Catalog: • Any Delta table in Unity Catalog that has been assigned a primary key (and additionally timestamp key) can be used as a source of features to train and serve models • Feature tables can be easily shared across different workspaces, and lineage recorded between other assets in the lakehouse Feature Engineering in Unity Catalog MLOps - What’s new?

With Models in Unity Catalog: • The full model lifecycle can be managed in Unity Catalog • Models can be shared across Databricks workspaces • Lineage can be traced across both data and models Models in Unity Catalog MLOps - What’s new?

©2024 Databricks Inc. — All rights reserved 101 Model Serving
Real-time ML model deployment • Model Serving provides a production-ready, serverless solution to simplify real-time ML model deployment. • Deploy models as an API to integrate model predictions with applications or websites. • Model Serving: ◦ Reduces operational costs ◦ Streamlines the ML lifecycle ◦ Enables Data Science teams to focus on the core task of integrating production-grade real-time ML into their solutions. MLOps - What’s new?

MLOps benefits MLOps - What’s new? Automatic feature/vector lookups, monitoring and unified governance that automates deployment and reduce errors Lakehouse native Deploy any model type on CPU or GPU. Automated container build and infrastructure management reduce maintenance costs and speed up deployment. Simplified Deployment Highly available and scalable serving with very low latency (p50 overhead latency <10ms) and high query volumes (QPS >25k) Serverless

©2024 Databricks Inc. — All rights reserved Empower collaboration with
centralized discovery of assets. Learn how your teammates trained models and what data they trained with Use lineage for audits or reproducibility Discover data and AI assets to use

©2024 Databricks Inc. — All rights reserved Efﬁciently debug issues
with lineage and quality. Perform impact analysis, quality tracking, reproducibility, and root cause analysis with UC Root Causes Analysis w/ Lakehouse Monitoring & Lineage Impact Analysis with Popularity

Online evaluation MLOps - What’s new? Supports online evaluation strategies such as A/B testing or canary deployments through the ability to serve multiple models to a serving endpoint

©2024 Databricks Inc. — All rights reserved • Secure platform
for discovering and accessing AI models such as MPT, Llama and Mistral models. • Easily access and govern AI models combining Databricks Marketplace with Unity Catalog. Models on Databricks Marketplace Open marketplace for discovering and sharing AI assets Search models on Marketplace

©2024 Databricks Inc. — All rights reserved Databricks Model Serving
Unified management of all models you need to serve Model Serving Custom Models Foundation Models External Models Deploy any model as a REST API with Serverless compute, managed via MLflow. CPU and GPU. Integration with Feature Store and Vector Search. Govern external models and APIs. This provides the governance of MLflow AI Gateway, plus the monitoring and payload logging of traditional Databricks Model Serving. Databricks curates top Foundation Models and provides them behind simple APIs. You can start experimentation immediately, without setting up serving yourself. Available now Available now Available now

©2024 Databricks Inc. — All rights reserved MLOps Stacks Turnkey
deployment of ML projects on Databricks with CI/CD • Automate the creation of infrastructure for an ML project • Includes: • ML pipelines for model training, deployment, and inference deployed using Databricks Asset Bundles • Feature tables • CI/CD (GitHub and Azure Devops supported) • Uses software development best practices, and is ﬂexible to customization • Roadmap: • Monitoring (Q1FY25) • Model Serving (Q1FY25) Documentation: AWS, Azure

©2024 Databricks Inc. — All rights reserved AI Functions •
Tackle complex language tasks with native SQL functions • Common use cases include summarization, topic identiﬁcation, entity extra content creation. • ai_query available now, with more functions coming in Q1 • Supports LLMs in Foundation Model APIs, External Models, Custom Models • Also works with non-LLMs, e.g. classiﬁcation/regression Access and serve LLMs directly from Databricks SQL Generally Available September 2024

©2024 Databricks Inc. — All rights reserved 110 Enable business
users to interact with data with LLM-powered Q&A Ask questions in natural language and receive answers in text and visualizations Curate dataset-speciﬁc experiences with custom instructions Powered by Databricks SQL & DatabricksIQ Gated Public Preview in Q1 Project Genie

©2024 Databricks Inc. — All rights reserved Automated insights and
out-of-the box metrics on data and ML pipelines • Fully managed so no time wasted managing infrastructure, calculating metrics, or building dashboards from scratch • Frictionless with easy setup and out-of-the-box metrics and generated dashboards • Uniﬁed solution for data and models for holistic understanding Databricks Lakehouse Monitoring Generally Available July 2024

©2024 Databricks Inc. — All rights reserved Pipelines may successfully
execute but data quality degraded Data engineers rely on feedback from data analysts and data scientists to identify deteriorating data quality in pipelines. Reactive Issue Detection Using different tools for data and model monitoring can fragment workﬂows and hinder teamwork among data teams. Fragmented Tooling Lacking a central monitoring service obscures the data teams' full pipeline view, making it tough to pinpoint issues and assign responsibility. Difﬁcult Diagnoses Challenges Managing Data

©2024 Databricks Inc. — All rights reserved Enable a self-serve
data platform with proactive issue management Share quality updates organization-wide with auto-generated dashboards, and use ready-made metrics and analytics tools for easy issue exploration in your data products. Auto-Generated Reports Monitor all data products' quality with a single tool, no matter the framework or platform used to build them. Merge quality and business metrics effortlessly in your lakehouse to gauge your data products' impact. Unified Monitoring Catch data product issues before they reach consumers with cost-effective "insurance." Boost efﬁciency with smart automation in your data and AI pipelines, avoiding unnecessary retraining. Automated Root Cause Analysis Databricks Lakehouse Monitoring

©2024 Databricks Inc. — All rights reserved Model(s) Monitor all
tables in your lakehouse Bronze/Silver/Gold monitor Time Series Table monitor Inference Table monitor •Databricks batch scoring pipeline •Databricks Model Serving Endpoint •ETL to ingest from external serving (request logs) or batch pipelines • Columns • TimeStamp • Columns/Features Different out-of-the-box analysis metrics based on table type(s) Snapshot Table • TimeStamp • Features • Prediction column • Label column • Model ID Feature table

©2024 Databricks Inc. — All rights reserved Proﬁling Table Drift
Table Dashboard Monitoring a table in the Lakehouse Table 🔎monitor Alerts Webhooks DBSQL How does it work? Distributional statistics for inputs, outputs Minimum, maximum, standard deviation, quantiles, top occurring value, … Model quality metrics (if labels are provided) Classiﬁcation: Accuracy, F1, precision, recall Regression: MSE, RMSE, MAE, R2, … Anomaly detection and drift for training-vs-scoring and scoring-vs-scoring Delta/changes in nulls and counts, PSI, KS divergence, Mean shift, Total Variation distance, L-inf distance, χ2 test, Wasserstein distance, … Custom metrics Expressed as SQL expressions

©2024 Databricks Inc. — All rights reserved Built on Unity
Catalog • Calculates proﬁle metrics stored in UC table • Calculates drift metrics stored in UC table • Supports custom metrics as SQL expressions • Auto-generates DBSQL dashboard to visualize metrics over time Background service that incrementally processes data in Unity Catalog tables

©2024 Databricks Inc. — All rights reserved Lakehouse Monitoring Open
monitoring for tables and models 117 Profiling Tables Table (data) Table (data) Table (feature) Table (data) Model Table (inference ) Lakehouse Monitoring (with AI support) Dashboards Data Drift Tables monitor import databricks.data_monitoring as dm dm.create_or_update_monitor( table_name=... , analysis_type=dm.analysis.InferenceLog(...), output_schema_name=... ... ) dm.refresh_metrics(...) monitor monitor monitor monitor monitor Configure in Monitoring UI or via Python API: Mosaic AI or BI Tools DB SQL Alerts Representing the model for monitoring Databricks Serverless Scheduled Pipeline Users / Admins Monitoring definitions: Model pipeline:

©2024 Databricks Inc. — All rights reserved How Mosaic AI
works Serve AI Unity Catalog + Delta Lake Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Log s Features Indexes Data Storage Models Chains Agents Features Indexes 118 APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Governance & Lineage Features Features Indexes Serve Data Develop & Evaluate AI 🤗 pipelines 🦜🔗 chains + prompt + credential function(...)

Databricksによるデータサイエンスと機械学習 / Data Science With ...

Databricksによるデータサイエンスと機械学習 / Data Science With Databricks

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript