Slide 1

Slide 1 text

©2024 Databricks Inc. — All rights reserved Databricksの システムアーキテクチャ 1 Databricks Last updated 2024-03-07

Slide 2

Slide 2 text

©2024 Databricks Inc. — All rights reserved ポジショニング 2

Slide 3

Slide 3 text

©2024 Databricks Inc. — All rights reserved データインテリジェンスプ ラットフォーム 3

Slide 4

Slide 4 text

©2024 Databricks Inc. — All rights reserved モダンデータプラットフォーム - フレームワーク 4 ビジネス アナリスト データ エンジニア データ サイエンティスト MLエンジニア ビジネス パートナー 高度な分析、ML & AI データウェアハウス 取り込み & 変換 ETL & DS ツール クラウドストレージ データ & AI ガバナンス オーケストレーション BI ツール コラボ レーション AIエンジン

Slide 5

Slide 5 text

©2024 Databricks Inc. — All rights reserved 高度な分析、ML & AI データウェアハウス 取り込み & 変換 Photon ETL & DS ツール Databricksデータインテリジェンスプラットフォーム 5 クラウド ストレージ データ & AI ガバナンス オーケストレーション BI ツール ビジネス アナリスト データ エンジニア データ サイエンティスト MLエンジニア コラボ レーション ビジネス パートナー AIエンジン ワークフロー (ジョブ, DLT) IDEサポート ノートブック SQLエディタ Lakeview Databricks SQL SQL コネクター バッチ & ストリーム DLT & Autoloader データ品質 インテリジェンスエ ンジン 検索 & 発見 DatabricksIQ アシスタント 性能 最適化 ML モデリング 生成AI リアルタイム 分析 モデル サービング Amazon S3 ADLS Google Cloud Storage Delta Sharing マーケット プレース Delta Lake プロプライエタリ なDWHフォー マットなし UniForm 画像 CSV 任意 . . . Parquet Delta JSON Unity Catalog アクセス制 御 監査 発見 リネージ レイクハウス フェデレーション レイクハウスモ ニタリング

Slide 6

Slide 6 text

©2024 Databricks Inc. — All rights reserved Databricks AI 6

Slide 7

Slide 7 text

©2024 Databricks Inc. — All rights reserved クラウドストレージ Databricks AI 7 Databricks AI 外部サービス データの準備 ● 構造化データの発見 & 特徴量への変換 ● 非構造化データのチャンク、 エンべディングの作成 AIの開発と評価 ● アルゴリズムのトレーニングとテスト ● モデルのファインチューニング & プロンプトエンジニアリング ● 生成AIエージェント & ツールの作成 ● アセットのチェーン ● エクスペリメントの評価 ● セキュリティと権限の管理 ● モデルリネージの追跡 ● データモニタリング ● AIモニタリング(品質を維持するためにモデルの精度を評価 ) AIの提供 ● 低レーテンシーモデルサービング ● モデルのリクエスト/レスポンスの記録 データの提供 ● 低レーテンシー特徴量サービング ● Vector DBのエンべディングへの問合せ ● 開発とプロダクション間のコード、データ、モデルの移動 ● モデル、特徴量、エクスペリメントの管理 エンドツーエンドのAIの機能 … MLOps + LLMOps データ & AIのガバナンス ● AI駆動の発見と検索 ● AIアシスタント ● AIによるパフォーマンス最適化およびスケーリング AIエンジン AI モデル & ツール ● 商用AIモデル ● コミュニティAIモデル ● コミュニティツール

Slide 8

Slide 8 text

©2024 Databricks Inc. — All rights reserved AI モデル & ツール クラウドストレージ データの準備 AIの開発と評価 AIの提供 Databricks AI 8 … データインテリジェンスプラットフォームに完全に統合 SQL ワークフロー DLT ノートブック マーケットプレース レイクハウスモ ニタリング Spark レイクハウス共通機能 Unity Catalog CI/CDサポート Delta ファイル (Volumes) データの提供 Data & AIのガバナンス MLOps + LLMOps OpenAI … Hugging Face 外部サービス MLFlow Vector Search Feature Serving モデル サービング * Models In UC AI Functions AutoML Lakehouse AI固有の機能 ファインチューン Features In UC MLflow (Track/Evaluate) AI Playground * カスタムモデル、基盤モデル、外部モデルに対する統合 API

Slide 9

Slide 9 text

©2024 Databricks Inc. — All rights reserved レイクハウスと データインテリジェンスプ ラットフォーム 9

Slide 10

Slide 10 text

©2024 Databricks Inc. — All rights reserved Unified security, governance, and cataloging Unified data storage for reliability and sharing Unity Catalog Delta Lake レイクハウスからデータインテリジェンスプラットフォームへ 10 レイクハウス インテリジェンスエンジンはすべてのレイヤーのプ ラットフォーム体験をシンプルにします ETL & リアルタイム分析 データサイエンス & AI オーケストレーション データ ウェアハウス ワークフロー DLT Databricks AI Databricks SQL セキュリティ、ガバナンス、カタログの統合 信頼性と共有のための統合データストレージ Unity Catalog Delta Lake データのセマンティクスを理解する生成AI インテリジェンスエンジン ETL & リアルタイム分析 データサイエンス & AI オーケストレーション データ ウェアハウス セキュリティ、ガバナンス、カタログの統合 信頼性と共有のための統合データストレージ データインテリジェンスプラットフォーム ワークフロー DLT Databricks AI Databricks SQL Unity Catalog Delta Lake Unity Catalogはインテリジェンスエンジンの基盤です

Slide 11

Slide 11 text

©2024 Databricks Inc. — All rights reserved ハイレベルの アーキテクチャ 11

Slide 12

Slide 12 text

©2024 Databricks Inc. — All rights reserved サーバレスコンピュートプレーン Control Plane 12   クラシックコンピュートプレーン 顧客 クラスター (ETL と AI) SQL ウェアハウス (DWH と BI) Databricks SQL (DWH と BI) データインテリジェンスプラットフォーム概要 Unity Catalog インテリジェンスエンジン プラットフォームサービス ユーザー 計算資源 ストレージ クラウドストレージ モデルサービング (リアルタイム)

Slide 13

Slide 13 text

©2024 Databricks Inc. — All rights reserved サーバレスコンピュートプレーン Control Plane 13   クラシックコンピュートプレーン 顧客 クラスター (ETL と AI) SQL ウェアハウス (DWH と BI) Databricks SQL (DWH と BI) データインテリジェンスプラットフォーム サーバレス Unity Catalog インテリジェンスエンジン プラットフォームサービス ユーザー 計算資源 ストレージ クラウドストレージ モデルサービング (リアルタイム)

Slide 14

Slide 14 text

©2024 Databricks Inc. — All rights reserved Databricks ワークスペース 14

Slide 15

Slide 15 text

©2024 Databricks Inc. — All rights reserved クラシックコンピュート ハイレベルアーキテクチャ コントロールプレーン クラウドストレージ その他の データ ソース 顧客 Databricksワークスペース ID プロバイダー プラットフォームサービス アカウントコンソール Unity Catalog クラスター クラスター インテリジェンスエンジン

Slide 16

Slide 16 text

©2024 Databricks Inc. — All rights reserved クラシックコンピュート ハイレベルアーキテクチャの詳細 Databricksワークスペース コントロールプレーン クラウドストレージ その他の データ ソース 顧客 ID プロバイダー アカウントコンソール クラスター ドライバー ワーカー ログイン Photon メタストア (カタログ) Web App ポータル, REST API コンピュートマ ネージャ アクセス制御 データ/リネージエ クスプローラ Unity Catalog ワークフローマ ネージャ クエリーマネー ジャ SSO オプティマイザ アシスタント DatabricksIQ インテリジェンス エンジン プラットフォーム サービス ユーザー

Slide 17

Slide 17 text

©2024 Databricks Inc. — All rights reserved SQLウェアハウス 17

Slide 18

Slide 18 text

©2024 Databricks Inc. — All rights reserved クラシックコンピュート ハイレベルアーキテクチャ 顧客 Databricks SQL - SQLウェアハウス SQLウェアハウス (ロードバランスクラスター) コントロールプレーン アカウントコンソール クラウドストレージ その他の データ ソース ID プロバイダー プラットフォームサービス Unity Catalog インテリジェンスエンジン

Slide 19

Slide 19 text

©2024 Databricks Inc. — All rights reserved ハイレベルアーキテクチャの詳細 Databricks SQL - SQLウェアハウス コントロールプレーン クラウドストレージ その他の データ ソース 顧客 ID プロバイダー アカウントコンソール メタストア (カタログ) Web App ポータル, REST API コンピュートマ ネージャ アクセス制御 データ/リネージエ クスプローラ Unity Catalog ワークフローマ ネージャ クエリーマネー ジャ SSO オプティマイザ アシスタント DatabricksIQ インテリジェンス エンジン プラットフォーム サービス ユーザー DB SQLクエリーエディタ コネクターやJDBC/ODBC 経由でのBIツール クラシックコンピュート SQLウェアハウス Driver Driver ロードバランス Worker Worker Photon Photon

Slide 20

Slide 20 text

©2024 Databricks Inc. — All rights reserved Databricksサーバレス 20

Slide 21

Slide 21 text

©2024 Databricks Inc. — All rights reserved ハイレベルアーキテクチャ 21 コントロールプレーン サーバレスコンピュート 顧客 Databricksサーバレス アカウントコンソール DB SQLクラスター 未割り当てのプール モデルサービングエンドポイント システム間通信無し システム間通信無し 分離されたセキュリティグループ サーバレス コンピュートマ ネージャ IDプロバイダー その他のデータ ソース クラウドストレージ ルートバケット (DBFS) プラットフォーム サービス Unity Catalog インテリジェンスエンジン

Slide 22

Slide 22 text

©2024 Databricks Inc. — All rights reserved サーバレスコンピュート ハイレベルアーキテクチャ 22 A IDプロバイダー その他のデータ ソース クラウド ストレージ Databricks SQL - サーバレスSQLウェアハウス 顧客 コントロールプレーン アカウントコンソール 顧客 A クラスター 顧客 B クラスター B IDプロバイダー その他のデータ ソース クラウド ストレージ Web App ワークフローマネージャ コンピュートマネージャ コネクター クエリーマネージャ Unity Catalog インテリジェンスエンジン

Slide 23

Slide 23 text

©2024 Databricks Inc. — All rights reserved ハイレベルアーキテクチャの詳細 23 コントロールプレーン Serverless Compute Web App (ポータル/REST API) クエリー 未割り当てのク ラスター 分離された ネットワーク 分離されたVM 分離されたコンテナ 最低限の権限 Driver worker Driver worker Driver worker A IDプロバイダー その他のデータ ソース クラウド ストレージ ルートバケット (DBFS) 顧客 A 専用計算 リソースとし て 割り当て Driver worker 顧客 Databricks SQL - サーバレスSQLウェアハウス SSO (AやBのIDプロバイダーを使用) (AやBの)ユーザー 顧客 B 専用計算 リソースとし て 割り当て Driver worker Driver B IDプロバイダー その他のデータ ソース Cloud Storage ルートバケット (DBFS) worker アカウントコンソール Photon Photon Photon ワークフロー Encryption at rest and in transit Unity Catalog インテリジェンスエ ンジン

Slide 24

Slide 24 text

©2024 Databricks Inc. — All rights reserved セキュリティ概要 (DatabricksワークスペースとDatabricks SQL) 24

Slide 25

Slide 25 text

©2024 Databricks Inc. — All rights reserved コントロールプレーン クラシックコンピュート クラスター SQL ウェアハウス 25 * Secure Cluster Connectivity セキュリティのハイライト Secure Cluster Connectivity (SCC)、IPアクセスリスト、SSO Users クラウドストレージ その他の データソー ス 顧客 ID プロバイダー アカウントコンソール ログイン シングルサインオン (SSO) IPアクセスリスト (IPアドレス) SCC* リレー ワークフローマ ネージャ クラスター マネージャ Web App ポータル, REST API メタストア (カタログ) ... ... DatabricksIQ

Slide 26

Slide 26 text

©2024 Databricks Inc. — All rights reserved コントロールプレーン ワークフローマ ネージャ クラスター マネージャ クラシックコンピュート SQL ウェアハウス クラスター Web App ポータル, REST API クラウド ストレージ ルート バケット 26 セキュアクラスター通信のワークスペース その他の データソー ス IDプロバイ ダー SCC リレー 完全なジョブ の結果 443 メイン通信 トンネル 443 from to AzureとAWSにおけるSCCのポートと通信 * 顧客 443 80 インタラク ティブログイ ン / REST コール 443に自動で リダイレクト メタストア (カタログ) ユー ザー アカウントコンソール ... ... DatabricksIQ 443 (コンピュートプレーンからコントロールプ レーンのみへの)内部コール 8443-8451 Hive メタストア 3306 * SCC on GCPはkubernetesベース

Slide 27

Slide 27 text

©2024 Databricks Inc. — All rights reserved トランジット VNet/VPC コンピュートプレーンの VNet/VPC 顧客の企業 ネットワーク コントロールプレーン 27 エンドツーエンドのプライベート接続用のPrivate Link クラシック コンピュート アカウントコンソール ユーザー、ワークロード、データ間のプライベート接続 顧客 ユーザー VPN クラウド ストレージ Private Link VPN: Virtual Private Network (や類似のクラウドサービス ) Private Linkサー ビス Private Link Private Link Cluster SQL ウェアハウス ● フロントエンド: ユーザーからワークスペース ● バックエンド: コンピュートプレーンからコントロールプレーン

Slide 28

Slide 28 text

©2024 Databricks Inc. — All rights reserved コントロールプレーン DB SQL クエリー クラウドストレージ 28 顧客管理キー アカウントコンソール 顧客自身の暗号化キーで格納データを暗号化 顧客 ノート ブック 鍵管理 (KMS, AKV, …) シーク レット 顧客管理 キー クラスターディスク DBFS ● クラウドネイティブの鍵管理サービスと連携 ● 鍵のローテーションでルートキーの定期的な ローテーションを実現

Slide 29

Slide 29 text

©2024 Databricks Inc. — All rights reserved Databricksをスケール 29

Slide 30

Slide 30 text

©2024 Databricks Inc. — All rights reserved Databricksコンピュートをスケール 30 Driver worker Driver worker オートスケール (水平) クラスターのみ より大きなノード (垂直) 複数のクラスター 複数のクラスター - ロード分散 SQLウェアハウスのみ なぜ?クエリーやデータ量の変動 なぜ?シングルノードのDSやpandas UDFでの性能や大規模データの取り扱い なぜ?個別のワークロード (ETL, DS, BIなど) ジョブ専用の揮発性クラスター なぜ?より多くの同時クエリーをサポート Driver worker New worker Databricks SQLのSQLウェアハウス Driver worker Driver worker Driver worker Driver worker Driver Driver シングルノードのDS Driver worker 注意: Databricksで計算資源をスケールさせる最も簡単な方法はサーバレス サービスを使うことです (サーバレスSQLウェアハウスやモデルサービング )

Slide 31

Slide 31 text

©2024 Databricks Inc. — All rights reserved 共有のコントロールプレーンサービス コンピュートプレーン ワークスペース マルチワークスペースアーキテクチャ 31 クラウド ストレージ コントロールプレーン ワークスペースの分離、例えば - 開発プロセスのステージ (DEV, STG, PROD) - ビジネスユニット - リソース制限の回避 (クラウドアカウント/サブスクリプション) アカウント コンソール ユーザー管理 IDプロバイ ダー ユーザーとグ ループの同 期 分離 / スケール Unity Catalog メタストア モデルレジストリ Feature Store Web App ポータル, REST API クラスター SQL ウェアハウス 顧客 顧客 ユーザー ワークスペース クラスター SQL ウェアハウス クラウド ストレージ 分離 / スケール インテリジェンスエンジン

Slide 32

Slide 32 text

©2024 Databricks Inc. — All rights reserved ハイレベルの データアーキテクチャ 32

Slide 33

Slide 33 text

©2024 Databricks Inc. — All rights reserved データアーキテクチャ 33

Slide 34

Slide 34 text

©2024 Databricks Inc. — All rights reserved 最終形 メダリオン、ベストプラクティスのパイプライン クレンジング 取り込み ブロンズ シルバー Sparkストリーム ゴールド 再サンプリング 内挿された 時系列 特徴量拡張 特徴量削減 生データ ▪ データ処理なし ▪ 間違いを修正するためにデータを保持 クレンジングされ適合したデータ ▪ 直接クエリー可能 ▪ PIIのマスキング/検閲 整理されたビジネスレベルのテーブル ▪ プロジェクト/ユースケース固有 ▪ 非正規化、読み取りに最適化した データモデル 34

Slide 35

Slide 35 text

©2024 Databricks Inc. — All rights reserved ● ランディング (ブロンズ) ● オリジナルフォーマットの生データ (一時的) ● 取り込み (ブロンズ) ● (ランディングのAvro, CSV, parquet, XML, JSON フォーマットから)Deltaに変換された生データ ● データ契約の検証: (通常はソースから派生する ) スキーマ、タイムフレーム… ● 時にはステージングと呼びます ● 統合 - 物理データモデル (シルバー) ● (用語集や分類を含む)複数のビジネスドメインをカバー する詳細情報 ● すべてのデータソースを統合 ● 必ずしもディメンショナルモデルである必要は ありませんが、ディメンショナルモデルに入力されます。 ● データマート (ゴールド) ● 統合レイヤーのサブセットであり、時にはデータのフィ ルタリングや集計が行われます ● スタースキーマを用いたディメンショナルモデルに フォーカス ● 通常は特定のLoBやチーム向けとなります データモデル: DHW向けディメンショナルモデル 35 gold silver Presentation Integration Data Mart Dim Dim Dim Fact Customer Product Time Order Dim. Model Data Mart Dim. Model Dimensional model (star schema) Physical Data Model Logical Data Model (3NF*) Business Information Model SQL * 3NF = “Third normal form” in data modelling bronze Ingestion Verified data Landing Raw data (temp.) ETL/ELT

Slide 36

Slide 36 text

©2024 Databricks Inc. — All rights reserved gold silver Curation データモデリング: モダンユースケース(MLやAI) 36 ● ランディング (ブロンズ) ● オリジナルフォーマットの生データ (一時的なもので ある場合もあり)。ランディングゾーンを持つことで、オ リジナルの入力フォーマットと独立して Deltaフォー マットでブロンズを保持することができます。 ● 取り込み (ブロンズ) ● (ランディングのAvro, CSV, parquet, XML, JSON フォーマットから)Deltaに変換された生データ ● 通常はDWHと比較して軽量な検証処理 ● その他の変換処理やビジネスロジックは適用されま せん ● 多くの場合 “スキーマオンリード” のアプローチ ● キュレーション (シルバー) ● クレンジング、フィルタリング、拡張されたデータ ● 最終形 (ゴールド) ● ビジネスレベルの集計 ● プロジェクト目的に応じたマスキング、削減、匿名化 ● 必要であれば性能のための非正規化 Final ETL/ELT Python R SQL Scala Cleansed data Filtered data Augmented data Project data Business level aggregates bronze Ingestion Verified data Landing Raw data (temp.)

Slide 37

Slide 37 text

©2024 Databricks Inc. — All rights reserved 37 強化されたメダリオンアーキテクチャ ● Landing: オリジナルフォーマットの生データ ● Ingestion: 生データが検証され Deltaに変換 ● モダンユースケースのための Data Lake ● Curation: クレンジング、均質化され、ビジネスロジックを適用 ● Final: ビジネス/プロジェクトで利用できるデータセット ● BIユースケースのための DWH ● Integration: エンタープライズDWH (複数の場合あり) ● Presentation: ビジネスレディのDWH情報 (データマート) Cloud storage gold bronze silver Ingestion Verified data Curation Cleansed, augmented, … Final Business specific Landing Raw data, temp. Presentation Data marts Integration Business information model BIユースケース (厳密にモデル化され 検証されたデータ モダンユースケース batch streaming モダンなAIユースケースとクラシックなDWH/BIユースケース向け

Slide 38

Slide 38 text

©2024 Databricks Inc. — All rights reserved データアクセス 38

Slide 39

Slide 39 text

©2024 Databricks Inc. — All rights reserved クラウドストレージ External table containers / buckets Databricksにおけるハイレベルのデータアクセス コンピュートプレーン マネージドテーブル コンテナ / バケット 外部テーブルコンテナ / バケット 39 クラスター / SQLウェアハウス ルートコンテナ / バケット DBFS * / Unity Catalogによるアクセス制御 Unity CatalogのクラスターとSQLウェアハウス Unity Catalog アクセスコントロール無し、プロダクションデータでは使わないこと * 仮想ファイルシ ステム

Slide 40

Slide 40 text

©2024 Databricks Inc. — All rights reserved Unity Catalog データアクセスのセキュリティ クラウドストレージ クラシック / サーバレス コンピュートプレーン クラスター Driver worker マネージドテーブル コンテナ / バケット データコンテナ / バケット #1 データコンテナ / バケット #2 データコンテナ / バケット #3 データコンテナ / バケット #4 テーブルACL のチェック 1a IDプロバイダー 40 アクセス制御 短期間の サイン済み トークンでの アクセス 1b マネージド テーブル 短期間の サイン済み トークンでの アクセス 1b 外部テー ブル ID アカウントコンソール

Slide 41

Slide 41 text

©2024 Databricks Inc. — All rights reserved ユーザー (S3, ADLS) 41 Unity Catalogにおけるクエリーの生涯 クラウド ストレージ 監査ログ 監査ログの 書き込み 管理者 ● IAMロール(AWS) / サービス プリンシパルやマネージド アイデンティティ(Azure)の作成 ● Unity Catalogでアクセスポリシーを 定義 1 クエリー送信 (SQL Python, R, Scala,) IAMロール / サービスプリンシパル / マネージドアイデンティティの Assume 3 短期間のトークンとサイン済み URLを返却 4 メタデータと権限のチェック 2 結果の送信 8 短期トークンとURLによるデータのリ クエスト/取り込み 5 データの返却 6 クラスターやSQL ウェアハウス ポリシーの 強制 7

Slide 42

Slide 42 text

©2024 Databricks Inc. — All rights reserved Delta & UniForm 42

Slide 43

Slide 43 text

©2024 Databricks Inc. — All rights reserved データフォーマット - Parquet 顧客 p1 pn p2 p3 p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. task task task task 小さなファイル問題 全体 期間 顧客 p4 p1 p2 p3 task task task task 全体 データの破損 期間 スキーマ破損 ファイル破損 失敗 失敗 失敗 顧客 p4 p1 p2 p3 task task task task 全体 ゴール: 信頼できるデータと最適なファイルサイズ 期間 43 Parquetの何が悪い?

Slide 44

Slide 44 text

©2024 Databricks Inc. — All rights reserved Delta: 信頼性とパフォーマンスの機能 customers TX log p4 p1 p2 p3 直接の更新と削除 (複雑なパイプラインは不要です ) ✘ ● GDPR ● Change Data Capture (CDC & SCD) ✘ customers TX log p4 p1 p2 p3 customers TX log p4 p1 p2 p3 customers TX log p4 p1 p2 p3 タイムトラベル (暗黙的なスナップショット) V2 V1 V0 ✘ ✘ オンザフライの最適化 (複雑なパイプラインは不要です ) customers p3 p1 p2 TX log customers p1 pn p2 p3 p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. p.. TX log customers TX log p4’ p1’ p2’ p3’ 一貫性 (破損、不完全、間違ったデータを読み込むことはあり ません) write ✔ スキーマ強制 ! ! customers TX log p4 p1 p2 p3 stream read stream ✔ 44

Slide 45

Slide 45 text

©2024 Databricks Inc. — All rights reserved UniForm UniForm IcebergやHudiであるかのようにアクセスされるDeltaで格納されたデータ * 45 データ メタデータ Reader Reader Reader * クライアント 単一 セットの Parquet ファイル * Hudi coming soon Delta メタデータ Iceberg メタデータ Hudi * メタデータ

Slide 46

Slide 46 text

©2024 Databricks Inc. — All rights reserved UniForm UniForm IcebergやHudiであるかのようにアクセスされるDeltaで格納されたデータ * 46 Data メタデータ Delta メタデータ Iceberg メタデータ Hudi * メタデータ UniForm 単一 セットの Parquet ファイル Delta メタデータ Iceberg メタデータ Hudi * メタデータ 1 2 3 4 UniForm Writer UniForm Readers Writer Reader Reader Reader * クライアント 1 2 1 2 1 2 単一 セットの Parquet ファイル * Hudi coming soon

Slide 47

Slide 47 text

©2024 Databricks Inc. — All rights reserved Icebergメタデータ 47 最新データへの自動アクセス 計算資源不要 オープンな表示 タイムトラベルをサポート Icebergメタデータを自動生成 DeltaでUniFormを有効化 最新データへの手動アクセス 読み込みにサーバーサイドの計算資源不要 オープンな標準 ユーザー指定の メタデータパス Unity Catalog Iceberg REST API

Slide 48

Slide 48 text

©2024 Databricks Inc. — All rights reserved Databricksの ファイルシステム 48

Slide 49

Slide 49 text

©2024 Databricks Inc. — All rights reserved DBFS (Databricks File System) 49 dbfs ルートコンテナ / バケット データコンテナ / バケット Repos Unity Catalog Volumes 例 Spark Unity Catalogによる ユーザーアクセス コントロール ワークスペース オブジェクト権限によるユー ザーの アクセスコントロール 保護されていません! マウント: マウントで使用されたIAMポ リシーやサービスプリンシパ ルによる 各ユーザーのアクセス コントロール 分散ファイルシステムの抽 象レイヤー 分散処理 クライアント ファイルシステム プロダクションデー タでは使用しない で ください!

Slide 50

Slide 50 text

©2024 Databricks Inc. — All rights reserved Databricks コントロールプレーン Databricksのファイルシステム 50 リファレンス ターゲット ファイルシステム 凡例 %run /Users//step_1 オペレーショナル DB 個々の ノートブック Databricksノートブック(%run) /Shared /Users /Users//orders DevOps, GitHub, ... Driver & worker (POSIXファイルシステム) / ワークスペースファイルシステム フォルダ /Workspace/Repos/ /Workspace/Repos// %sh ls /Workspace/Repos/$username/ %sh cat /Workspace/Repos/$username/n.py from loc_lib import method # loc_lib in repo config = open(“c.yml”).read() config = open( “/Workspace/Repos/$username/$path/c.yml” ).read() dbutils.fs.ls("file:/Workspace/Repos//") spark.read.csv(f"file:{os.getcwd()}/data/d.csv") %sh cat /dbfs/FileStore/data.csv dbutils.fs.ls("dbfs:/FileStore/…”) dbutils.fs.ls("/databricks-data/…”) spark.read.csv("dbfs:/FileStore/d.csv”) dbfs ルートコンテナ / バ ケット / /FileStore /databricks-data /dbfs /dbfs/FileStore / %sh cat /dbfs/mnt/data/bucket/data.csv dbutils.fs.ls(“dbfs:/mnt/data/sales-data/…”) dbutils.fs.ls(“/mnt/data/sales-data/…”) dbutils.fs.ls("abfss://… /mktg-data/…”) dbutils.fs.ls("s3a://… /mktg-data/…”) dbutils.fs.ls("gs://… /mktg-data/…”) spark.read.csv("/mnt/data/mktg-data/… /d.csv”) spark.read.csv("abfss://… /mktg-data/… /d.csv”) コンテナ / バケット /sales-data /mktg-data /mnt /mnt/data dbutils.fs.ls("dbfs:/Volumes////

”) dbutils.fs.ls("/Volumes////

”) %sh ls /Volumes////

%sql LIST ‘/Volumes////

’ spark.read.csv(‘/Volumes////’) /Volumes////

Unity Catalog Volumes Metastore catalog schema volume コンテナ / バケット /images = catalog = schema = volume

= path /Volumes////

Slide 51

Slide 51 text

©2024 Databricks Inc. — All rights reserved リファレンス アーキテクチャ 51

Slide 52

Slide 52 text

©2024 Databricks Inc. — All rights reserved BIツール Op. DB バッチ & ストリーム データ コラボレーション Databricksデータインテリジェンスプラットフォーム 52 ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン データインテリジェンスプラットフォーム フェデレーショ ン ETL AIアプリ 3rd party ビジネスアプリ 連携 取り込み 変換 分析 ソース 提供 クエリーと処理 ダッシュボード Spark / Photon Delta Live Tables Databricks SQL ワークフロー Auto loader マーケットプ レース アシスタント データ ルーム Lakeview レイクハウスモ ニタリング Hugging Face OpenAI IDプロバイダ ガバナンス AIサービス モデル サービング Vector Search ML モデリング Mosaic AI カタログ & リネージ アクセス 制御 Unity Catalog MLOps 生成AI 特徴量 サービング … ドメイン 鍵管理 鍵 モデル / 特徴量 DatabricksIQ センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ビジネスアプリ ファイル / ログ (半構造化) IDプロバイダ エンタープライズカ タログ クラウドストレージ AIアプリ RDBMS (構造化) 取り込み ツール イベント ストリーミング RDBM, KVストア データ利用 BIツール Delta Lake Delta Sharing bronze silver gold

Slide 53

Slide 53 text

©2024 Databricks Inc. — All rights reserved 1 バッチETL 53 バッチ & ストリーム データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 Workflows Auto loader アシスタント ETL カタログ & リ ネージ アクセス 制御 Spark / Photon Delta Live Tables 取り込み ツール レイクハウスモ ニタリング Op. DB RDBM, KVストア 連携 IDプロバイダ ガバナンス Unity Catalog DatabricksIQ ドメイン 鍵管理 鍵 AutoLoader ダッシュボード センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン クラウドストレージ エンタープライズカ タログ

Slide 54

Slide 54 text

©2024 Databricks Inc. — All rights reserved バッチ & ストリーム データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 ワークフロー 2 ストリーミングとチェンジデータキャプチャ 54 アシスタント CDC ETL カタログ & リ ネージ アクセス 制御 Spark / Photon Delta Live Tables イベント ストリーミング レイクハウスモ ニタリング Op. DB RDBM, KVストア 連携 IDプロバイダ ガバナンス Unity Catalog DatabricksIQ ドメイン 鍵管理 鍵 ダッシュボード センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン クラウドストレージ エンタープライズカ タログ

Slide 55

Slide 55 text

©2024 Databricks Inc. — All rights reserved 3 機械学習 (従来型) 55 データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 ワークフロー アシスタント モデル サービング ML モデリング MLOps ETL AIアプリ カタログ & リ ネージ アクセス 制御 Spark / Photon 連携 Hugging Face OpenAI IDプロバイダ ガバナンス AIサービス … Mosaic AI Unity Catalog DatabricksIQ レイクハウスモ ニタリング モデル / 特徴量 ダッシュボード センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ AIアプリ bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン ドメイン 鍵管理 鍵 クラウドストレージ エンタープライズカ タログ

Slide 56

Slide 56 text

©2024 Databricks Inc. — All rights reserved 処理、ETL、リアルタイム分析 Spark / Photon 4 生成AI: RAG 56 データ コラボレーション Storage データサイエンス & 生成AI オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 ワークフロー アシスタント モデル サービング Vector Search 生成AI MLOps ETL カタログ & リ ネージ アクセス 制御 レイクハウスモ ニタリング モデル / 特徴量 連携 Hugging Face OpenAI IDプロバイダ ガバナンス AIサービス … Mosaic AI Unity Catalog DatabricksIQ ダッシュボード AIアプリ センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ Cloud Storage AIアプリ bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン ドメイン 鍵管理 鍵 エンタープライズカ タログ

Slide 57

Slide 57 text

©2024 Databricks Inc. — All rights reserved ダッシュボード Lakeview 5 BI 57 データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン BIツール 取り込み 変換 分析 ソース 提供 クエリーと処理 アシスタント カタログ & リ ネージ アクセス 制御 ETL Spark / Photon データ ルーム 連携 IDプロバイダ ガバナンス Unity Catalog DatabricksIQ レイクハウスモ ニタリング Databricks SQL センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ BIツール bronze silver gold Delta Lake データインテリジェンスプラットフォーム フェデレーショ ン ドメイン 鍵管理 鍵 エンタープライズカ タログ クラウドストレージ

Slide 58

Slide 58 text

©2024 Databricks Inc. — All rights reserved 6 レイクハウスフェデレーション 58 データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 カタログ & リ ネージ アクセス 制御 ETL Spark / Photon 連携 IDプロバイダ ガバナンス Mosaic AI Unity Catalog ダッシュボード フェデレーション センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) IDプロバイダ bronze silver gold データインテリジェンスプラットフォーム フェデレーショ ン ドメイン 鍵管理 鍵 クラウドストレージ エンタープライズカ タログ

Slide 59

Slide 59 text

©2024 Databricks Inc. — All rights reserved 7 データ共有 59 データ コラボレーション ストレージ データサイエンス & 生成AI 処理、ETL、リアルタイム分析 オーケストレーション データとAIのガバナンス バッチ & ストリーム データウェアハウス データインテリジェンスエンジン 取り込み 変換 分析 ソース 提供 クエリーと処理 アクセス 制御 ETL 連携 IDプロバイダ ガバナンス Unity Catalog ダッシュボード 3rd party マーケットプ レース IDプロバイダ データ利用 bronze silver gold Delta Lake Delta Sharing センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウド ファイル / ログ (半構造化) RDBMS (構造化) ドメイン 鍵管理 鍵 データインテリジェンスプラットフォーム フェデレーショ ン エンタープライズカ タログ クラウドストレージ