Slide 1

Slide 1 text

Databricks SQLの サーバレス コンピュート 1

Slide 2

Slide 2 text

Databricks SQL サーバレス シンプルかつ即時に利用できるマ ネージドなマルチクラウド レイクハウスプラットフォーム レイクハウス シンプル マネージド 即時

Slide 3

Slide 3 text

サーバレスとは? & なぜ? 3

Slide 4

Slide 4 text

Databricks SQL (クラシック) Databricks SQLはお客様の クラウドプロバイダーアカウントの環 境にマネージドのデータウェアハウ スを提供します

Slide 5

Slide 5 text

©2022 Databricks Inc. — All rights reserved データプレーン 現行のアーキテクチャ 5 BIアプリ インタラクティ ブ ユーザー コントロール プレーン Web Application Jobs & Cluster Manager Hive Metastore Secrets Notebooks, Repos, DBSQL MLFlow Registry ユーザー Databricks お使いの クラウド ストレージ DBFS Root Data Cluster お客様 Cluster

Slide 6

Slide 6 text

Databricks SQL (クラシック) ウェアハウスに アクセスできるまで 数分かかる キャパシティ管理 待ち時間を避けるために ウェアハウスを長時間稼働 違いが出ない タスク 課題 結果 痛み 未使用リソースへの支払い 予測不能 同時実行性の減少 あるいはひたすら待つ

Slide 7

Slide 7 text

Databricks SQL (サーバレス) 10秒で SQLウェアハウスが 即座に起動 Databricksマネージドの リソース 長時間稼働のクラスターが不要 キャパシティ管理が 不要 機能 結果 インパクト コスト削減 生産性の改善 同時実行性の改善 待ち時間なし

Slide 8

Slide 8 text

©2021 Databricks Inc — All rights reserved サーバレスSQL 優れた生産性: 待ち時間を削減 することでより多 くのことを • より高速なウェアハ ウスの起動 • 高速なオートスケー リング • アイドル状態のコスト 削減 優れたセキュリ ティ: 複数レイヤーの 分離 セキュリティ分離レイヤー を実装することでお客様 のセキュリティを維持 優れた信頼性: 価値を生まないク ラウドタスクを排 除 • キャパシティプランニ ング • ネットワーク設定 • etc. 多くの機能: サーバレスに最 適化された機能 • マテリアライズド ビュー • キャッシュ • etc.

Slide 9

Slide 9 text

より高速な起動時間… 止まることを知りません Databricks SQLサーバ レスは、即時起動でセ キュア、管理ゼロの計算 資源を提供します。 ~3s Nov 2021 Today Coming Soon ~40–50s ~10s 初回クエリーの性能

Slide 10

Slide 10 text

Databricks SQLクラシック vs. サーバレスのコスト 35% customer idle cost reduction $0.22/DBU $0.70/DBU

Slide 11

Slide 11 text

動作原理は? 1

Slide 12

Slide 12 text

©2022 Databricks Inc. — All rights reserved データプレーン 現行のアーキテクチャ 12 BIアプリ インタラクティ ブ ユーザー コントロール プレーン Web Application Jobs & Cluster Manager Hive Metastore Secrets Notebooks, Repos, DBSQL MLFlow Registry ユーザー Databricks お使いの クラウド ストレージ DBFS Root Data Cluster お客様 Cluster

Slide 13

Slide 13 text

©2022 Databricks Inc. — All rights reserved サーバレスデータプレーン 専用セキュリティグループ サーバレスアーキテクチャ 13 BI アプリ インタラクティ ブ ユーザー コントロール プレーン Web Application Jobs & Cluster Manager Hive Metastore Secrets Notebooks, Repos, DBSQL MLFlow Registry ユーザー Databricks お使いの クラウド ストレージ DBFS Root Data Cluster お客様 別テナント Cluster 割り当て可能なプール

Slide 14

Slide 14 text

©2022 Databricks Inc. — All rights reserved サーバレスの有効化 1 1. SQL admin consoleを用いてワークス ペースのサーバレスを有効化します 2. AWSのオプション: DatabricksとAWSイン スタンスプロファイル間の信頼関係を作 成 2

Slide 15

Slide 15 text

©2022 Databricks Inc. — All rights reserved サーバレスSQLウェアハウスの作成 1 2 1. Databricks SQLクラシックと同じUI 2. デフォルトでサーバレスのトグルはオ ンです 3. 既存のSQLウェアハウスを切り替える にはトグルを右に切り替えます

Slide 16

Slide 16 text

©2022 Databricks Inc. — All rights reserved Tenant 2 - ウェアハウス停止 Cluster Cluster 割り当て可能プール Tenant 1 - 新規ウェアハウス Cluster Cluster VM/Disk削除 新規 VM/Disk VMの追加 01 02 03 サーバレスリソースのライフサイクル 1. ユーザーがサーバレスのトグルをオ ンにしてSQLウェアハウスを作成。 割り当て可能なプールからユー ザーにクラスターが割り当てられま す。 2. ウェアハウスが停止/削除されるとリ ソースはクラウドプロバイダーに返 却されます。 3. 機械学習アルゴリズムがリソースを 予測し、プールにリソースを追加し ます。

Slide 17

Slide 17 text

セキュリティ 1

Slide 18

Slide 18 text

• コンテナとローカルストレージ は顧客専用であり、使用後に 削除されます。 • 長期保存用のストレージはお 客様のアカウントに存在しま す。 • 分離クラスターは個々のユー ザーアカウントを保護します。 強力な分離コントロール 内部レッドチームと外部ベンダーによるテストを実施 クラスターは顧客専用であり 再利用されません。 VMには広範なデータプレーン の権限がありません 信頼されないコードは VMレベ ルで実行されません コンテナにはVMレイヤーの権 限がありません インターネット、S3、他のクラ スターメンバーにのみトラ フィックが許可 コントロールプレーンへのトラ フィックはプライベートネット ワーク経由 一時セキュリティトークン経由 の統合されたデータアクセス 3. ネットワークの分離 2. VMの分離 1. コンテナの分離

Slide 19

Slide 19 text

©2022 Databricks Inc. — All rights reserved ネットワークアクセス 1. ユーザーからコントロールプレーン接続のオ プション • IPアクセスリスト • Private Link (プレビュー) 2. データプレーンから顧客のストレージへの接 続 • AWS: プライベートIP経由のAssume Role • Azure: パブリックIPあるいはサービスエンドポイ ント経由のサービスプリンシパル 3. Databricksによって管理されるデータプレー ンからコントロールプレーンへの接続。 TLS 1.2+とIPアクセスリスト。 1 2 3

Slide 20

Slide 20 text

©2022 Databricks Inc. — All rights reserved テナント専用セキュリティグループ 別テナント Cluster VM VM プライベートIP X プライベート IP (TLS) インター ネット X ネットワークアクセス コントロー ルプレー ン S3/ADLS ● テナント横断のネットワークアクセスは不可 ● リージョン内S3接続のためにプライベート IP/TLS経由でS3にアクセス ● TLSによるパブリックIP、サービスエンドポイン ト(プライベートIP)経由でADLSにアクセス ● IPレンジが限定されたプライベートIP/TLS経由 でコントロールプレーンにアクセス ● インターネットからすべてのDatabricksサー ビスへのアクセスは不可

Slide 21

Slide 21 text

競合

Slide 22

Slide 22 text

Databricks SQL with serverless compute compared to other solutions DB SQL with serverless SQL compute is the highest performing and most cost effective solution 起動時間 クエリー 実行時間 高速 (~ 10 sec) 低速 ( ~5min) 低速 高速 CDW1 DB SQL Serverless CDW2 CDW3 Cost Estimate Source: 2021 Cloud Data Warehouse Benchmark Report; Databricks research DB SQL High Medium Low

Slide 23

Slide 23 text

Roadmap go/serverless-sql

Slide 24

Slide 24 text

©2022 Databricks Inc. — All rights reserved Roadmap Q2 (AWS) ● Data plane to S3 private connectivity (AWS) ● Private Link from DP -> CP (AWS) Q3 (AWS) ● Auto Termination to 5 min ● New regions Q4 (AWS) ● GA ● Performance improvements Q4+ (AWS + Azure) DBSQL Serverless only features ● materialized view ● persistent cache ● 5 minute autostop ● 1 minute autstop with API ● Small query prioritization Q3 (Azure) ● Service Endpoint ● Auto Termination to 5 min Q4 (Azure) ● GA ● Performance improvements ● New Regions (West US, Central US) ● Serverless Job

Slide 25

Slide 25 text

©2022 Databricks Inc. — All rights reserved FEATURE MATRIX CLASSIC Self-Managed, Introductory SKU PRO Self-Managed, Compute in your account SERVERLESS Fully Managed, Elastic, Best Value GOOD BETTER BEST EXPLORATORY SQL SQL Editor with intelligent auto complete, ANSI SQL ✓ ✓ ✓ MANAGEMENT & GOVERNANCE Query History & Profile, Data Explorer (Unity Catalog), Managed Data Sharing ✓ ✓ ✓ CONNECTIVITY SQL Rest API, Python, Node.js, Go*, Partner Connect ✓ ✓ ✓ PERFORMANCE Photon Engine (Massively Parallel Processing) ✓ ✓ ✓ Predictive I/O X ✓ ✓ SQL ETL/ELT Query Federation*, Materialized Views*, Workflows Integration* X ✓ ✓ DATA SCIENCE & ML Python UDFs*, Notebooks Integration*, Geospatial X ✓ ✓ SERVERLESS DATA WAREHOUSE Instant, Elastic, Fully Managed Compute* X X ✓ HIGH CONCURRENCY BI Intelligent Workload Management* (Q1) X X ✓ Serverless Query Result Caching* (Q1) X X ✓ Details here * Capability in preview

Slide 26

Slide 26 text

Customers

Slide 27

Slide 27 text

Providing traffic data and connected vehicle services that enhance mobility, convenience and peace of mind. Needed to keep SQL endpoint on 24/7 to support analysts generating insights to roads and traffic conditions. Fixed endpoint size limited amount of data and number of concurrent users. Using Serverless SQL, spin up SQL endpoint instantly. Support granular data for better accuracy and more concurrent users for improved productivity. Healthcare data company providing insights on GTM opportunities, drugs effectiveness and patient analytics. End customer, who uses dashboard such as Tableau or PowerBI for gathering insights of various healthcare customers, experience is non-ideal waiting for SQL endpoint to startup. Serverless SQL enables Kythera Lab to serve large number of concurrent customers in a most cost effective and secure way. Generates actionable market insights for financial customers by combining various data sources. Internal non-technical publishing team uses JDBC connector to collate financial data across various sources. Traditionally, keep an interactive clusters operating 24/7 and process PBs of data. Use Serverless SQL simplifies infrastructure management and tuning. Simplifies onboarding of non-technical users.