Azure Databricks Learning Series #2 - Databricks SQL

Azure Databricks Learning Series ~ #2: Databricks SQL ~

スピーカー Hiroyuki Nakazato 中里浩之日本マイクロソフト株式会社カスタマーサクセス事業本部クラウドソリューション
アーキテクト Yici Chen 陳いつ日本マイクロソフト株式会社カスタマーサクセス事業本部カスタマーエンジニア

アジェンダ 1. Databricks SQL (DB SQL) の概要 2. DB SQL
の特長 3. DB SQL の最新情報 4. DB SQL の価格の考え方 5. DB SQL と Azure サービスを組み合わせたノーコード ETL とデータ分析のアーキテクチャー紹介 & デモ

Databricks SQL の概要 • レイクハウスプラットフォームとは • Databricks SQL とは

データと分析に関する現在のユーザーニーズ生データ整理されたデータあらゆるユースケース向けのコラボレーションプラットフォーム • データ
エンジニア、データサイエンティスト、アナリスト向けのネイティブサポート • 主要な言語とフレームワークの利用すべてのデータに対する専用のデータレイク • 低コストで耐久性の高いクラウドストレージ • あらゆるデータの種類に対するネイティブサポート • データはユーザーアカウント内に保持レイク上の構造化されたトランザクションレイヤー • バッチとストリーミングのサポート • ロックインなしのデータレイク上のオープン形式 • ガバナンス、系列、セキュリティデータサイエンスと機械学習分析、 BI、AI データエンジニアリングとストリーミング大規模/小規模高頻度/低頻度構造化/半構造化 /非構造化

データウェアハウスデータレイクレイクハウスあらゆるデータ、分析、AI ワークロードを統合する単一のプラットフォームパラダイムシフト:
レイクハウス

Microsoft Azure 上でのレイクハウスプラットフォーム Delta Lake Azure Data Lake Storage
Gen 2 構造化データ半構造化データ非構造化データ生データ整理されたデータ BI・ダッシュボードノーコード/ローコードデータパイプライン SQL ベースの分析機械学習データエンジニアリングデータサイエンスレイクハウス Microsoft Azure ストリーミングデータ

Databricks SQL データレイクを標準的な SQL で分析しリッチなダッシュボードで可視化できる機能 Unity Catalog SQL
ウェアハウス Photon エンジンキャッシュ (クエリ結果 / ディスク / UI) Curated data 整理されたデータ SQL エディターダッシュボードアナリストエクスペリエンス管理者エクスペリエンス ✓ アナリストと管理者向けの優れた UI/UX ✓ マルチクラスターの高性能なコンピューティング (Photon エンジン & 豊富なキャッシュ) ✓ データアクセスとメタデータを一元管理できるデータガバナンスソリューション ✓ オープンで高性能、ACID を実現する最新のデータマネジメント・テクノロジー ✓ Premium レベルのワークスペースで利用可能

Databricks SQL の歴史  2020 年 4 月 Databricks 社が
Redash 社を買収  2020 年 11 月 Databricks SQL のパブリックプレビューを開始  2021 年 12 月 Databricks SQL の一般提供を開始 OSS のメジャーなダッシュボードツール多くのデータソースへの接続、クエリでの分析、リッチなダッシュボードによる可視化

Databricks SQL の主要機能 SQL 分析やダッシュボードやアラート機能に加えて主要 BI ツールと JDBC/ODBC 接続に対応機能
概要 SQL 分析 Azure Data Lake Storage Gen2 や Amazon S3 などのクラウドストレージに格納されているデータを ANSI 標準 SQL 準拠の SQL で分析ダッシュボード SQL の実行結果をリッチなダッシュボードで可視化アラート SQL をスケジュール実行し、特定のフィールドが事前定義した閾値を超えたらアラートによって通知 BI ツールサポート Power BI, Tableau, Looker, Qlik Sense, MicroStrategy などの主要な BI ツールから接続可能 (一覧は Databricks パートナーを参照) JDBC/ODBC ドライバーサポート JDBC/ODBC ドライバーを利用して任意のプログラムから接続可能

アナリストエクスペリエンス ✓ データベースとテーブルを簡単に探索し、使い慣れた ANSI SQL でデータを分析する ✓
インタラクティブなビジュアライゼーションで結果をすばやく理解する ✓ クエリを保存・共有・再利用して、より迅速に結果を得られる新しいインサイトをすばやく見つける

SQL ウェアハウス ✓ SQL 分析と BI に最適化された計算リソースを素早くセットアップ ✓ 自動スケールによる高いコンカレンシー
✓ 自動停止やスポットインスタンスの活用によるコスト最適化 ✓ サーバーレス (プレビュー) で利用可能高性能かつスケーラブル、ストレージと完全に分離された計算リソース

管理者エクスペリエンス ✓ ウェアハウスごとに処理クエリ数やクラスター数の増減の推移を監視 ✓ 使用状況の適切な理解とサイジングの最適化に役立てられる SQL ウェアハウスの監視とサイジング

管理者エクスペリエンス ✓ SQL ウェアハウスで実行した全クエリがクエリ履歴に記録される ✓ クエリごとの実行時間や処理データ量、返却行数や I/O パフォーマンスを確認
✓ クエリプロファイル (クエリ実行の詳細の視覚化) や Spark Web UI による詳細なトレース ✓ ボトルネックやコストのかかる操作を特定してクエリを改善クエリの理解と最適化

管理者エクスペリエンス ✓ 新しいユーザーの利用開始、データの検出・保護・管理を確実に実行 ✓ ウェアハウスの監視とクエリ履歴によりコストと使用状況を効率的に管理 ✓ 組込の監査証跡によりコンプライアンスのニーズに対応
セルフサービス分析のガバナンスを容易に行える

• 高性能 • 高スケーラビリティ • 高コスト性能 Databricks SQL の特長

Databricks SQL の 3 つの特長 1 高スケーラビリティ 2 高性能 3
高コスト性能 • ストレージとコンピュートの完全な分離 • マルチクラスター • 自動スケール • Photon エンジン • 複数のキャッシュ • Delta Lake に最適化 • スポット VM の活用 • 自動停止 • DBU の事前購入割引 • サーバーレス (プレビュー)

Databricks SQL のアーキテクチャー ✓ Azure Databricks ワークスペース内に複数の SQL ウェアハウスを作成可能
✓ ウェアハウスは 1 つ以上のクラスターで構成 ✓ ウェアハウスを構成するクラスター数を増やすことでクエリの同時実行性能を向上 ✓ クラスターサイズを上げることで処理性能が向上し、クエリの待機時間を短縮 ✓ 自動スケールを設定することでクエリの処理状況に応じてクラスター数が自動的に増減ストレージとコンピューティングが完全に分離、高いスケーラビリティを持つ SQL Warehouse #1 Cluster #N Driver Node … SQL Warehouse #N Cluster #N Driver Node … … … Cluster #1 Driver Node … Worker Nodes Worker Nodes Worker Nodes ADLS Gen2 などのクラウドオブジェクトストレージ Application or User connection Application or User connection

クラスターサイズと仮想マシン (VM) の対応  クラスターサイズ: 2X-Small から 4X-Large
(T シャツサイジングと表現)  ドライバーノード: クラスターサイズに応じて VM のスペックが変動、台数は 1 固定  ワーカーノード: クラスターサイズに応じて VM の台数が変動、スペックは Standard_E8ds_v4 固定クラスターサイズドライバーノードスペックドライバーノード台数ワーカーノードスペックワーカーノード台数 DBU 2X-Small Standard_E8ds_v4 1 Standard_E8ds_v4 1 4 X-Small Standard_E8ds_v4 1 Standard_E8ds_v4 2 6 Small Standard_E16ds_v4 1 Standard_E8ds_v4 4 12 Medium Standard_E32ds_v4 1 Standard_E8ds_v4 8 24 Large Standard_E32ds_v4 1 Standard_E8ds_v4 16 40 X-Large Standard_E64ds_v4 1 Standard_E8ds_v4 32 80 2X-Large Standard_E64ds_v4 1 Standard_E8ds_v4 64 144 3X-Large Standard_E64ds_v4 1 Standard_E8ds_v4 128 272 4X-Large Standard_E64ds_v4 1 Standard_E8ds_v4 256 528

マルチクラスターのクエリ割り当てに関する仕様 ✔ 1 クラスターに割り当てられるクエリ数  以前は Docs に 10
クエリ / クラスターの記載があったが、現在はクエリの計算コストに基づく割り当てに変更 ✔ クエリのルーティング  新しいセッション：最も負荷が低いクラスターにルーティング  既存のセッション：そのセッションの前のクエリを実行したクラスターにルーティング (そのクラスターが利用できない場合は最も負荷が低いクラスターにルーティング) ✔ クエリのキューイング  ウェアハウスが STARTING 状態または、すべてのクラスターが処理能力の限界までクエリを実行しているとき、クエリはキューに登録される ※ ウェアハウスが STARTING 状態の場合を除き、メタデータクエリ (DESCRIBE table など) や状態の変更クエリ (SET など) はキューに登録されない Databricks SQL ウェアハウスとは - Azure Databricks - Databricks SQL | Microsoft Learn

クラスター数の自動スケールの仕様 ✔ 自動スケールアウトの仕様  実行中のクエリ & キュー内のクエリ & 次の
2 分間に予想される受信クエリの予測処理時間を元に判定する  上記にかかわらず、キュー内で 5 分以上待機しているクエリが存在する場合、クラスターを追加する ✔ 自動スケールインの仕様  低負荷の状態が 15 分間続いた場合にクラスターを縮小する  この場合、過去 15 分間のピーク負荷を処理するのに十分なクラスターが維持される  例：ピーク負荷が 25 の同時クエリの場合、3 つのクラスターが維持される Databricks SQL ウェアハウスとは - Azure Databricks - Databricks SQL | Microsoft Learn 予測処理時間自動スケールアウトの仕様 2 分未満の場合クラスターを追加しない 2 分から 6 分の場合 1 クラスターを追加 6 分から 12 分の場合 2 クラスターを追加 12 分から 22 分の場合 3 クラスターを追加上記以外の場合 3 クラスター + 予測処理時間が 15 分増加するごとに 1 クラスターを追加

SQL ウェアハウスのクラスターサイズとクラスター数の増加クラスター #1 ドライバー: Standard_E16ds_v4 × 1 ワーカー:
Standard_E8ds_v4 × 4 SQL ウェアハウスサイズ: Small, クラスター数: 1 クラスター #1 ドライバー: Standard_E32ds_v4 × 1 ワーカー: Standard_E8ds_v4 × 8 サイズ: Medium, クラスター数: 1 クラスターサイズアップドライバーのスペックアップとワーカー台数増加 ✔ 性能アップによりクエリの待機時間が短縮 ✔ ディスクキャッシュの容量が増加サイズ: Small, クラスター数: 2 クラスター #1 ドライバー: Standard_E16ds_v4 × 1 ワーカー: Standard_E8ds_v4 × 4 クラスター #2 ドライバー: Standard_E16ds_v4 × 1 ワーカー: Standard_E8ds_v4 × 4 クラスター数増加同じ構成のクラスターが追加 ✔ クエリの同時実行性能が向上

Databricks SQL が TPC-DS 100TB での世界記録を更新 2021 年 11 月の発表
- TPC-DS 100TB クラスで他社 DWH と比較して 2.7 倍高速、価格性能において 12 倍優れているとの結果を公式に公開 (出典) Databricks が DWH パフォーマンスの公式記録を更新 - Databricks ブログ

Photon エンジン ✓ Databricks 社がネイティブコード (C++) で新しく開発したベクトル化クエリエンジン
✓ Apache Spark と 100% の互換性を持つ ✓ 生データと列指向形式の構造化データの両者に対して優れた性能を発揮 ✓ 以前の Databricks ランタイムから 2 倍以上の高速化 ✓ Databricks SQL は Photon エンジンがデフォルトで有効化レイクハウスプラットフォームのための次世代高速クエリエンジン

SQL ウェアハウスのキャッシュ複数のキャッシュが自動的に適用され、大幅な性能向上に寄与 User BI Application / SQL Connection SQL
Warehouse #1 Cluster #1 Driver Node Worker Nodes Worker Nodes ディスクキャッシュ (旧称 Delta キャッシュ) クラウドストレージの Delta Lake & Parquet のデータをワーカーノードのローカル SSD にキャッシュ同一のデータの 2 回目以降の読み取りを大幅に高速化クエリ結果のキャッシュ SQL ウェアハウスを介した全クエリの結果セットキャッシュ • 小さな結果セット (1MB 未満) → On Cluster (Driver Node) • 大きな結果セット (1MB 以上) → On Cloud Storage 同一のクエリの 2 回目の結果返却を大幅に高速化 Databricks SQL UI キャッシュクエリとダッシュボードのユーザーごとのキャッシュ (on DBFS) SQL ウェアハウスを停止していてもダッシュボード表示が可能 Delta Table クエリキャッシュ-Azure Databricks - Databricks SQL | Microsoft Docs How to Extract Large Query Results Through Cloud Object Stores - The Databricks Blog

ディスクキャッシュクラウドストレージ上の Delta Lake および Parquet 形式のデータの最初の読み取り時にワーカー
ノードのローカル SSD にキャッシュ、2 回目以降の読み取りを大幅に高速化項目説明キャッシュ対象のデータクエリで処理するデータ (クエリ結果キャッシュではない) キャッシュ対象のデータ形式 Delta Lake および Parquet 形式のデータキャッシュのトリガー最初の読み取り時に自動的に実行キャッシュの強制 CACHE SELECT コマンドでデータをキャッシュに事前に読み込めるパフォーマンスインメモリの Spark キャッシュよりも高速に読み取り可能：高速な中間データ形式で格納 & 効率的なアルゴリズムで展開キャッシュの一貫性ディスクキャッシュがデータファイルの作成・削除・更新を自動的に検知しキャッシュに反映：ユーザーが明示的にキャッシュの無効化や更新を行う必要はないキャッシュの削除 LRU (Least Recently Used; 最後の使用から最も時間が経過した) データを自動的に削除クラスターの再起動によってもキャッシュは削除されるキャッシュの容量ワーカーノードのローカル SSD の使用可能な領域の半分を利用 (Standard_E8ds_v4 のローカル SSD は 300 GiB = 150 GiB をディスクキャッシュに利用) Azure Databricks でキャッシュを使用してパフォーマンスを最適化する - Azure Databricks | Microsoft Learn

ディスクキャッシュクラウドストレージ上の Delta Lake および Parquet 形式のデータの最初の読み取り時にワーカー
ノードのローカル SSD にキャッシュ、2 回目以降の読み取りを大幅に高速化項目説明キャッシュ対象のデータクエリで処理するデータ (クエリ結果キャッシュではない) キャッシュ対象のデータ形式 Delta Lake および Parquet 形式のデータキャッシュのトリガー最初の読み取り時に自動的に実行キャッシュの強制 CACHE SELECT コマンドでデータをキャッシュに事前に読み込めるパフォーマンスインメモリの Spark キャッシュよりも高速に読み取り可能：高速な中間データ形式で格納 & 効率的なアルゴリズムで展開キャッシュの一貫性ディスクキャッシュがデータファイルの作成・削除・更新を自動的に検知しキャッシュに反映：ユーザーが明示的にキャッシュの無効化や更新を行う必要はないキャッシュの削除 LRU (Least Recently Used; 最後の使用から最も時間が経過した) データを自動的に削除クラスターの再起動によってもキャッシュは削除されるキャッシュの容量ワーカーノードのローカル SSD の使用可能な領域の半分を利用 (Standard_E8ds_v4 のローカル SSD は 300 GiB = 150 GiB をディスクキャッシュに利用) Medium サイズのクラスターの場合、ワーカーノード × 8 台 = 計 1.2TiB のローカル SSD をディスクキャッシュに利用可能 Azure Databricks でキャッシュを使用してパフォーマンスを最適化する - Azure Databricks | Microsoft Learn

SQL ウェアハウスの分け方のアイディア  複数チームでウェアハウスを活用する場合、単一の巨大なウェアハウスを運用するよりも用途や利用者などの観点でウェアハウスを分ける方が管理が容易  異なるウェアハウスでも同一のデータにアクセス可能なのがポイント  メリット：負荷の集中回避、タグによる課金の明確化、停止などの調整が容易全社ダッシュボード用ウェアハウス
(Small, Min=1, Max=2) データアナリストチーム用ウェアハウス (Medium, Min=1, Max=4) BI チーム用ウェアハウス (Large, Min=1, Max=2) ADLS Gen2 などのクラウドオブジェクトストレージ

• Databricks SQL サーバーレス (プレビュー) • Unity Catalog Databricks SQL
の最新情報

SQL ウェアハウスのタイプと提供機能 SQL ウェアハウス機能概要提供機能 Classic Self managed, introductory
SKU, compute in your account Pro Self managed, advanced SKU, compute in your account Serverless* Fully managed, elastic, best value アドホック SQL クエリ SQL エディタ • • • ANSI SQL • • • データマネジメントガバナンスクエリ履歴 & クエリプロファイル • • • Unity Catalog 向け Data Explorer • • • Managed Data Sharing • • • 接続性 Partner Connect • • • SQL Rest API, Python, Node.js, Go* • • • パフォーマンス Photon • • • Predictive I/O • • SQL ETL/ELT Query フェデレーション* • • Materialized View * • • Workflows 統合* • • データサイエンス ML Geospatial 関数 • • Python UDF* • • Notebook Integration* • • サーバーレス SQL データウェアハウスフルマネージドコンピュート • Intelligent Workload Management* • Serverless Query Result Caching* • What are the SQL warehouse types? - Azure Databricks - Databricks SQL | Microsoft Learn Databricks SQL Azure Pricing - Databricks * プレビュー機能

Databricks SQL サーバーレスの特長 1 高い生産性 2 フルマネージド 3 コスト削減
• ユーザーのクエリはすぐに開始、クラスタ起動を待つ必要なし • 即時のクラスタスケーリングで更なる同時利用ユーザーに対応 • 構成不要 • パフォーマンスチューニング不要 • キャパシティ管理不要 • 自動アップグレード / パッチ適用 • 使った分だけの支払い; クラスタのアイドル時間を削減 • リソースの過剰プロビジョニングを抑止 • 最終クエリ実行から 10 分のアイドル待ち容量を削除

なぜ Databricks SQL サーバーレスが作られたのか？クラスターの起動時間を短縮したいという多数のユーザー要望に応えるため Quicker cluster startup times ·
Community (azure.com)

Databricks SQL サーバーレスで何が変わるのか？マネージドなサーバー群常時起動しているサーバー群は、自動的にパッチ適用 / アップグレードされる ... 最適化されたキャパシティデフォルトでは最後のクエリから
10 分経過したアイドルクラスタは除去される Serverless SQL Compute セキュアデータ暗号化を含めた 3 レイヤーの分離即時のコンピュートユーザーはクラスターの起動 / スケールアップ時に 10 秒以内に計算リソースが割り当てられるため待ち時間がほぼない

従来の Databricks SQL のコンピューティングリソースの配置データプレーンはユーザーが管理する Azure サブスクリプションに配置 Azure
Databricks ワークスペース VNET ワークスペースワークスペース Customers Account ユーザー管理の Azure サブスクリプション Azure Databricks サービスユーザー管理のクラウドストレージデータプレーン (クラスターを構成する VM 群と周辺リソース) コントロールプレーン

Databricks SQL サーバーレスのコンピューティングリソースの配置データプレーンは Azure Databricks が管理するサブスクリプションに配置 Azure
Databricks ワークスペースワークスペースワークスペース Customers Account ユーザー管理の Azure サブスクリプション Azure Databricks サービスユーザー管理のクラウドストレージ Databricks SQL サーバーレス用データプレーンコントロールプレーン

従来のクラスターとサーバーレスの初回応答までの時間比較 ✓ Classic または Pro の場合、クラスターの起動完了まで (VM の台数によるが)
5-7 分程度待つ必要がある ✓ サーバーレスはユーザーリクエストを受けて概ね 10 秒以内にコンピューティングリソースの準備が完了 ✓ さらなる時間短縮 (2-4 秒まで短縮) を目標に開発が進行中サーバーレスは初回のクエリ応答速度が大幅に向上 ~10s ~2-4s ~7m

Databricks SQL サーバーレスは Azure ストレージアカウントの仮想ネットワークサービスエンドポイントに対応サービス
エンドポイント: Azure リソースへのアクセスを特定の Vnet のサブネットからの通信に限定できる機能、通信は常に Azure のバックボーンネットワークを通るなどの特長を持つサーバーレスが利用する VNet とサブネットの一覧が以下 Docs で公開されており、それらをストレージアカウントのファイアウォールで許可する形 Configure Azure storage firewalls to allow access from serverless SQL warehouses https://learn.microsoft.com/ja-jp/azure/databricks/sql/admin/serverless-firewall NW セキュリティが必須の組織でもサーバーレスを安心して利用できる

Databricks SQL サーバーレスの利用開始にあたっての考慮点 2023 年 1 月現在の情報  パブリックプレビューのステータス
 利用可能なリージョンは米国東部、米国東部 2、西ヨーロッパ  利用開始にあたって申請が必要 (申請フォームについても以下 URL に記載あり) 最新の情報については以下 URL を参照 https://learn.microsoft.com/ja-jp/azure/databricks/serverless-compute/

Unity Catalog: メタデータとユーザーの一元管理データエステートの統一ビューを作成 Unity Catalog なし Databricks Workspace
2 Databricks Workspace 1 User Management Metastore Clusters SQL Warehouses User Management Metastore Clusters SQL Warehouses Access Controls Access Controls ワークスペース単位でユーザーとメタデータを管理 Databricks Workspace Databricks Workspace Unity Catalog User Management Metastore Clusters SQL Warehouses Clusters SQL Warehouses Access Controls Unity Catalog ありユーザーとメタデータ管理が Unity Catalog に一元化

Unity Catalog によるデータガバナンス以下の 4 つの分野をカバー分野概要データ
アクセスコントロール誰がどのデータにアクセスするかをコントロールデータのリネージ上流のデータソースと下流データソースを追跡するデータディスカバリー資産を検索して発見する機能データアクセス監査データへのすべてのアクセスを捕捉し、記録する

3 階層のネームスペース既存のメタストアへのシームレスなアクセス 41 SELECT * FROM main.paul.red_wine; --
<catalog>.<database>.<table> SELECT * FROM hive_metastore.default.customers; Unity Catalog Catalog 2 Catalog 1 Database 2 Database 1 External Table Views External Tables Managed Tables hive_metastore (legacy) default (database) customers (table)

データアクセスコントロールの一元管理アクセス許可の承諾 (Grant) と管理を Unity Catalog で一元的に行える 42
GRANT <privilege> ON <securable_type> <securable_name> TO `<principal>` GRANT SELECT ON iot.events TO engineers Choose permission level Sync groups from your identity provider ‘Table’= collection of files in ADLS/S3 Using ANSI SQL DCL Using UI

• Azure Databricks の価格 • サーバーレス以外 (Classic と Pro) •
サーバーレス • コスト削減 Databricks SQL の価格の考え方

Azure Databricks の構成 ⚫ ソフトウェアレイヤー : Databricks Unit (DBU)
単位による時間課金 ⚫ インフラレイヤー : Azure リソース課金

Azure VM コスト ⚫ サーバーレス以外のインフラ課金は 9 割が VM 課金
⚫ VM 課金は使用量関係なく、利用時間で算出計算式 : VM コスト = VM 単価 × インスタンス数 × 稼働時間注： ➢ インフラリソース : VM 、マネージドディスク、 Blob Storage 、パブリック IP アドレスなど ➢ サーバーレスのコンピューティングは Azure ではなく Databricks サブスクリプションに存在し、インフラレイヤーの VM 課金は発生せず、ソフトウェアレイヤー課金に包含

Azure Databricks の課金課金額全体タイプ • VM • マネージドディスク
• Blob Storage • パブリック IP アドレスソフトウェアレイヤー : Databricks インフラレイヤー : Azure Data Science & Engineering SQL • Classic • Pro • サーバーレス

DBU コスト ⚫ サーバーレス以外の DBU コストは使用量関係なく、経過時間で算出 ⚫ クラスター立ち上げ後ノータッチでも、経過時間で費用が発生計算式： DBU
コスト＝クラスターの DBU 数 × クラスター数 × DBU の料金 × 稼働時間注： ➢ クラスターの DBU 数はクラスターサイズによる ➢ クラスター数はスケーリングで最大最小を指定 ➢ DBU の料金はリージョン、ワークロード、価格レベルによる ➢ Classic と Pro の価格レベルは Premium のみ

Databricks SQL のクラスター

DBU の料金 (東日本リージョン) https://azure.microsoft.com/ja-jp/pricing/details/databricks/ (2023 年 1 月 10 日時点の情報)
(Type: Classic ) (Type: Pro)

DBU コスト (計算例) 計算式 : (東日本の場合) DBU コスト＝クラスターの
DBU 数 × クラスター数 × DBU の料金 × 稼働時間 24 1 0.22 5.28 $/hour =

DBU コスト ⚫ サーバーレスの DBU コストは使用量で算出 ⚫ クラスターはクエリ後 10 秒以内に起動
⚫ デフォルトで最終クエリ 10 分経過でクラスター除去計算式 : DBU コスト＝クラスターの DBU 数 × クラスター数 × DBU の料金 × 稼働時間稼働時間＝クエリ時間 + アイドル時間注： ➢ クラスターの DBU 数は全ワークロード共通 ➢ サーバーレス対応 (パブリックプレビュー) リージョン : 米国東部 (eastus)、米国東部 2 (eastus2)、西ヨーロッパ (westeurope) (2023 年 1 月 10 日時点) ➢ DBU の料金はワークロードと価格レベルによる ➢ 価格レベルはワークスペース作成時指定 ➢ サーバーレスの価格レベルは Premium のみ

DBU の料金 (東日本リージョン) 注： ➢ https://azure.microsoft.com/ja-jp/pricing/details/databricks/ (2023 年 1 月
10 日時点の情報) ➢ 東日本・西日本リージョンではサーバーレスは未対応 (Type: Classic) (Type: Pro)

方法 1 : DBU の事前購入 ⚫ DBU の料金は事前購入でコスト削減可能 ⚫ 1
年か 3 年の事前購入で最大 37% 節約 DBU コストの計算式 : DBU コスト＝クラスターの DBU 数 × クラスター数 × DBU の料金 × 稼働時間

事前購入プラン https://azure.microsoft.com/ja-jp/pricing/details/databricks/ (2023 年 1 月 10 日時点情報) 1 年間プラン
3 年間プラン

方法 2 : 自動スケール (サーバーレス以外の場合) ⚫ スケーリング設定でクラスターの最大・最小を指定 ⚫ 負荷が低い状態が続くとクラスターを自動削減 ⚫
無駄なリソースを減らしコスト削減が可能サーバーレス以外の DBU コストの計算式 : DBU コスト＝クラスターの DBU 数 × クラスター数 × DBU の料金 × 稼働時間

方法 3 : スポットインスタンスポリシー (サーバレス以外の場合) ・コスト最適化 (既定)
 ワーカーノードをスポット VM で起動 ( ドライバーはオンデマンド )  スポット VM はオンデマンドの 80%+ のコスト節約  考慮事項  起動時にリージョンに余剰の VM がない場合、オンデマンドで起動  起動している際にリージョンに余剰の VM がなくなった場合、オンデマンドで再起動・信頼性最適化  ドライバー、ワーカーをオンデマンドで起動  クラスターを確実に起動したい場合や、 VM の予約容量適用の際はこちらを選択

Azure Databricks の課金 (再掲) 課金額全体 Type • VM • マネージド
ディスク • Blob Storage • パブリック IP アドレスソフトウェアレイヤー : Databricks インフラレイヤー : Azure Data Science & Engineering SQL • Classic • Pro サーバーレス

Databricks SQL と Azure サービスを組み合わせたノーコード ETL とデータ分析アーキテクチャー紹介 &
デモ

Azure Databricks を中心としたデータパイプライン Azure Data Lake Storage Gen2 Azure
Databricks ゴールドブロンズシルバーノートブック Azure Databricks プログラミングを用いたデータ加工 1 Databricks で満たせるニーズ SQL を用いたデータ分析・可視化 2 クラウドストレージへの生データ格納 1 チャレンジノーコードのデータ加工のニーズへの対応 2 セルフサービス BI のニーズへの対応 3 Python, JAR etc. Databricks SQL データ加工データ分析オンプレミスクラウドデータ？生データ 1 ？ 2 ？ 3

Databricks + Azure サービスを組み合わせたデータパイプライン Azure Data Lake Storage Gen2
Azure Databricks ゴールドブロンズシルバーノートブック Azure Databricks Python, JAR etc. Databricks SQL データ加工データ分析 Azure Data Factory Synapse パイプラインマッピングデータフロー Power BI PBI Desktop PBI Services オンプレミスクラウドデータコピーアクティビティ生データ Azure Data Factory Synapse パイプラインプログラミングを用いたデータ加工 1 Databricks で満たせるニーズ SQL を用いたデータ分析・可視化 2 クラウドストレージへの生データ格納 1 チャレンジノーコードのデータ加工のニーズへの対応 2 セルフサービス BI のニーズへの対応 3 利用する Azure サービス Azure Data Factory / Azure Synapse Analytics のパイプライン機能 Microsoft Power BI

Databricks + Azure サービスを組み合わせたデータパイプライン Azure Data Lake Storage Gen2
Azure Databricks ゴールドブロンズシルバーノートブック Azure Databricks Python, JAR etc. Databricks SQL データ加工データ分析 Azure Data Factory Synapse パイプラインマッピングデータフロー Power BI PBI Desktop PBI Services オンプレミスクラウドデータコピーアクティビティ生データ Azure Data Factory Synapse パイプライン Azure Databricks で専門のデータエンジニアのニーズを充足できる Azure サービスを組み合わせることで市民データエンジニアのニーズを充足できる

Azure Data Factory / Synapse パイプラインデータのコピーや ETL 処理をスケジュールやイベントベースのトリガーで実行する
PaaS 型サービス • 100 以上の組み込みのコネクター、Azure 内外を問わず対応 • オンプレミスや外部クラウドとのハイブリッド接続に対応 • パイプラインのオーケストレーション: コピーやデータフロー、各種 Azure サービスの実行、分岐や繰り返しなどの制御 • 直感的な実行モニタリング

マッピングデータフロー • 変換 (Transformation) と呼ばれるパーツを組み合わせてノーコードで ETL 処理を作成 •
Spark クラスター上で処理が実行されるため大規模なデータに対応可能和名英名説明集約 Aggregate 既存の列または計算列によってグループ化される、SUM、 MIN、MAX、COUNT などのさまざまな種類の集計を定義できます。派生列 Derived column データフローの言語を使用して、新しい列を生成するか、既存のフィールドを変更します。フラット化 Flatten JSON などの階層構造体の中で配列値を取得し、それらを個々の行に展開します。結合 Join 2 つのソースまたはストリームのデータを結合します。選択 Select 別名列とストリーム名、列のドロップまたは並べ替えシンク Sink お使いのデータの最終受信先ソース Source データフローのデータソース和集合 Union 複数のデータストリームを垂直方向に結合する (代表的な変換の例) (変換の一覧) https://docs.microsoft.com/ja-jp/azure/data-factory/data-flow-transformation-overview

Power BI プラットフォームデータの取得・加工・可視化まで一貫したデスクトップツール Power BI コンテンツを共有・管理する基盤環境 Power
BI コンテンツを Web / モバイルデバイスで参照/分析 Power BI サービス Power BI Desktop ブラウザ Power BI モバイル

デモシナリオ CSV 注文 CSV 注文明細 Zip 小売データセット Delta
Lake 注文 Delta Lake 注文明細 Delta Lake 注文サマリー Azure Data Lake Storage Gen2 Azure Databricks Power BI Desktop Databricks SQL ウェアハウスレポート Synapse パイプラインコピー & Zip 展開 CSV から Delta Lake に変換注文を日別に集計データフロー #2 データフロー #1 コピーアクティビティ GitHub (匿名 HTTPS アクセスが可能なパブリックリポジトリに格納) Synapse パイプラインのコピーアクティビティ 1 Synapse パイプラインのマッピングデータフロー 2 Databricks SQL ウェアハウスによる分析 3 Power BI Desktop のレポートによる分析 4

デモシナリオ Synapse パイプラインのコピーアクティビティ 1 Synapse パイプラインのマッピングデータフロー
2 Databricks SQL ウェアハウスによる分析 3 Power BI Desktop のレポートによる分析 4 CSV 注文 CSV 注文明細 Zip 小売データセット Delta Lake 注文 Delta Lake 注文明細 Delta Lake 注文サマリー Azure Data Lake Storage Gen2 Azure Databricks Power BI Desktop Databricks SQL ウェアハウスレポート Synapse パイプラインコピー & Zip 展開 CSV から Delta Lake に変換注文を日別に集計データフロー #2 データフロー #1 コピーアクティビティ GitHub (匿名 HTTPS アクセスが可能なパブリックリポジトリに格納)

Databricks SQL on Azure ワークショップ https://microsoft.github.io/azure-databricks-sql-workshop-ja/

Thank You お忙しいところ最後までご視聴いただき、誠に有難うございました。本ウェビナーへのご感想を是非お聞かせください。こちらの QR コードよりアンケートにアクセスできます。次回以降のウェビナー内容改善の参考とさせていただきたく、ご協力のほどよろしくお願いいたします。

Azure Databricks Learning Series #2 - Databrick...

Azure Databricks Learning Series #2 - Databricks SQL

More Decks by Hiroyuki Nakazato / 中里 浩之

Other Decks in Technology

Featured

Transcript

More Decks by Hiroyuki Nakazato / 中里浩之