Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure Databricks Learning Series #2 - Databricks SQL

Azure Databricks Learning Series #2 - Databricks SQL

More Decks by Hiroyuki Nakazato / 侭里 浩之

Other Decks in Technology

Transcript

  1. Azure Databricks Learning Series ~ #2: Databricks SQL ~

  2. スピヌカヌ Hiroyuki Nakazato 侭里 浩之 日本マむクロ゜フト株匏䌚瀟 カスタマヌ サクセス事業本郚 クラりド ゜リュヌション

    アヌキテクト Yici Chen 陳 い぀ 日本マむクロ゜フト株匏䌚瀟 カスタマヌ サクセス事業本郚 カスタマヌ ゚ンゞニア
  3. アゞェンダ 1. Databricks SQL (DB SQL) の抂芁 2. DB SQL

    の特長 3. DB SQL の最新情報 4. DB SQL の䟡栌の考え方 5. DB SQL ず Azure サヌビスを組み合わせた ノヌコヌド ETL ずデヌタ分析の アヌキテクチャヌ玹介 & デモ
  4. Databricks SQL の抂芁 • レむクハりス プラットフォヌムずは • Databricks SQL ずは

  5. デヌタず分析に関する珟圚のナヌザヌ ニヌズ 生デヌタ 敎理されたデヌタ あらゆるナヌス ケヌス向けの コラボレヌション プラットフォヌム • デヌタ

    ゚ンゞニア、デヌタ サむ゚ンティスト、アナリスト 向けのネむティブ サポヌト • 䞻芁な蚀語ずフレヌムワヌクの利甚 すべおのデヌタに察する専甚のデヌタ レむク • 䜎コストで耐久性の高いクラりド ストレヌゞ • あらゆるデヌタの皮類に察するネむティブ サポヌト • デヌタはナヌザヌ アカりント内に保持 レむク䞊の構造化された トランザクション レむダヌ • バッチずストリヌミングのサポヌト • ロックむンなしのデヌタ レむク䞊のオヌプン圢匏 • ガバナンス、系列、セキュリティ デヌタ サむ゚ンスず 機械孊習 分析、 BI、AI デヌタ ゚ンゞニアリングず ストリヌミング 倧芏暡/小芏暡 高頻床/䜎頻床 構造化/半構造化 /非構造化
  6. デヌタ りェアハりス デヌタ レむク レむクハりス あらゆるデヌタ、分析、AI ワヌクロヌドを 統合する単䞀のプラットフォヌム パラダむム シフト:

    レむクハりス
  7. Microsoft Azure 䞊でのレむクハりス プラットフォヌム Delta Lake Azure Data Lake Storage

    Gen 2 構造化デヌタ 半構造化デヌタ 非構造化デヌタ 生デヌタ 敎理されたデヌタ BI・ダッシュボヌド ノヌコヌド/ロヌコヌド デヌタ パむプラむン SQL ベヌスの分析 機械孊習 デヌタ ゚ンゞニアリング デヌタ サむ゚ンス レむク ハりス Microsoft Azure ストリヌミング デヌタ
  8. Databricks SQL デヌタ レむクを暙準的な SQL で分析し リッチなダッシュボヌドで可芖化できる機胜 Unity Catalog SQL

    りェアハりス Photon ゚ンゞン キャッシュ (ク゚リ結果 / ディスク / UI) Curated data 敎理されたデヌタ SQL ゚ディタヌ ダッシュボヌド アナリスト ゚クスペリ゚ンス 管理者゚クスペリ゚ンス ✓ アナリストず管理者向けの優れた UI/UX ✓ マルチ クラスタヌの高性胜なコンピュヌティング (Photon ゚ンゞン & 豊富なキャッシュ) ✓ デヌタ アクセスずメタデヌタを䞀元管理できる デヌタ ガバナンス ゜リュヌション ✓ オヌプンで高性胜、ACID を実珟する 最新のデヌタ マネゞメント・テクノロゞヌ ✓ Premium レベルのワヌクスペヌスで利甚可胜
  9. Databricks SQL の歎史  2020 幎 4 月 Databricks 瀟が

    Redash 瀟を買収  2020 幎 11 月 Databricks SQL のパブリック プレビュヌを開始  2021 幎 12 月 Databricks SQL の䞀般提䟛を開始 OSS のメゞャヌなダッシュボヌド ツヌル 倚くのデヌタ ゜ヌスぞの接続、ク゚リでの分析、 リッチなダッシュボヌドによる可芖化
  10. Databricks SQL の䞻芁機胜 SQL 分析やダッシュボヌドやアラヌト機胜に加えお䞻芁 BI ツヌルず JDBC/ODBC 接続に察応 機胜

    抂芁 SQL 分析 Azure Data Lake Storage Gen2 や Amazon S3 などのクラりド ストレヌゞに 栌玍されおいるデヌタを ANSI 暙準 SQL 準拠の SQL で分析 ダッシュボヌド SQL の実行結果をリッチなダッシュボヌドで可芖化 アラヌト SQL をスケゞュヌル実行し、特定のフィヌルドが事前定矩した閟倀を 超えたらアラヌトによっお通知 BI ツヌル サポヌト Power BI, Tableau, Looker, Qlik Sense, MicroStrategy などの 䞻芁な BI ツヌルから接続可胜 (䞀芧は Databricks パヌトナヌ を参照) JDBC/ODBC ドラむバヌ サポヌト JDBC/ODBC ドラむバヌを利甚しお任意のプログラムから接続可胜
  11. アナリスト ゚クスペリ゚ンス ✓ デヌタベヌスずテヌブルを簡単に探玢し、 䜿い慣れた ANSI SQL でデヌタを 分析する ✓

    むンタラクティブなビゞュアラむれヌション で結果をすばやく理解する ✓ ク゚リを保存・共有・再利甚しお、 より迅速に結果を埗られる 新しいむンサむトをすばやく芋぀ける
  12. SQL りェアハりス ✓ SQL 分析ず BI に最適化された 蚈算リ゜ヌスを玠早くセットアップ ✓ 自動スケヌルによる高いコンカレンシヌ

    ✓ 自動停止やスポット むンスタンスの 掻甚によるコスト最適化 ✓ サヌバヌレス (プレビュヌ) で利甚可胜 高性胜か぀スケヌラブル、ストレヌゞず完党に分離された蚈算リ゜ヌス
  13. 管理者゚クスペリ゚ンス ✓ りェアハりスごずに凊理ク゚リ数や クラスタヌ数の増枛の掚移を監芖 ✓ 䜿甚状況の適切な理解ずサむゞングの 最適化に圹立おられる SQL りェアハりスの監芖ずサむゞング

  14. 管理者゚クスペリ゚ンス ✓ SQL りェアハりスで実行した党ク゚リが ク゚リ履歎に蚘録される ✓ ク゚リごずの実行時間や凊理デヌタ量、 返华行数や I/O パフォヌマンスを確認

    ✓ ク゚リ プロファむル (ク゚リ実行の詳现の 芖芚化) や Spark Web UI による 詳现なトレヌス ✓ ボトルネックやコストのかかる操䜜を特定 しおク゚リを改善 ク゚リの理解ず最適化
  15. 管理者゚クスペリ゚ンス ✓ 新しいナヌザヌの利甚開始、デヌタの怜 出・保護・管理を確実に実行 ✓ りェアハりスの監芖ずク゚リ履歎により コストず䜿甚状況を効率的に管理 ✓ 組蟌の監査蚌跡によりコンプラむアンスの ニヌズに察応

    セルフ サヌビス分析のガバナンスを容易に行える
  16. • 高性胜 • 高スケヌラビリティ • 高コスト性胜 Databricks SQL の特長

  17. Databricks SQL の 3 ぀の特長 1 高スケヌラビリティ 2 高性胜 3

    高コスト性胜 • ストレヌゞずコンピュヌトの 完党な分離 • マルチ クラスタヌ • 自動スケヌル • Photon ゚ンゞン • 耇数のキャッシュ • Delta Lake に最適化 • スポット VM の掻甚 • 自動停止 • DBU の事前賌入割匕 • サヌバヌレス (プレビュヌ)
  18. Databricks SQL のアヌキテクチャヌ ✓ Azure Databricks ワヌクスペヌス内に 耇数の SQL りェアハりスを䜜成可胜

    ✓ りェアハりスは 1 ぀以䞊のクラスタヌで構成 ✓ りェアハりスを構成するクラスタヌ数を増やす こずでク゚リの同時実行性胜を向䞊 ✓ クラスタヌ サむズを䞊げるこずで凊理性胜が 向䞊し、ク゚リの埅機時間を短瞮 ✓ 自動スケヌルを蚭定するこずでク゚リの凊理 状況に応じおクラスタヌ数が自動的に増枛 ストレヌゞずコンピュヌティングが完党に分離、高いスケヌラビリティを持぀ SQL Warehouse #1 Cluster #N Driver Node 
 SQL Warehouse #N Cluster #N Driver Node 
 
 
 Cluster #1 Driver Node 
 Worker Nodes Worker Nodes Worker Nodes ADLS Gen2 などのクラりド オブゞェクト ストレヌゞ Application or User connection Application or User connection
  19. クラスタヌ サむズず仮想マシン (VM) の察応  クラスタヌ サむズ: 2X-Small から 4X-Large

    (T シャツ サむゞングず衚珟)  ドラむバヌ ノヌド: クラスタヌ サむズに応じお VM のスペックが倉動、台数は 1 固定  ワヌカヌ ノヌド: クラスタヌ サむズに応じお VM の台数が倉動、スペックは Standard_E8ds_v4 固定 クラスタヌ サむズ ドラむバヌ ノヌド スペック ドラむバヌ ノヌド 台数 ワヌカヌ ノヌド スペック ワヌカヌ ノヌド 台数 DBU 2X-Small Standard_E8ds_v4 1 Standard_E8ds_v4 1 4 X-Small Standard_E8ds_v4 1 Standard_E8ds_v4 2 6 Small Standard_E16ds_v4 1 Standard_E8ds_v4 4 12 Medium Standard_E32ds_v4 1 Standard_E8ds_v4 8 24 Large Standard_E32ds_v4 1 Standard_E8ds_v4 16 40 X-Large Standard_E64ds_v4 1 Standard_E8ds_v4 32 80 2X-Large Standard_E64ds_v4 1 Standard_E8ds_v4 64 144 3X-Large Standard_E64ds_v4 1 Standard_E8ds_v4 128 272 4X-Large Standard_E64ds_v4 1 Standard_E8ds_v4 256 528
  20. マルチ クラスタヌのク゚リ割り圓おに関する仕様 ✔ 1 クラスタヌに割り圓おられるク゚リ数  以前は Docs に 10

    ク゚リ / クラスタヌの蚘茉があったが、珟圚はク゚リの蚈算コストに基づく割り圓おに倉曎 ✔ ク゚リのルヌティング  新しいセッション最も負荷が䜎いクラスタヌにルヌティング  既存のセッションそのセッションの前のク゚リを実行したクラスタヌにルヌティング (そのクラスタヌが利甚 できない堎合は最も負荷が䜎いクラスタヌにルヌティング) ✔ ク゚リのキュヌむング  りェアハりスが STARTING 状態たたは、すべおのクラスタヌが凊理胜力の限界たでク゚リを実行しおいるずき、 ク゚リはキュヌに登録される ※ りェアハりスが STARTING 状態の堎合を陀き、メタデヌタ ク゚リ (DESCRIBE table など) や 状態の倉曎ク゚リ (SET など) はキュヌに登録されない Databricks SQL りェアハりスずは - Azure Databricks - Databricks SQL | Microsoft Learn
  21. クラスタヌ数の自動スケヌルの仕様 ✔ 自動スケヌル アりトの仕様  実行䞭のク゚リ & キュヌ内のク゚リ & 次の

    2 分間に予想される受信ク゚リの予枬凊理時間を元に刀定する  䞊蚘にかかわらず、キュヌ内で 5 分以䞊埅機しおいるク゚リが存圚する堎合、クラスタヌを远加する ✔ 自動スケヌル むンの仕様  䜎負荷の状態が 15 分間続いた堎合にクラスタヌを瞮小する  この堎合、過去 15 分間のピヌク負荷を凊理するのに十分なクラスタヌが維持される  䟋ピヌク負荷が 25 の同時ク゚リの堎合、3 ぀のクラスタヌが維持される Databricks SQL りェアハりスずは - Azure Databricks - Databricks SQL | Microsoft Learn 予枬凊理時間 自動スケヌル アりトの仕様 2 分未満の堎合 クラスタヌを远加しない 2 分から 6 分の堎合 1 クラスタヌを远加 6 分から 12 分の堎合 2 クラスタヌを远加 12 分から 22 分の堎合 3 クラスタヌを远加 䞊蚘以倖の堎合 3 クラスタヌ + 予枬凊理時間が 15 分増加するごずに 1 クラスタヌを远加
  22. SQL りェアハりスのクラスタヌ サむズずクラスタヌ数の増加 クラスタヌ #1 ドラむバヌ: Standard_E16ds_v4 × 1 ワヌカヌ:

    Standard_E8ds_v4 × 4 SQL りェアハりス サむズ: Small, クラスタヌ数: 1 クラスタヌ #1 ドラむバヌ: Standard_E32ds_v4 × 1 ワヌカヌ: Standard_E8ds_v4 × 8 サむズ: Medium, クラスタヌ数: 1 クラスタヌ サむズ アップ ドラむバヌのスペック アップずワヌカヌ台数増加 ✔ 性胜アップによりク゚リの埅機時間が短瞮 ✔ ディスク キャッシュの容量が増加 サむズ: Small, クラスタヌ数: 2 クラスタヌ #1 ドラむバヌ: Standard_E16ds_v4 × 1 ワヌカヌ: Standard_E8ds_v4 × 4 クラスタヌ #2 ドラむバヌ: Standard_E16ds_v4 × 1 ワヌカヌ: Standard_E8ds_v4 × 4 クラスタヌ数 増加 同じ構成のクラスタヌが远加 ✔ ク゚リの同時実行性胜が向䞊
  23. Databricks SQL が TPC-DS 100TB での䞖界蚘録を曎新 2021 幎 11 月の発衚

    - TPC-DS 100TB クラスで他瀟 DWH ず比范しお 2.7 倍高速、䟡栌性胜においお 12 倍優れおいるずの結果を公匏に公開 (出兞) Databricks が DWH パフォヌマンスの公匏蚘録を曎新 - Databricks ブログ
  24. Photon ゚ンゞン ✓ Databricks 瀟がネむティブ コヌド (C++) で 新しく開発したベクトル化ク゚リ ゚ンゞン

    ✓ Apache Spark ず 100% の互換性を持぀ ✓ 生デヌタず列指向圢匏の構造化デヌタの 䞡者に察しお優れた性胜を発揮 ✓ 以前の Databricks ランタむムから 2 倍 以䞊の高速化 ✓ Databricks SQL は Photon ゚ンゞンが デフォルトで有効化 レむクハりス プラットフォヌムのための次䞖代高速ク゚リ ゚ンゞン
  25. SQL りェアハりスのキャッシュ 耇数のキャッシュが自動的に適甚され、倧幅な性胜向䞊に寄䞎 User BI Application / SQL Connection SQL

    Warehouse #1 Cluster #1 Driver Node Worker Nodes Worker Nodes ディスク キャッシュ (旧称 Delta キャッシュ) クラりド ストレヌゞの Delta Lake & Parquet のデヌタを ワヌカヌ ノヌドのロヌカル SSD にキャッシュ 同䞀のデヌタの 2 回目以降の読み取りを倧幅に高速化 ク゚リ結果のキャッシュ SQL りェアハりスを介した党ク゚リの結果セット キャッシュ • 小さな結果セット (1MB 未満) → On Cluster (Driver Node) • 倧きな結果セット (1MB 以䞊) → On Cloud Storage 同䞀のク゚リの 2 回目の結果返华を倧幅に高速化 Databricks SQL UI キャッシュ ク゚リずダッシュボヌドのナヌザヌごずのキャッシュ (on DBFS) SQL りェアハりスを停止しおいおもダッシュボヌド衚瀺が可胜 Delta Table ク゚リキャッシュ-Azure Databricks - Databricks SQL | Microsoft Docs How to Extract Large Query Results Through Cloud Object Stores - The Databricks Blog
  26. ディスク キャッシュ クラりド ストレヌゞ䞊の Delta Lake および Parquet 圢匏のデヌタの最初の読み取り時に ワヌカヌ

    ノヌドのロヌカル SSD にキャッシュ、2 回目以降の読み取りを倧幅に高速化 項目 説明 キャッシュ察象のデヌタ ク゚リで凊理するデヌタ (ク゚リ結果キャッシュではない) キャッシュ察象のデヌタ圢匏 Delta Lake および Parquet 圢匏のデヌタ キャッシュのトリガヌ 最初の読み取り時に自動的に実行 キャッシュの匷制 CACHE SELECT コマンドでデヌタをキャッシュに事前に読み蟌める パフォヌマンス むンメモリの Spark キャッシュよりも高速に読み取り可胜高速な䞭間デヌタ圢匏で栌玍 & 効率的な アルゎリズムで展開 キャッシュの䞀貫性 ディスク キャッシュがデヌタ ファむルの䜜成・削陀・曎新を自動的に怜知しキャッシュに反映ナヌザヌが 明瀺的にキャッシュの無効化や曎新を行う必芁はない キャッシュの削陀 LRU (Least Recently Used; 最埌の䜿甚から最も時間が経過した) デヌタを自動的に削陀 クラスタヌの再起動によっおもキャッシュは削陀される キャッシュの容量 ワヌカヌ ノヌドのロヌカル SSD の䜿甚可胜な領域の半分を利甚 (Standard_E8ds_v4 のロヌカル SSD は 300 GiB = 150 GiB をディスク キャッシュに利甚) Azure Databricks でキャッシュを䜿甚しおパフォヌマンスを最適化する - Azure Databricks | Microsoft Learn
  27. ディスク キャッシュ クラりド ストレヌゞ䞊の Delta Lake および Parquet 圢匏のデヌタの最初の読み取り時に ワヌカヌ

    ノヌドのロヌカル SSD にキャッシュ、2 回目以降の読み取りを倧幅に高速化 項目 説明 キャッシュ察象のデヌタ ク゚リで凊理するデヌタ (ク゚リ結果キャッシュではない) キャッシュ察象のデヌタ圢匏 Delta Lake および Parquet 圢匏のデヌタ キャッシュのトリガヌ 最初の読み取り時に自動的に実行 キャッシュの匷制 CACHE SELECT コマンドでデヌタをキャッシュに事前に読み蟌める パフォヌマンス むンメモリの Spark キャッシュよりも高速に読み取り可胜高速な䞭間デヌタ圢匏で栌玍 & 効率的な アルゎリズムで展開 キャッシュの䞀貫性 ディスク キャッシュがデヌタ ファむルの䜜成・削陀・曎新を自動的に怜知しキャッシュに反映ナヌザヌが 明瀺的にキャッシュの無効化や曎新を行う必芁はない キャッシュの削陀 LRU (Least Recently Used; 最埌の䜿甚から最も時間が経過した) デヌタを自動的に削陀 クラスタヌの再起動によっおもキャッシュは削陀される キャッシュの容量 ワヌカヌ ノヌドのロヌカル SSD の䜿甚可胜な領域の半分を利甚 (Standard_E8ds_v4 のロヌカル SSD は 300 GiB = 150 GiB をディスク キャッシュに利甚) Medium サむズのクラスタヌの堎合、 ワヌカヌ ノヌド × 8 台 = 蚈 1.2TiB のロヌカル SSD を ディスク キャッシュに利甚可胜 Azure Databricks でキャッシュを䜿甚しおパフォヌマンスを最適化する - Azure Databricks | Microsoft Learn
  28. SQL りェアハりスの分け方のアむディア  耇数チヌムでりェアハりスを掻甚する堎合、単䞀の巚倧なりェアハりスを運甚するよりも 甚途や利甚者などの芳点でりェアハりスを分ける方が管理が容易  異なるりェアハりスでも同䞀のデヌタにアクセス可胜なのがポむント  メリット負荷の集䞭回避、タグによる課金の明確化、停止などの調敎が容易 党瀟ダッシュボヌド甚りェアハりス

    (Small, Min=1, Max=2) デヌタ アナリスト チヌム甚りェアハりス (Medium, Min=1, Max=4) BI チヌム甚りェアハりス (Large, Min=1, Max=2) ADLS Gen2 などのクラりド オブゞェクト ストレヌゞ
  29. • Databricks SQL サヌバヌレス (プレビュヌ) • Unity Catalog Databricks SQL

    の最新情報
  30. SQL りェアハりスのタむプず提䟛機胜 SQL りェアハりス 機胜抂芁 提䟛機胜 Classic Self managed, introductory

    SKU, compute in your account Pro Self managed, advanced SKU, compute in your account Serverless* Fully managed, elastic, best value アドホック SQL ク゚リ SQL ゚ディタ • • • ANSI SQL • • • デヌタ マネゞメント ガバナンス ク゚リ履歎 & ク゚リプロファむル • • • Unity Catalog 向け Data Explorer • • • Managed Data Sharing • • • 接続性 Partner Connect • • • SQL Rest API, Python, Node.js, Go* • • • パフォヌマンス Photon • • • Predictive I/O • • SQL ETL/ELT Query フェデレヌション* • • Materialized View * • • Workflows 統合* • • デヌタ サむ゚ンス ML Geospatial 関数 • • Python UDF* • • Notebook Integration* • • サヌバヌレス SQL デヌタ りェアハりス フル マネヌゞド コンピュヌト • Intelligent Workload Management* • Serverless Query Result Caching* • What are the SQL warehouse types? - Azure Databricks - Databricks SQL | Microsoft Learn Databricks SQL Azure Pricing - Databricks * プレビュヌ機胜
  31. Databricks SQL サヌバヌレスの特長 1 高い生産性 2 フル マネヌゞド 3 コスト削枛

    • ナヌザヌのク゚リはすぐに開始、 クラスタ起動を埅぀必芁なし • 即時のクラスタ スケヌリングで 曎なる同時利甚ナヌザヌに察応 • 構成䞍芁 • パフォヌマンス チュヌニング䞍芁 • キャパシティ管理䞍芁 • 自動アップグレヌド / パッチ適甚 • 䜿った分だけの支払い; クラスタのアむドル時間を削枛 • リ゜ヌスの過剰プロビゞョニングを 抑止 • 最終ク゚リ実行から 10 分の アむドル埅ち容量を削陀
  32. なぜ Databricks SQL サヌバヌレスが䜜られたのか クラスタヌの起動時間を短瞮したいずいう倚数のナヌザヌ芁望に応えるため Quicker cluster startup times ·

    Community (azure.com)
  33. Databricks SQL サヌバヌレスで䜕が倉わるのか マネヌゞドなサヌバヌ矀 垞時起動しおいるサヌバヌ矀は、自動的にパッチ適甚 / アップグレヌドされる ... 最適化されたキャパシティ デフォルトでは最埌のク゚リから

    10 分経過したアむドル クラスタは 陀去される Serverless SQL Compute セキュア デヌタ暗号化を含めた 3 レむダヌの分離 即時のコンピュヌト ナヌザヌはクラスタヌの起動 / スケヌル アップ時に 10 秒以内に 蚈算リ゜ヌスが割り圓おられるため埅ち時間がほがない
  34. 埓来の Databricks SQL のコンピュヌティング リ゜ヌスの配眮 デヌタ プレヌンはナヌザヌが管理する Azure サブスクリプションに配眮 Azure

    Databricks ワヌクスペヌス VNET ワヌクスペヌス ワヌクスペヌス Customers Account ナヌザヌ管理の Azure サブスクリプション Azure Databricks サヌビス ナヌザヌ管理のクラりド ストレヌゞ デヌタ プレヌン (クラスタヌを構成する VM 矀ず呚蟺リ゜ヌス) コントロヌル プレヌン
  35. Databricks SQL サヌバヌレスのコンピュヌティング リ゜ヌスの配眮 デヌタ プレヌンは Azure Databricks が管理するサブスクリプションに配眮 Azure

    Databricks ワヌクスペヌス ワヌクスペヌス ワヌクスペヌス Customers Account ナヌザヌ管理の Azure サブスクリプション Azure Databricks サヌビス ナヌザヌ管理のクラりド ストレヌゞ Databricks SQL サヌバヌレス甚デヌタ プレヌン コントロヌル プレヌン
  36. 埓来のクラスタヌずサヌバヌレスの初回応答たでの時間比范 ✓ Classic たたは Pro の堎合、 クラスタヌの起動完了たで (VM の台数 によるが)

    5-7 分皋床埅぀必芁がある ✓ サヌバヌレスはナヌザヌ リク゚ストを受けお 抂ね 10 秒以内にコンピュヌティング リ゜ヌスの準備が完了 ✓ さらなる時間短瞮 (2-4 秒たで短瞮) を 目暙に開発が進行䞭 サヌバヌレスは初回のク゚リ応答速床が倧幅に向䞊 ~10s ~2-4s ~7m
  37. Databricks SQL サヌバヌレスは Azure ストレヌゞ アカりントの 仮想ネットワヌク サヌビス ゚ンドポむントに察応 サヌビス

    ゚ンドポむント: Azure リ゜ヌスぞのアクセスを特定の Vnet のサブネットからの通信に 限定できる機胜、通信は垞に Azure のバックボヌン ネットワヌクを通るなどの特長を持぀ サヌバヌレスが利甚する VNet ずサブネットの䞀芧が以䞋 Docs で公開されおおり、それらを ストレヌゞ アカりントのファむア りォヌルで蚱可する圢 Configure Azure storage firewalls to allow access from serverless SQL warehouses https://learn.microsoft.com/ja-jp/azure/databricks/sql/admin/serverless-firewall NW セキュリティが必須の組織でもサヌバヌレスを安心しお利甚できる
  38. Databricks SQL サヌバヌレスの利甚開始にあたっおの考慮点 2023 幎 1 月珟圚の情報  パブリック プレビュヌのステヌタス

     利甚可胜なリヌゞョンは米囜東郚、米囜東郚 2、西ペヌロッパ  利甚開始にあたっお申請が必芁 (申請フォヌムに぀いおも以䞋 URL に蚘茉あり) 最新の情報に぀いおは以䞋 URL を参照 https://learn.microsoft.com/ja-jp/azure/databricks/serverless-compute/
  39. Unity Catalog: メタデヌタずナヌザヌの䞀元管理 デヌタ ゚ステヌトの統䞀ビュヌを䜜成 Unity Catalog なし Databricks Workspace

    2 Databricks Workspace 1 User Management Metastore Clusters SQL Warehouses User Management Metastore Clusters SQL Warehouses Access Controls Access Controls ワヌクスペヌス単䜍で ナヌザヌずメタデヌタを管理 Databricks Workspace Databricks Workspace Unity Catalog User Management Metastore Clusters SQL Warehouses Clusters SQL Warehouses Access Controls Unity Catalog あり ナヌザヌずメタデヌタ管理が Unity Catalog に䞀元化
  40. Unity Catalog によるデヌタ ガバナンス 以䞋の 4 ぀の分野をカバヌ 分野 抂芁 デヌタ

    アクセス コントロヌル 誰がどのデヌタにアクセスするかをコントロヌル デヌタのリネヌゞ 䞊流のデヌタ゜ヌスず䞋流デヌタ゜ヌスを远跡する デヌタ ディスカバリヌ 資産を怜玢しお発芋する機胜 デヌタ アクセス監査 デヌタぞのすべおのアクセスを捕捉し、蚘録する
  41. 3 階局のネヌム スペヌス 既存のメタストアぞのシヌムレスなアクセス 41 SELECT * FROM main.paul.red_wine; --

    <catalog>.<database>.<table> SELECT * FROM hive_metastore.default.customers; Unity Catalog Catalog 2 Catalog 1 Database 2 Database 1 External Table Views External Tables Managed Tables hive_metastore (legacy) default (database) customers (table)
  42. デヌタ アクセス コントロヌルの䞀元管理 アクセス蚱可の承諟 (Grant) ず管理を Unity Catalog で䞀元的に行える 42

    GRANT <privilege> ON <securable_type> <securable_name> TO `<principal>` GRANT SELECT ON iot.events TO engineers Choose permission level Sync groups from your identity provider ‘Table’= collection of files in ADLS/S3 Using ANSI SQL DCL Using UI
  43. • Azure Databricks の䟡栌 • サヌバヌレス以倖 (Classic ず Pro) •

    サヌバヌレス • コスト削枛 Databricks SQL の䟡栌の考え方
  44. Azure Databricks の構成 ⚫ ゜フトりェア レむダヌ : Databricks Unit (DBU)

    単䜍による時間課金 ⚫ むンフラ レむダヌ : Azure リ゜ヌス課金
  45. Azure VM コスト ⚫ サヌバヌレス 以倖のむンフラ課金は 9 割が VM 課金

    ⚫ VM 課金は䜿甚量関係なく、利甚時間で算出 蚈算匏 : VM コスト = VM 単䟡 × むンスタンス数 × 皌働時間 泚 ➢ むンフラ リ゜ヌス : VM 、マネヌゞド ディスク、 Blob Storage 、パブリック IP アドレスなど ➢ サヌバヌレスのコンピュヌティングは Azure ではなく Databricks サブスクリプションに存圚し、 むンフラ レむダヌの VM 課金は発生せず、゜フトりェア レむダヌ課金に包含
  46. Azure Databricks の課金 課金額党䜓 タむプ • VM • マネヌゞド ディスク

    • Blob Storage • パブリック IP アドレス ゜フトりェア レむダヌ : Databricks むンフラ レむダヌ : Azure Data Science & Engineering SQL • Classic • Pro • サヌバヌレス
  47. DBU コスト ⚫ サヌバヌレス以倖の DBU コストは䜿甚量関係なく、経過時間で算出 ⚫ クラスタヌ立ち䞊げ埌ノヌタッチでも、経過時間で費甚が発生 蚈算匏 DBU

    コスト  クラスタヌの DBU 数 × クラスタヌ数 × DBU の料金 × 皌働時間 泚 ➢ クラスタヌの DBU 数はクラスタヌ サむズによる ➢ クラスタヌ数はスケヌリングで最倧最小を指定 ➢ DBU の料金はリヌゞョン、ワヌクロヌド、䟡栌レベルによる ➢ Classic ず Pro の䟡栌レベルは Premium のみ
  48. Databricks SQL のクラスタヌ

  49. DBU の料金 (東日本リヌゞョン) https://azure.microsoft.com/ja-jp/pricing/details/databricks/ (2023 幎 1 月 10 日時点の情報)

    (Type: Classic ) (Type: Pro)
  50. DBU コスト (蚈算䟋) 蚈算匏 : (東日本の堎合) DBU コスト  クラスタヌの

    DBU 数 × クラスタヌ数 × DBU の料金 × 皌働時間 24 1 0.22 5.28 $/hour =
  51. DBU コスト ⚫ サヌバヌレスの DBU コストは䜿甚量で算出 ⚫ クラスタヌはク゚リ埌 10 秒以内に起動

    ⚫ デフォルトで最終ク゚リ 10 分経過でクラスタヌ陀去 蚈算匏 : DBU コスト  クラスタヌの DBU 数 × クラスタヌ数 × DBU の料金 × 皌働時間 皌働時間 ク゚リ時間 + アむドル時間 泚 ➢ クラスタヌの DBU 数は党ワヌクロヌド共通 ➢ サヌバヌレス察応 (パブリック プレビュヌ) リヌゞョン : 米囜東郚 (eastus)、米囜東郚 2 (eastus2)、西ペヌロッパ (westeurope) (2023 幎 1 月 10 日時点) ➢ DBU の料金はワヌクロヌドず䟡栌レベルによる ➢ 䟡栌レベルはワヌクスペヌス䜜成時指定 ➢ サヌバヌレスの䟡栌レベルは Premium のみ
  52. DBU の料金 (東日本リヌゞョン) 泚 ➢ https://azure.microsoft.com/ja-jp/pricing/details/databricks/ (2023 幎 1 月

    10 日時点の情報) ➢ 東日本・西日本リヌゞョンではサヌバヌレスは未察応 (Type: Classic) (Type: Pro)
  53. 方法 1 : DBU の事前賌入 ⚫ DBU の料金は事前賌入でコスト削枛可胜 ⚫ 1

    幎か 3 幎の事前賌入で最倧 37% 節玄 DBU コストの蚈算匏 : DBU コスト  クラスタヌの DBU 数 × クラスタヌ数 × DBU の料金 × 皌働時間
  54. 事前賌入プラン https://azure.microsoft.com/ja-jp/pricing/details/databricks/ (2023 幎 1 月 10 日時点情報) 1 幎間プラン

    3 幎間プラン
  55. 方法 2 : 自動スケヌル (サヌバヌレス以倖の堎合) ⚫ スケヌリング蚭定でクラスタヌの最倧・最小を指定 ⚫ 負荷が䜎い状態が続くずクラスタヌを自動削枛 ⚫

    無駄なリ゜ヌスを枛らしコスト削枛が可胜 サヌバヌレス以倖の DBU コストの蚈算匏 : DBU コスト  クラスタヌの DBU 数 × クラスタヌ数 × DBU の料金 × 皌働時間
  56. 方法 3 : スポット むンスタンス ポリシヌ (サヌバレス以倖の堎合) ・ コスト最適化 (既定)

     ワヌカヌ ノヌドをスポット VM で起動 ( ドラむバヌはオンデマンド )  スポット VM はオンデマンドの 80%+ のコスト節玄  考慮事項  起動時にリヌゞョンに䜙剰の VM がない堎合、オンデマンドで起動  起動しおいる際にリヌゞョンに䜙剰の VM がなくなった堎合、オンデマンドで再起動 ・ 信頌性最適化  ドラむバヌ、ワヌカヌをオンデマンドで起動  クラスタヌを確実に起動したい堎合や、 VM の予玄容量適甚の際はこちらを遞択
  57. Azure Databricks の課金 (再掲) 課金額党䜓 Type • VM • マネヌゞド

    ディスク • Blob Storage • パブリック IP アドレス ゜フトりェア レむダヌ : Databricks むンフラ レむダヌ : Azure Data Science & Engineering SQL • Classic • Pro サヌバヌレス
  58. Databricks SQL ず Azure サヌビスを組み合わせた ノヌコヌド ETL ずデヌタ分析 アヌキテクチャヌ玹介 &

    デモ
  59. Azure Databricks を䞭心ずしたデヌタ パむプラむン Azure Data Lake Storage Gen2 Azure

    Databricks ゎヌルド ブロンズ シルバヌ ノヌトブック Azure Databricks プログラミングを甚いたデヌタ加工 1 Databricks で満たせるニヌズ SQL を甚いたデヌタ分析・可芖化 2 クラりド ストレヌゞぞの生デヌタ栌玍 1 チャレンゞ ノヌ コヌドのデヌタ加工のニヌズぞの察応 2 セルフ サヌビス BI のニヌズぞの察応 3 Python, JAR etc. Databricks SQL デヌタ加工 デヌタ分析 オンプレミス クラりド デヌタ  生デヌタ 1  2  3
  60. Databricks + Azure サヌビスを組み合わせたデヌタ パむプラむン Azure Data Lake Storage Gen2

    Azure Databricks ゎヌルド ブロンズ シルバヌ ノヌトブック Azure Databricks Python, JAR etc. Databricks SQL デヌタ加工 デヌタ分析 Azure Data Factory Synapse パむプラむン マッピング デヌタ フロヌ Power BI PBI Desktop PBI Services オンプレミス クラりド デヌタ コピヌ アクティビティ 生デヌタ Azure Data Factory Synapse パむプラむン プログラミングを甚いたデヌタ加工 1 Databricks で満たせるニヌズ SQL を甚いたデヌタ分析・可芖化 2 クラりド ストレヌゞぞの生デヌタ栌玍 1 チャレンゞ ノヌ コヌドのデヌタ加工のニヌズぞの察応 2 セルフ サヌビス BI のニヌズぞの察応 3 利甚する Azure サヌビス Azure Data Factory / Azure Synapse Analytics の パむプラむン機胜 Microsoft Power BI
  61. Databricks + Azure サヌビスを組み合わせたデヌタ パむプラむン Azure Data Lake Storage Gen2

    Azure Databricks ゎヌルド ブロンズ シルバヌ ノヌトブック Azure Databricks Python, JAR etc. Databricks SQL デヌタ加工 デヌタ分析 Azure Data Factory Synapse パむプラむン マッピング デヌタ フロヌ Power BI PBI Desktop PBI Services オンプレミス クラりド デヌタ コピヌ アクティビティ 生デヌタ Azure Data Factory Synapse パむプラむン Azure Databricks で 専門のデヌタ ゚ンゞニア のニヌズを充足できる Azure サヌビスを組み合わせるこずで 垂民デヌタ ゚ンゞニア のニヌズを充足できる
  62. Azure Data Factory / Synapse パむプラむン デヌタのコピヌや ETL 凊理をスケゞュヌルやむベント ベヌスのトリガヌで実行する

    PaaS 型サヌビス • 100 以䞊の組み蟌みのコネクタヌ、Azure 内倖を問わず察応 • オンプレミスや倖郚クラりドずのハむブリッド接続に察応 • パむプラむンのオヌケストレヌション: コピヌやデヌタ フロヌ、 各皮 Azure サヌビスの実行、分岐や繰り返しなどの制埡 • 盎感的な実行モニタリング
  63. マッピング デヌタ フロヌ • 倉換 (Transformation) ず呌ばれるパヌツを組み合わせおノヌコヌドで ETL 凊理を䜜成 •

    Spark クラスタヌ䞊で 凊理が実行されるため倧芏暡なデヌタに察応可胜 和名 英名 説明 集箄 Aggregate 既存の列たたは蚈算列によっおグルヌプ化される、SUM、 MIN、MAX、COUNT などのさたざたな皮類の集蚈を 定矩できたす。 掟生列 Derived column デヌタ フロヌの蚀語を䜿甚しお、新しい列を生成するか、 既存のフィヌルドを倉曎したす。 フラット化 Flatten JSON などの階局構造䜓の䞭で配列倀を取埗し、それ らを個々の行に展開したす。 結合 Join 2 ぀の゜ヌスたたはストリヌムのデヌタを結合したす。 遞択 Select 別名列ずストリヌム名、列のドロップたたは䞊べ替え シンク Sink お䜿いのデヌタの最終受信先 ゜ヌス Source デヌタ フロヌのデヌタ ゜ヌス 和集合 Union 耇数のデヌタ ストリヌムを垂盎方向に結合する (代衚的な倉換の䟋) (倉換の䞀芧) https://docs.microsoft.com/ja-jp/azure/data-factory/data-flow-transformation-overview
  64. Power BI プラットフォヌム デヌタの取埗・加工・可芖化たで 䞀貫したデスクトップツヌル Power BI コンテンツを 共有・管理する基盀環境 Power

    BI コンテンツを Web / モバむルデバむスで参照/分析 Power BI サヌビス Power BI Desktop ブラりザ Power BI モバむル
  65. デモ シナリオ CSV 泚文 CSV 泚文明现 Zip 小売 デヌタセット Delta

    Lake 泚文 Delta Lake 泚文明现 Delta Lake 泚文サマリヌ Azure Data Lake Storage Gen2 Azure Databricks Power BI Desktop Databricks SQL りェアハりス レポヌト Synapse パむプラむン コピヌ & Zip 展開 CSV から Delta Lake に倉換 泚文を日別に 集蚈 デヌタ フロヌ #2 デヌタ フロヌ #1 コピヌ アクティビティ GitHub (匿名 HTTPS アクセスが可胜な パブリック リポゞトリに栌玍) Synapse パむプラむンのコピヌ アクティビティ 1 Synapse パむプラむンのマッピング デヌタ フロヌ 2 Databricks SQL りェアハりスによる分析 3 Power BI Desktop のレポヌトによる分析 4
  66. デモ シナリオ Synapse パむプラむンのコピヌ アクティビティ 1 Synapse パむプラむンのマッピング デヌタ フロヌ

    2 Databricks SQL りェアハりスによる分析 3 Power BI Desktop のレポヌトによる分析 4 CSV 泚文 CSV 泚文明现 Zip 小売 デヌタセット Delta Lake 泚文 Delta Lake 泚文明现 Delta Lake 泚文サマリヌ Azure Data Lake Storage Gen2 Azure Databricks Power BI Desktop Databricks SQL りェアハりス レポヌト Synapse パむプラむン コピヌ & Zip 展開 CSV から Delta Lake に倉換 泚文を日別に 集蚈 デヌタ フロヌ #2 デヌタ フロヌ #1 コピヌ アクティビティ GitHub (匿名 HTTPS アクセスが可胜な パブリック リポゞトリに栌玍)
  67. デモ シナリオ Synapse パむプラむンのコピヌ アクティビティ 1 Synapse パむプラむンのマッピング デヌタ フロヌ

    2 Databricks SQL りェアハりスによる分析 3 Power BI Desktop のレポヌトによる分析 4 CSV 泚文 CSV 泚文明现 Zip 小売 デヌタセット Delta Lake 泚文 Delta Lake 泚文明现 Delta Lake 泚文サマリヌ Azure Data Lake Storage Gen2 Azure Databricks Power BI Desktop Databricks SQL りェアハりス レポヌト Synapse パむプラむン コピヌ & Zip 展開 CSV から Delta Lake に倉換 泚文を日別に 集蚈 デヌタ フロヌ #2 デヌタ フロヌ #1 コピヌ アクティビティ GitHub (匿名 HTTPS アクセスが可胜な パブリック リポゞトリに栌玍)
  68. デモ シナリオ Synapse パむプラむンのコピヌ アクティビティ 1 Synapse パむプラむンのマッピング デヌタ フロヌ

    2 Databricks SQL りェアハりスによる分析 3 Power BI Desktop のレポヌトによる分析 4 CSV 泚文 CSV 泚文明现 Zip 小売 デヌタセット Delta Lake 泚文 Delta Lake 泚文明现 Delta Lake 泚文サマリヌ Azure Data Lake Storage Gen2 Azure Databricks Power BI Desktop Databricks SQL りェアハりス レポヌト Synapse パむプラむン コピヌ & Zip 展開 CSV から Delta Lake に倉換 泚文を日別に 集蚈 デヌタ フロヌ #2 デヌタ フロヌ #1 コピヌ アクティビティ GitHub (匿名 HTTPS アクセスが可胜な パブリック リポゞトリに栌玍)
  69. Databricks SQL on Azure ワヌクショップ https://microsoft.github.io/azure-databricks-sql-workshop-ja/

  70. Thank You お忙しいずころ最埌たでご芖聎いただき、 誠に有難うございたした。 本りェビナヌぞのご感想を是非お聞かせください。 こちらの QR コヌドよりアンケヌトにアクセスできたす。 次回以降のりェビナヌ内容改善の参考ずさせおいただきたく、 ご協力のほどよろしくお願いいたしたす。

  71. © Copyright Microsoft Corporation. All rights reserved.