Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks SQL Serverlessを使用することで何が変わるのか?

Databricks SQL Serverlessを使用することで何が変わるのか?

Databricks SQL Serverlessを使うメリットについて説明します。

Databricks Japan

April 12, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved Databricks SQLサーバーレスがベストな選択肢 即時、弾力的な

    コンピューティング 即時のコンピューティングによ る最速のクエリ実行 素早くインテリジェントに スケール ユーザー 管理不要 マネージド環境:Databricksが管 理する容量とプール シンプルで予測しやすい 価格モデル 管理者 IT予算 「私たちは、アナリストが使用するBIツールを動かすためにDatabricks SQLを使用しています。Databricks SQLサーバーレスを利用することで、インフ ラをずっと効率的に使いながら、Databricks SQLの力を活用できます。サーバーレスを選択した結果、インフラコストを3分の1に削減できました。これが 理由で、私たちはDatabricks SQLサーバーレスをより多くのデータパイプラインに統合しています」 - R Tyler Croy, Scribd プラットフォーム・エンジニアリング・ディレクター 俊敏性の向上と低コストを実現 TCOの削減 オーバープロビジョニングを 回避 アイドル時間の短縮
  2. ©2024 Databricks Inc. — All rights reserved Databricks SQLサーバーレス 即時、弾力的、管理不要のコンピューティング

    • 即時かつ弾力的なSQLウェアハウスをすぐに 利用可能 - ストレージと完全に分離 - Photonを活用 • 最高の価格/パフォーマンスを実現するインスタンスタイ プと設定を自動適用(従来のクラウドDWHの 最大12倍の価格/パフォーマンス) • 高い同時実行性、自動ロードバランシング • インテリジェントなワークロード管理、 クラウドストレージからの読み取りの高速化 • 即時起動、可用性の向上、サーバーレスで 総コストを平均40%削減 GA GA 近日公開
  3. ©2024 Databricks Inc. — All rights reserved Databricks SQL サーバーレスは即時、

    セキュア、管理不要の コンピューティング DBSQLサーバーレス ~3s 2021年11月 現在 Coming Soon ~40–50s ~5s 初回クエリのパフォーマンス 永続キャッシュ with DBSQLサーバーレス 初回クエリのウォームアップを改善 アイドル時間のコストを積極的に最適化
  4. ©2024 Databricks Inc. — All rights reserved インテリジェントなワークロード管理 AIを活用してワークロード管理をシンプルに •

    サーバーレスの弾力性とAIシステム構築の 長年の経験を組み合わせ、インテリジェントな ワークロード管理を実現 • Databricks SQLはユーザーのワークロードの履 歴から学習 • 新しいクエリに対して履歴を使用し、 優先順位をつけてすぐに実行するか、 実行中のクエリを中断せずに実行するためにス ケールアップするかを決定 混合ワークロードのクエリレイテンシー(秒) 低い方が良い
  5. ©2024 Databricks Inc. — All rights reserved 5:05 PM ラージクエリが実行中

    新しいスモールクエリが即座に実行中 Com ing Soon ファストレーン デュアルキュー: ラージクエリが スモールクエリを ブロックするのを 回避する エクスプレス キュー スモール スタンダード キュー 5:00 PM ラージクエリが実行中 ラージ 実行中 エクスプレス キュー エクスプレス キュー スタンダード キュー 5:05:10 PM ラージクエリが実行中 ラージ スモールクエリ完了! 実行中 スタンダード キュー ラージ 実行中 実行中 スモール 実行中 短時間のクエリに最適なパフォーマンス
  6. ©2024 Databricks Inc. — All rights reserved 予測I/Oによる読み取りの高速化 インデックス不要の選択的クエリ SELECT

    * from events where user_id = 123 経済的 高速 簡単 もし、データのコピーや高コストな インデックスを作る必要がなかったら? もし、システムがクエリに必要な データを学習し、次に何が必要かを 予測できるようになったら? もし、クエリが設定なしに ただ単純に速かったら?
  7. ©2024 Databricks Inc. — All rights reserved 予測I/Oによる読み取りの高速化 パフォーマンスの手動チューニングをなくすためにMLを使用 高コストな

    インデックス 選択的クエリのパフォーマンス(秒) 低い方が良い • 手動のチューニング(PARTITION BY、 CLUSTER BY)を行わずにデータの 位置を特定 • 予測I/Oは、大規模なAI/MLシステム 構築におけるDatabricksの長年の 経験を活用し、レイクハウスを よりスマートなデータウェアハウスにする
  8. ©2024 Databricks Inc. — All rights reserved データの場所を問わず、すべてのデータを発見・照会・管理する ユーザー ダッシュボード

    2023年7月よりパブリックプレビュー ➢ すべてのデータを一元管理 ➢ すべてのデータとユースケースに 対応する統合エンジン ➢ すべてのデータソースにわたる 統一的なガバナンス New: Lakehouseフェデレーション
  9. ©2024 Databricks Inc. — All rights reserved New: マテリアライズドビュー 事前に計算された結果でクエリをスピードアップ

    効率的な増分計算でエンドユーザーの クエリを高速化し、インフラコストを削減 • BIダッシュボードとETLクエリの高速化 • ストリーミング:ライブテーブル上に マテリアライズドビューを構築する • ELTのシンプル化:ベーステーブルの クリーニング、リッチ化、非正規化により レポート作成をシンプル化 • データ共有とアクセス・コントロール: 社内外のユーザーや組織が閲覧できる情報 をコントロールする prod loc txn price sales i1 l1 tx1 11 i2 l2 tx2 24 i3 l3 tx3 7 store_info loc mgr city l1 Alice WA l2 Bob SF l3 Annie NY sales_report city total_rev SF 24 NY 7 Gated Preview
  10. ©2024 Databricks Inc. — All rights reserved New: Pythonユーザー定義関数 (UDF)

    隔離された実行環境からPython UDFを実行する 機械学習モデル、カスタムロジックを 統合し、Databricks SQLにPythonの 柔軟性をもたらす! Private Preview CREATE FUNCTION redact(a STRING) RETURNS STRING LANGUAGE PYTHON AS $$ import json keys = ["email", "phone"] obj = json.loads(a) for k in obj: if k in keys: obj[k] = "REDACTED" return json.dumps(obj) $$;
  11. ©2024 Databricks Inc. — All rights reserved New: 地理空間サポート 地理空間処理を大幅に強化

    ニューヨーク市のライドシェアのピックアップ場所 Kepler.glを使用してDatabricksノートブックで可視化 大小両方のサイズの空間データのための 効率的なストレージ 高速なSPATIAL JOINとビニングのサポート 容易な視覚化、MLとの統合の容易さ ツールを切り替えることなく地理空間 データの価値を最大化
  12. ©2024 Databricks Inc. — All rights reserved 非サーバーレスアーキテクチャー コントロール プレーン

    ユーザー Databricksが管理 ユーザーが利用するクラウドプロバイダー 非サーバーレスコンピューティング (classic/pro) 専用の コンピュート ユーザーの クラウド ストレージ データ 16 ユーザー BIアプリ Delta Sharing 専用の コンピュート Databricks UI その他の サービス Databricks SQLは ユーザーのクラウド環境でマ ネージドなデータ ウェアハウス環境を提供
  13. ©2024 Databricks Inc. — All rights reserved Databricks SQL (Classic/Pro)

    ウェアハウスへの アクセスに数分かかる キャパシティ管理 待ち時間を避けるために ウェアハウスを長時間稼働 差別化要因にならないタ スク チャレンジ 対処 ペイン 未使用リソースへの支払い 非生産的 同時実行を減らす
  14. ©2024 Databricks Inc. — All rights reserved サーバーレスアーキテクチャー コントロール プレーン

    ユーザー Databricksが管理 ユーザーが利用する クラウドプロバイダー 非サーバーレスコンピューティング (classic/pro) サーバーレス コンピューティング 専用のコン ピュート 専用の コンピュート 未割当のプール ユーザーの クラウド ストレージ データ 18 ユーザー Delta Sharing 専用の コンピュート Databricks UI その他の サービス 顧客固有のリソース リソースへの即時の アクセス、 Databricksによるフ ルマネージド 専用のコン ピュート BIアプリ
  15. ©2024 Databricks Inc. — All rights reserved Databricks SQL (サーバーレス)

    5秒以内の即時の SQLウェアハウス Databricksの マネージドリソース 長時間稼働クラスターが不要 キャパシティの 管理が不要 特徴 結果 インパクト コスト削減 生産性の向上 高い同時実行性
  16. ©2024 Databricks Inc. — All rights reserved 非サーバーレス コスト (Databricks

    DBU + クラウドVMコスト) ~10s サーバーレスコスト (Databricks DBUのみ) より高い性能 アイドルコストの削減 管理オーバーヘッドの削減 サーバーレスは最もコスト効率が高い • より高い性能 • アイドルコストの削減 • 管理オーバーヘッドの削減 • 生産性 これらがサーバーレスの コスト効率を向上 コスト 効率 生産性
  17. ©2022 Databricks Inc. — All rights reserved FEATURE MATRIX CLASSIC

    セルフマネージド, 入門用のSKU PRO セルフマネージド, ユーザー環境の コンピューティング SERVERLESS フルマネージド, 弾力的, 最高の価値 GOOD BETTER BEST 探索的なSQL SQLエディタ(インテリジェントな自動コンプリート)、 ANSI SQL ✓ ✓ ✓ 管理とガバナンス クエリ履歴 & プロファイル, データエクスプローラー (Unity Catalog), マネージドDelta Sharing ✓ ✓ ✓ 接続性 SQL Rest API*, Python, Node.js, Go, Partner Connect ✓ ✓ ✓ 性能 Photonエンジン (MPP; 超並列処理) ✓ ✓ ✓ 予測I/O X ✓ ✓ SQL ETL/ELT クエリフェデレーション*, マテリアライズド ビュー*, ワークフローへの統合* X ✓ ✓ データサイエンスとML Python UDFs*, ノートブック統合*, 地理空間 X ✓ ✓ サーバーレス 即時, 弾力的, フルマネージドのコンピュート X X ✓ ハイコンカレンシー BI インテリジェントワークロード管理 X X ✓ サーバーレスクエリ結果キャッシュ X X ✓ * プレビュー機能
  18. ©2024 Databricks Inc. — All rights reserved Databricks SQLの価格 “BEST”

    $1.0/DBU (VM料金は不要) すべてのワークロードに最適, 最高の性能, フルマネージド, 弾 力的, 最適な価格 SQL Serverless “GOOD” $0.22/DBU (+ 別途VM料金) セルフマネージド, 基本的なSQL ワークロード向け SQL Classic “BETTER” $0.78/DBU (+ 別途VM料金) セルフマネージド, より高い性能, 新しいワークロードをアンロック SQL Pro * AWS東京リージョン & Azure東日本リージョン 2024年4月10日時点