Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure Databricksの最新機能アップデート

Azure Databricksの最新機能アップデート

Azure Databricksの最新機能アップデートについてご説明します。

Databricks Japan

November 26, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved Azure Databricks 最新機能アップデート

    データブリックス・ジャパン株式会社 2024年11月7日 1
  2. ©2024 Databricks Inc. — All rights reserved I. Unity Catalog

    & Purview連携 II. Azure Databricks最新機能アップデート A. コスト管理 B. LakeFlow ConnectによるSQL Serverへの接続 C. Databricks Apps アジェンダ 1 2
  3. ©2024 Databricks Inc. — All rights reserved Unity Catalog: データとAIの統合ガバナンス

    Unity Catalogは2021年のData + AI Summitでの発表以来、進化を重ね、 Databricksの中心的なコンポーネントになった メタデータ管理 (ファイル | テーブル | MLモデル | ノートブック | ダッシュボード) アクセス 制御 リネージ 検索 監視 共有 Databricks Unity Catalog 監査 あらゆる形式のデータとAIモデルの一元管理 データとAI両方を単一の権限モデルで管理 AI活用の監視と可観測性 オープンなデータ共有 5
  4. ©2024 Databricks Inc. — All rights reserved Azure Databricksのユーザーに Unity

    Catalogを推奨する理由 データとAI資産の一元管理・統合ガバナンス 定型・非定型のデータとAI資産を一元管理、統一的なアクセス制御を実現 一度の設定で全言語・全処理エンジンに一貫したアクセス制御を適用 1 全ワークスペースのメタデータとユーザーの一元管理 運用効率の向上、管理の複雑さの低減 2 Databricksの新機能の多くは Unity Catalogが前提 ハイペースで登場する新機能により、開発生産性とガバナンスを向上 3
  5. ©2024 Databricks Inc. — All rights reserved Databricks ワークスペース2 全WSのメタデータとユーザーの一元管理

    Unity Catalog なしの場合 Unity Catalog ありの場合 Databricks ワークスペース1 Databricks ワークスペース Databricks ワークスペース Unity Catalog ユーザー管理 UCメタストア クラスター SQLウェアハウス クラスター SQLウェアハウス ユーザー管理 Hiveメタストア クラスター SQLウェアハウス ユーザー管理 Hiveメタストア クラスター SQLウェアハウス アクセス制御 アクセス制御 外部 データベース アクセス制御 以前はワークスペースごとにメタデータとユーザーの管理が必要だったが、 Unity Catalogによりアカウント単位で一元的に管理できるようになった 7 Hiveメタストア
  6. ©2024 Databricks Inc. — All rights reserved UCが有効化されて いない場合、 ユーザーは左記の

    機能を使えない Governance Across Workspaces Lineage Row Filters and Column Masking Volumes Lakehouse Federation Lakehouse Monitoring Delta Sharing DatabricksIQ Databricks Marketplace Clean Room Genie AI Governance System Tables Lakehouse Apps Databricks Connect v2 Materialized Views AI-Powered Predictive Optimization Streaming Tables RAG Studio Vector Search for Indexing Serverless Workflows Databricksの新機能の多くは UCが前提 言い換えると、UCが有効化されていないと使用できない機能が多数ある 8
  7. ©2024 Databricks Inc. — All rights reserved Unity Catalog 自動有効化

    2023年11月以降に作成するADBワークスペースでUCが自動有効化 アカウントコンソールでのUCの初期設定が不要に ワーク スペースでUCが 自動有効化 1 ワークスペース 専用のカタログ 2 ワークスペース管理者が カタログの所有者 3 Hiveサポートに 変更なし 4 9
  8. ©2024 Databricks Inc. — All rights reserved このパートでカバーする機能 1. 使用状況ダッシュボード

    ADBアカウント/ワークスペースのコストのモニタリング 2024年8月にパブリックプレビュー開始 (Link) 2. 予算 ADBアカウント全体の予算設定、監視 2024年9月にパブリックプレビュー開始 (Link) 3. 予算ポリシー サーバーレスコンピューティングのコストをタグで識別するための機能 2024年10月にパブリックプレビュー開始 (Link) 1 2 3
  9. ©2024 Databricks Inc. — All rights reserved 使用状況ダッシュボード • アカウント管理者が、アカウントコン

    ソールの [使用量] からワークスペー スを指定してダッシュボードをインポー ト • ダッシュボードで以下の分析が可能 • 機能別の使用状況の内訳 • SKU別の使用状況の内訳 • タグに基づく使用状況の分析 • 最も高コストな使用状況の分析 アカウント内の全ワークスペースの使用状況を確認できるダッシュボード Public Preview
  10. ©2024 Databricks Inc. — All rights reserved 予算 • アカウント管理者がアカウントコンソール

    の [使用量] > [予算] から設定 • 予算により以下が実現可能 • アカウント全体のコスト追跡 • 特定のワークスペース、タグ別の コスト追跡 • 予算超過時のメールアラート • 日次での累積コストの可視化 • 留意事項 • 予算は監視のみを行う = 予算超過時の 使用制限は行わない • コストは米ドルの定価で記録 • メールアラートに最大24hの遅延の可能性 簡単な操作で予算設定とコスト超過アラートを実現 Public Preview
  11. ©2024 Databricks Inc. — All rights reserved 予算ポリシー • ワークスペース管理者が設定の

    [クラスター] > [予 算ポリシー] で以下を管理 • 予算ポリシーの作成・編集・削除 • ポリシーにコスト識別用のタグと値を設定 • ポリシーをユーザー/グループ/SPに割り当て • 「請求管理者」ロールを持つアカウントユーザーは アカウント内の全ポリシーを管理可能 • ポリシーの適用対象:サーバーレスの ノートブック、ジョブ、DLTパイプライン • ポリシーの適用ルール • ユーザーの割り当てポリシーが1つ:自動適用 • ユーザーの割り当てポリシーが複数:リソース作成時に ユーザーが適用するポリシーを選択 • 未選択の場合、アルファベット順で最初のポリシーが自動適用 サーバーレスコンピューティングのコストをタグで識別するための機能 Public Preview
  12. ©2024 Databricks Inc. — All rights reserved 予算ポリシー:具体的な適用例 Eng cost-center-eng

    Tag: cost-center, Value: eng cost-center-sales Tag: cost-center, Value: sales 予算ポリシー グループ Sales アダム クリス ボブ ユーザー 割り当て 割り当て 所属 兼務 所属 1 2 1 (自動適用) 2 (自動適用) 1 2 から選択 適用される 予算ポリシー
  13. ©2024 Databricks Inc. — All rights reserved タグに基づくサーバーレスのコスト管理 • 予算ポリシー

    でサーバーレスコンピューティングのコストにタグを適用 • 予算でタグに基づく予算設定とアラート • 使用状況ダッシュボード でタグに基づく使用状況の分析 以下の機能を組み合わせることで実現可能
  14. ©2024 Databricks Inc. — All rights reserved このパートでお伝えしたいこと 1. Azure

    Databricks (ADB) の DBとSaaSからのIngestion機能として Lakeflow ConnectがGated public preview 認証、ファイルのステージングが Unity Catalogと密に統合されており Azure Databricks ユーザーとの親和性が高い 1 2
  15. ©2024 Databricks Inc. — All rights reserved LakeFlow Connect •

    ソースとの接続 : UCのコネクションを活用 • Gateway : Volumeへのファイルダンプ • Ingestion : UC Tableへレコードを反映 20 構成する要素と取り込みのプロセス Source Connection Gateway (DLT Pipeline) Staging Storage (Volume) Ingestion (DLT Pipeline) 1 2 3 4 5 データ操作 Insert, Update, Delete メタデータ、データ 変更データ Jobs Staging & Final Tables
  16. ©2021 Databricks Inc. — All rights reserved 21 Overview •

    Azure SQL DB • Methods • CT - Change Tracking • CDC - Change Data Capture • MSSQL Security Source Setup • 以下のシステムテーブルとビューに対するRead権限: • sys.databases • sys.schemas • sys.tables • sys.columns • sys.key_constraints • sys.foreign_keys • sys.check_constraints • sys.default_constraints • sys.change_tracking_tables • sys.change_tracking_databases • sys.objects • sys.triggers • 以下のシステムストアドプロシージャに対するExecute権限: • sp_tables • sp_columns • sp_columns_100 • sp_pkeys • sp_statistics • 全ての複製されるテーブル/スキーマに対するSELECT権限 ソース側の設定 Source 1 2 3 4 5 6
  17. ©2021 Databricks Inc. — All rights reserved 22 カタログとスキーマ 以下の考慮点

    • カタログとスキーマを作成 • 権限 • ステージング領域 • ステージングと目的地のカタログを作成する • CREATE CATALOG (on metastore) • ステージングのスキーマを作成する • CREATE SCHEMA • 既存のスキーマ/カタログを使う • USE CATALOG • USE SCHEMA • CREATE VOLUME (for staging schema) • CRATE TABLE 権限 Staging Storage 1 2 3 4 5 6
  18. ©2024 Databricks Inc. — All rights reserved Key Takeaway Lakeflow

    ConnectがGated Public Preview Previewの対象はSalesforce, SQL Server, Workday Preview参加希望の場合はアカウントチームにお知らせください 1 ADBとのNative統合 DB/SaaSへの認証はUCのConnection、ファイルはVolumeへステージ UCのテーブルへDelta Live Tablesでデータ取り込み 2 SQL Serverはchange tracking/CDCに対応 ソースDBからの差分更新をUCのテーブルへ反映 3
  19. ©2024 Databricks Inc. — All rights reserved このパートでお伝えしたいこと 1. Databricks

    Apps(旧Lakehouse Apps)で Databricks内のデータを活用したネイティブアプ リケーションを作成可能に アプリへのSSOやサーバレスによって 開発負荷の軽減、セルフサービス化 1 2
  20. ©2024 Databricks Inc. — All rights reserved アプリは専門的なリソースがボトルネッ クとなり、開発ペースが遅くなり、長期 にわたって維持するのが難しくなる。

    26 データ・アプリの構築と本番化は困難だった アプリのデプロイには、レビューや反 復作業が増えるため時間がかかり、ア プリの市場投入時期が遅れることが多 い。インフラは、迅速にデプロイするた めには非常に複雑です。 複雑 時間を浪費する アプリをデータ基盤と切り離して管理 するのは面倒でミスが起こりやすく、そ の結果、管理が不十分で安全でない アプリが生まれる。 脅威
  21. ©2024 Databricks Inc. — All rights reserved 開発者がすでに知っているテクノロ ジーでシンプルにアプリを開発できる ため、他のテクノロジーの習得に煩わ

    されることなく、簡単に構築できる。 27 Databricks Appsのご紹介 IT部門は、開発者が構築しているアプ リの本番環境への対応に高い信頼を 寄せており、これらのアプリはより迅速 にデプロイされ、迅速に市場に投入さ れる。 シンプル 本番レディー データ・アプリケーションは本質的にセ キュアで適切に管理されているため、 データ・セキュリティが向上する。 ビルトインのガバナンス セキュアなデータアプリケーションの迅速な構築
  22. ©2024 Databricks Inc. — All rights reserved Dash、Gradio、Streamlit、Shynyなどの 使い慣れたPythonフレームワークを使用 できます。

    Databricks環境内で直接実行できるた め、データやAIモデルへのシームレスなア クセスが可能 アプリディレクトリの検索とフィルタリングを 使用して内部アプリをすばやく発見 シンプル 28
  23. ©2024 Databricks Inc. — All rights reserved アーキテクチャ 29 Serverless

    Compute Control Plane Classic Compute Customer VPC Workspace clusters (ETL and AI) SQL Warehouses (DWH and BI) SQL Warehouses (DWH and BI) Web App Unity Catalog Workflow Manager Compute Manager Users Compute Storage Cloud Storage Model Serving (real-time) Databricks Apps
  24. ©2024 Databricks Inc. — All rights reserved アプリは自動的にプロビジョニングされ たサーバーレス・コンピュート上で実行 され、簡単にデプロイできる。

    Gitバージョン管理とCI/CDパイプライ ンの組み込みサポート デプロイから生成されるユニークな URLは、開発者が意図したユーザーと 簡単に共有できる 本番レディー 30 dev environment CI environment prod workspace staging workspace dev workspace
  25. ©2024 Databricks Inc. — All rights reserved 認証 31 󰠁󰞵

    Databricks App Data in UC Single Sign On End User needs CAN_USE or CAN_MANAGE App Service Principal needs access to the resource SQL Warehouse (needs Can Use permissions or greater) Serving endpoint (needs Can Query permissions or greater) Job (needs Can Manage Run or greater) Databricks Secret (needs Can Read permissions or greater) Vector Search (needs Can Query permissions or greater) Compute (Spark) (needs Can Attach To or greater) App Service Principal needs access to the data, eg Can Select (tables), Use Schema, Use Catalog
  26. ©2024 Databricks Inc. — All rights reserved Databricks Appsを使用することで、... …

    and much more! 対話的なデータアプリ 予測的分析 生成AIアプリ 33
  27. ©2024 Databricks Inc. — All rights reserved Key Takeaway Databricks

    AppsがPublic Preview eastusリージョンで先行的にPreview開始 1 開発負荷の軽減 サーバレスコンピュートの活用で運用負荷軽減 SSOにより認証周りをシンプル化 2 汎用的なフレームワークに対応 Streamlit、Flask、Dash、Gradio 3