プラットフォームエンジニアワークショップ/ platform-workshop

Databricks プラットフォームエンジニアワークショップ Databricks Japan 1

プラットフォームエンジニアワークショップ Databricks、Unity CatalogはあらゆるデータAI資産を一元管理するための諸機能を有しています。 2時間のワークショップを通じて、 Databricksプラットフォームの管理者の皆様に、Databricksの管理機能の概要を座学・ハン
ズオン形式で理解いただきます。主な対象者 • Databricksの管理者（IT管理者、ガバナンス担当、事業部付きのガバナンス担当者など） • Databricksの概要についての事前知識があるゴール事前準備アジェンダ 1. Databricks管理の7つのトピック（ 2h）ワークスペース管理、アイデンティティ管理、カタログ管理、権限管理、計算資源管理、予実管理、その他 • Databricks上の主要な管理概念の全体像と基礎を把握し、今後の実務において必要な情報へ円滑にアクセスするための出発点を得る • 環境：お客様のDatabricks環境を利用

始める前に • 本ワークショップでは、Databricksにおけるアカウント、ワークスペース、カタログなどの各種管理対象について、運用・統制を担うご担当者様を主な対象として、関連する基礎トピックを取り上げます。 • 本ワークショップの目的は、Databricks上の主要な管理概念の全体像と基礎を把握し、今後の実務において必要な情報へ円滑にアクセスするための出発点を得て
いただくことです。 • 内容は座学中心+簡単なアクティビティとなります。理解の定着に向けて、特に関心の高いテーマについては、後日あらためて資料を見返していただくことをお勧めします。 • より深い理解や体系的な知識の習得にあたっては、公式ドキュメントおよびトレーニングの活用をご検討ください。

4 質問 ★ Databricksを本番運用開始するまでに必要な内容は何ですか？

本ワークショップが扱う範囲 Databricksの管理者が主に担当する、7つのトピックを扱います。カタログ管理権限管理その他監査・モニタリング計算資源管理アカウント管理アイデンティティ管理予実管理
◎ ◎ ◎ ◎ トピックアカウント管理者 Databricks全体の資産管理基盤管理/中央Govチーム ◯ ワークスペース内アクションの監査 ◎ ◯ 作業環境への登録 ◯ 作業環境内の予実集計ワークスペース管理者特定の作業環境の管理基盤管理/中央Govチーム /DevOpsチーム ◎ ◯ データセット全体の利用状況監視メタストア管理者データAI資産全体の管理中央IT Gov/基盤管理チーム ◎ ◯ 特定データセットの品質監視カタログ所有者特定のデータ AI資産の管理中央Govチーム/ 事業部Govチーム責務 (黒: Databricks上の名称、緑: 想定される社内の職掌) 3 4 7 5 1 2 6

本日扱わないトピック高度なネットワーク設定、CI/CD、データ / LLM固有のモニタリングに関する設定は本ワークショップの対象外とする。以下のドキュメントを参照。 1. 高度なネットワーク設定：コントロールプレーン / コンピュートプレーン
/ 社内リソース間の接続、およびプライベートリンク接続の方法 AWS / Azure / Google Cloud 2. CI/CD：Declarative Automation BundlesやTerraformを使用したDatabricksリソースのYAML定義と自動デプロイ AWS / Azure / Google Cloud 3. データ自体のモニタリング：データ品質モニタリング機能による品質監視 AWS / Azure / Google Cloud 4. LLM / Agentのモニタリング：Unity AI Gatewayによるトラフィック監視 / ガードレールなど AWS / Azure / Google Cloud

アカウント・ワークスペース管理プラットフォームエンジニア　ワークショップ

8 質問 ★ Databricks アカウントとワークスペースの違いは何でしょうか？ ★ メタストアとは何でしょうか？また、何を確認できますか？

アカウント、ワークスペース、メタストア 9 アカウントはDatabricks全体の管理単位であり、アカウント管理者がアカウントコンソールから管理作業を行うアカウントワークスペース #1 ワークスペース #2 メタストア
#1 カタログ #1 カタログ #2 … … Databricks オブジェクト関係図 Databricks全体の管理単位管理者：アカウント管理者管理方法：アカウントコンソール管理対象： • ワークスペース • メタストア • アイデンティティ • ネットワーク • 予算等ユーザーアカウント …

アカウントコンソール画面 10 アカウントコンソール画面の例 AWS/Google Cloud: https://accounts.cloud.databricks.com/ Azure: https://accounts.azuredatabricks.net/ アカウント管理者のみアクセス可

アカウント、ワークスペース、メタストア 11 ワークスペースはユーザーの作業場所であり、ユーザーが実務を行う他、ワークスペース管理者が管理業務を行うアカウントワークスペース #1 ワークスペース #2 メタストア
#1 カタログ #1 カタログ #2 … … Databricks オブジェクト関係図ユーザーが作業をする実行環境管理者：ワークスペース管理者管理方法：ワークスペース設定管理対象：計算資源やデータ /モデルを操作・参照するオブジェクトその他：作成時にリージョンを選択ユーザーワークスペース … ◦ コンピュート ◦ ノートブック ◦ ジョブ ◦ ダッシュボード ◦ パイプライン ◦ アプリ ◦ 他

ワークスペース画面 12 ワークスペース画面の例（ skato-workspace ワークスペース） AWS/Google Cloud: https://<workspace-prefix>.cloud.databricks.com/ Azure: https://adb-<workspace-id>.<random-number>.azuredatabricks.net/

アカウント、ワークスペース、メタストア 13 メタストアはデータ、AI資産を管理する最上位のコンテナであり、メタストア管理者が作業をするアカウントワークスペース #1 ワークスペース #2 メタストア
#1 カタログ #1 カタログ #2 … … Databricks オブジェクト関係図 Unity Catalogでデータ資産を管理する最上位コンテナ管理者：メタストア管理者管理方法：アカウント / ワークスペース管理対象：データ、メタデータ、アクセス権限その他：作成時にリージョンを選択ユーザーメタストア … ◦ スキーマ ◦ テーブル ◦ ビュー ◦ モデル ◦ 関数 ◦ …

メタストア管理画面 14 メタストア管理画面の例アカウントコンソール ※アカウント管理者のみワークスペース ※メタストア管理者のみ

アカウント、ワークスペース、メタストアの関係性 15 アカウント、メタストア配下のオブジェクト、ワークスペース配下のオブジェクトとその関係性を理解する Account (Account console) Workspace Metastore Catalog
Schema 1 0..n 1 0..n Table 0..n 1 0..n 1 Storage Credential, External Location, Share, Recipient, Provider, Connection, Clean Room View, Model, Function, Volume 1 0..n 0..n 0..n 0..1 n 1 m Compute, Job, Pipeline, Notebook, Dashboard, … 1 0..n ①アカウントには複数のメタストアを作成可能だが、クラウドリージョンごとに 1つまで ②ワークスペースには、同じリージョンのメタストアを 1つだけ紐付けられる ③ワークスペースにはメタストア内の任意のカタログをアタッチできる（ワークスペースカタログバインディング） 1 2 3 * per 1 region * same region

ワークスペースカタログバインディング • カタログの [ワークスペース] タブから操作 • 既定は [すべてのワークスペースがアクセス可能 ]
• 厳密には同じメタストアに接続されているすべてのワークスペース • 2種類のアクセスレベル • Read & Write（読み書き） • Read Only（読み取り専用） 16 カタログへのアクセスを特定のワークスペースに制限できる機能。カタログの所有者が実行できる

主要な管理者ロール 17 アカウント、メタストア、ワークスペースには既定の管理者ロールが存在するアカウント管理者 (Account Admin) 能力 • (AWS/Google Cloudの場合)
ワークスペース作成 • メタストア作成 & 設定 • ユーザー, グループ, サービスプリンシパル作成 • ユーザーへのワークスペースへのアクセス権を付与担当者（推奨） • 基盤管理チーム / 中央ガバナンスチームメタストア管理者 (Metastore Admin) 能力 • カタログ及びストレージ関連オブジェクト（EXTERNAL LOCATION, CREDENTIAL）の作成 • データ共有用オブジェクト（SHARE, RECIPIENT）の作成 • UCオブジェクトの所有者変更担当者（推奨） • 基盤管理チーム / 中央ガバナンスチーム • ※データ（カタログ）所有者への権限移譲ワークスペース管理者 (Workspace Admin) 能力 • ワークスペースにユーザーとグループを追加 • コンピュート & ポリシーの作成 • コンピュート、ジョブ、ノートブック、クエリ、ダッシュボード等の所有者変更担当者（推奨） • IT/基盤/DevOpsチームカタログ所有者 (Catalog Owner) 能力 • カタログ内オブジェクト(CATALOG, SCHEMA, TABLE, VIEW, etc.)の所有者変更・削除 • 任意のプリンシパルに任意の特権を付与担当者（推奨） • BUガバナンスチーム / 中央ガバナンスチーム • ※メタストア管理者からの権限移譲

主要な管理者ロール 18 アカウント、メタストア、ワークスペースには既定の管理者ロールが存在するアカウント管理者 (Account Admin) 能力 • (AWS/GCの場合) ワークスペース作成
• メタストア作成 & 設定 • ユーザー, グループ, サービスプリンシパル作成 • ユーザーへのワークスペースへのアクセス権を付与担当者（推奨） • 基盤管理チーム / 中央ガバナンスチームメタストア管理者 (Metastore Admin) 能力 • カタログ及びストレージ関連オブジェクト（EXTERNAL LOCATION, CREDENTIAL）の作成 • データ共有用オブジェクト（SHARE, RECIPIENT）の作成 • UCオブジェクトの所有者変更担当者（推奨） • 基盤管理チーム / 中央ガバナンスチーム • ※データ（カタログ）所有者への権限移譲ワークスペース管理者 (Workspace Admin) 能力 • ワークスペースにユーザーとグループを追加 • コンピュート & ポリシーの作成 • コンピュート、ジョブ、ノートブック、クエリ、ダッシュボード等の所有者変更担当者（推奨） • IT/基盤/DevOpsチームカタログ所有者 (Catalog Owner) • カタログ内オブジェクト(CATALOG, SCHEMA, TABLE, VIEW, etc.)の所有者変更・削除 • 任意のプリンシパルに任意の特権を付与担当者（推奨） • BUガバナンスチーム / 中央ガバナンスチーム • ※メタストア管理者からの権限移譲ベストプラクティス ★ アカウント / ワークスペース / メタストア管理者は中央管理者が責務を持つ ★ カタログの所有者権限を中央管理者からデータの所有者（事業部内チーム）に移管する

19 アクティビティ (2min) 1. ワークスペースにログインしてみましょう 2. ワークスペースの設定画面を開き、どんな設定項目があるかを確認しましょう - 右上名前アイコン
-> 「設定」 - ※ワークスペース管理者の場合「ワークスペース管理者」メニューが表示されます 3. （アカウント / メタストア管理者のみ）ワークスペースおよびアカウントコンソールのメタストア管理導線を確認しましょう - ワークスペース: 「カタログ」-> ⚙アイコン -> メタストア - アカウントコンソール : 「カタログ」メニュー

アイデンティティ管理プラットフォームエンジニア　ワークショップ

21 質問 ★ Databricksのアイデンティティ（人、システムユーザー、他）の種類にはどのようなものがありますか？

3種類のアイデンティティ 22 Databricksを操作する主体はユーザーとサービスプリンシパルの2種類が存在する。グループは両者を束ねた集合体項目ユーザーサービスプリンシパルグループ定義人間の利用者
自動化・アプリ用の主体複数の主体を束ねる入れ物主な用途画面ログインして操作 Jobs、スクリプト、CI/CD、API 実行権限をまとめて付与単位通常はメールアドレス自動化用ID (client id) ユーザー/サービスプリンシパル等の集合管理単位アカウント単位で管理し、各ワークスペースへ割当同左同左※ ※ワークスペースローカルグループは存在するが、レガシーのため非推奨

ワークスペースへの ID追加 23 アカウントに追加されたユーザーは、ワークスペース管理者設定またはアカウントコンソールからワークスペースに割り当てることが可能ワークスペース管理画面（for ワークスペース管理者 ) アカウントコンソール
（for アカウント管理者）

エンタイトルメントワークスペース内の特定の機能セットへのアクセス権を表す。コンシューマーアクセス、SQLアクセス、ワークスペースアクセスの3種が存在 ※ワークスペースにアクセスするには、ユーザーは少なくとも 1 つのアクセス権限を持っている必要がある ※権限は加算的に評価される https://docs.databricks.com/aws/ja/security/auth/entitlements

エンタイトルメントの設定ワークスペース管理者により、ワークスペース x ユーザー(グループやSP含む)単位で設定する

グループ単位の招待・アクセス制御 26 アカウント単位でグループを管理し、ワークスペースに招待・メタストア配下のデータへのアクセス権限を制御するアカウントワークスペース bu1_prod ワークスペース bu1_dev グループ
bu1_users グループ bu1_authors • user aaa • SP xxx • Consumer Access • user aaa • SP xxx • SQL Access • Workspace Access メンバーエンタイトルメントメンバーエンタイトルメントメタストアカタログ xxx_prod カタログ xxx_dev SELECT MODIFY INVITE

グループ単位の招待・アクセス制御 27 アカウント単位でグループを管理し、ワークスペースに招待・メタストア配下のデータへのアクセス権限を制御するアカウントワークスペース bu1_prod ワークスペース bu1_dev グループ
bu1_users グループ bu1_authors • user aaa • SP xxx • Consumer Access • user aaa • SP xxx • SQL Access • Workspace Access メンバーエンタイトルメントメンバーエンタイトルメントメタストアカタログ xxx_prod カタログ xxx_dev READ WRITE ATTACH ベストプラクティス ★ AIM (自動ID管理)を使用してIdPからユーザーを自動プロビジョニングする ★ 既定のエンタイトルメントをConsumer Accessにし権限を最小限にする

ユーザープロビジョニングの方式方式 (推奨) AIM Automatic Identity Management SCIM System for
Cross-domain Identity Management 概要 Databricks ネイティブのユーザープロビジョニング方式標準プロトコル SCIM を使ったユーザープロビジョニング方式導入のしやすさシンプル、Azure では追加アプリ不要 SCIM アプリ設定、token / URL 設定が必要 ※アカウントレベルを推奨、ワークスペースレベルはレガシー設定同期対象 • ユーザー、グループ、 (Azureのみ)サービスプリンシパル • ネストされたグループをサポート • ユーザー、グループ • ネストされたグループをサポートしない反映タイミング JITあり。初回ログイン時に自動作成定期同期ベース対応 IdP Entra ID (Azure: GA, AWS / GC: PuPr) Okta (AWS / GC: PrPr) Entra ID、Okta、OneLoginなど参考リンク AWS / Azure / Google Cloud AWS / Azure / Google Cloud どちらもIdPからDatabricksアカウントにアイデンティティを同期する方式であるが、導入が軽く同期対象が広いAIMの利用を推奨

エンタイトルメントの使い分けビジネスユーザーのエンタイトルメントをConsumer Accessに限定することで、利用機能が限定されたシンプルなUI (Genie)を使用可能データエンジニア、サイエンティスト、他ビジネスユーザー使用者主な用途推奨設定
作成済のデータプロダクト(アプリ, ダッシュボード, Genie Spaces)の閲覧新規データプロダクトの作成、ノートブックやパイプラインによるデータ加工分析エンタイトルメントをConsumer Accessに限定し、“Genie”画面を閲覧 ※デフォルト設定を推奨！エンタイトルメントにWorkspace Access / SQL Accessを付与し、”Lakehouse” “App” など最適な画面を選択

Before After 既定エンタイトルメントの権限最小化 Workspace: X Group: users (default, workspace-local) Workspace
Access SQL Access • 既定では、全てのユーザーはワークスペースのグループusersに所属する • ユーザーはusersグループのエンタイトルメントを通して、ワークスペースアクセス権と SQL アクセス権を所有する Workspace: X Group: users (default, workspace-local) Consumer Access Group: authors-x (account-level) Workspace Access SQL Access グループクローニングにより以下 2つが実行され、新規に追加されるユーザーが既定でコンシューマーアクセス権のみを持つようになる 1. 既存usersグループを任意のアカウントグループに複製する　※ユーザーの元の権限を維持する 2. usersグループのエンタイトルメントを Consumer Access権のみに変更する New 1 2 グループクローニングにより、既存のユーザー権限を維持したまま新規ユーザーの権限をConsumer Accessに限定することが可能 Group Cloning Doc：デフォルトのワークスペースアクセスをコンシューマーアクセスに変更する（AWS / Azure / Google Cloud）

参考：Uniﬁed Login (Databricks on AWS) • 一元化された SSO管理：Databricksアカウントレベルで1回SSOの設定すれば、その設定をアカウントと全てのワークスペースに共通適用できる仕組み。 •
共通のログイン体験：Uniﬁed Login有効化後、エンドユーザーはアカウントと全ワークスペースにSSOでログインする。 • 適用条件・前提：以下の条件に当てはまる多くのアカウントでは既定で有効 ◦ 2023-06-21 以降にアカウントが作成されている ◦ 2024-12-12 以前にSSO未設定である • 参考リンク： AWS

カタログ管理プラットフォームエンジニア　ワークショップ

33 質問 ★ Unity Catalogとはどのような機能ですか？ ★ Unity Catalogで管理するオブジェクトにはどのようなものがあるでしょうか？ ◦
メタストア、カタログ、...

従来のカタログ Delta Lake Parquet Iceberg アクセスコントロールディスカバリーリネージ
監査安全・オープンデータ共有品質モニタリングコストコントロールビジネスセマンティクスセキュリティコラボレーション品質洞察テーブル AIモデルファイルノートブックダッシュボードあらゆる外部データソースを接続あらゆるツール、エンジン、プラットフォームによるオープンアクセスとコラボレーション Unity Catalog すべてのData+AI の統合かつオープンなガバナンス 34

メタストア Metastore スキーマ Schema テーブル Table ビュー View ボリューム Volume
関数 Function カタログ Catalog 接続 Connection 外部ロケーション External Location ストレージ資格情報 Storage Credential クリーンルーム Clean Room 共有者 Provider 受信者 Recipient 共有 Share サービス資格情報 Service Credential 35 Unity Catalog セキュリティ保護可能なオブジェクトモデル Model

②メタデータ管理と権限制御 ③外部との共有 ①データソースとの接続メタストア Metastore スキーマ Schema テーブル Table
ビュー View ボリューム Volume 関数 Function カタログ Catalog 接続 Connection 外部ロケーション External Location ストレージ資格情報 Storage Credential クリーンルーム Clean Room 共有者 Provider 受信者 Recipient 共有 Share サービス資格情報 Service Credential 36 Unity Catalog セキュリティ保護可能なオブジェクトモデル Model

ストレージ /サービス資格情報 - Storage / Service Credential 37 資格情報 •
クラウドリソースへの資格情報をカプセル化する • ストレージ資格情報はクラウドストレージ、サービス資格情報はクラウドネイティブサービスに対応 ①データソースとの接続

外部ロケーション External Location 38 外部ロケーション • ストレージパスと、そのパスへのアクセスを許可する資格情報のセット •
カタログ、スキーマのマネージドロケーションとして登録 • テーブル/ボリュームの外部の場所としても登録可能 CREATE EXTERNAL LOCATION `s3-remote` URL 's3://us-east-1/location' WITH (STORAGE CREDENTIAL `s3-remote-cred`) COMMENT 'Bucket for Finance business unit' ①データソースとの接続

接続 - Connection 39 接続 • 外部システムやメタストアをミラーリングするフェデレーション機能などで使用 •
接続オブジェクトで接続情報を登録し、フォーリンカタログとしてデータを利用 CREATE CONNECTION your_connection_name TYPE POSTGRESQL OPTIONS ( host 'qf-postgresql-demo...com', port '1234', user secret('secrets.r.us', 'your_username'), password secret('secrets.r.us', 'your_password')) ; CREATE FOREIGN CATALOG IF NOT EXISTS my_foreign_catalog USING CONNECTION my_connection_name OPTIONS (database 'external_database_name') ; ①データソースとの接続

データエステートの統合ビューを構築データソースにまたがるデータの保護効率的な実行とキャッシュ参考. レイクハウスフェデレーションユーザーダッシュボード PostgreSQL
Google BigQuery Snowflake Redshift データの場所を問わず、すべてのデータを発見、クエリ、管理可能 40 ①データソースとの接続

その他のストレージ（Cloudﬂare、S3） External Location クラウドストレージ（S3、ADLS、GCS） External Location Unity Catalog my_metastore 資格情報、外部ロケーション、接続
Unity Catalog上での資格情報、クラウドファイル、サービスおよびシステムの管理 External Location Storage Credential Storage Credential Storage Credential External Location クラウドサービス（AWS／Azure SDK、…） Service Credential ソースシステム（Oracle、Salesforceなど） Connection ①データソースとの接続

クラウドストレージ（S3、ADLS、GCS）カタログ2 マネージドコンテナ／バケット 2) カタログで定義するオブジェクトへのストレージ割り当てメタストア/カタログ/スキーマのレベルで外部ロケーションを設定し、マネージドに指定されるクラウドストレージのパスを指定する
デフォルトのマネージドコンテナ／バケットメタストア Unity Catalog スキーマ2 スキーマ1 カタログ1 1) メタストアに関連付けられたデフォルトのストレージマネージドコンテナ／バケットスキーマ3 3) スキーマで定義するオプション ①データソースとの接続外部ロケーションの設定外部ロケーションの設定

クラウドストレージ（ S3、 ADLS、GCS）カタログ2 マネージドコンテナ／バケット 2) カタログで定義するオブジェクトへのストレージ割り当てメタストア/カタログ/スキーマのレベルで外部ロケーションを設定可能
デフォルトのマネージドコンテナ／バケットメタストア Unity Catalog スキーマ2 スキーマ1 カタログ1 1) メタストアに関連付けられたデフォルトのストレージマネージドコンテナ／バケットスキーマ3 3) スキーマで定義するオプション ①データソースとの接続ベストプラクティス ★ カタログレベルで外部ロケーションを定義することで、明示的なストレージ構成を確保する ※物理的な分離が求められることが多い、複数のデプロイメント環境（開発環境と本番環境）間でカタログを分離する場合に特に役立つ

44 カタログ、スキーマ • カタログは複数のスキーマをまとめる • 配下のオブジェクトを3階層の名前空間で管理カタログ、スキーマ -
Catalog, Schema CREATE CATALOG IF NOT EXISTS my_catalog MANAGED LOCATION 's3://us-east-1/location/sub/path' ②メタデータ管理と権限制御

データソース横断の管理された名前空間クエリフェデレーションを利用したレガシーメタストアと外部データベースへのアクセス SELECT * FROM main.paul.red_wine; -- <catalog>.<database>.<table> SELECT
* FROM hive_metastore.default.customers; default (データベース) customers (テーブル) モデル/ 関数外部スキーマ SELECT * FROM snowflake_warehouse.some_schema.some_table; 外部テーブル hive_metastore (レガシー) Unity 　　　 Catalog 外部カタログスキーマ 1 External Table マネージド/外部ボリュームビューマネージド/外部テーブルカタログ 1 共有スキーマ共有テーブル共有カタログ ②メタデータ管理と権限制御

46 テーブル • 表形式データ • マネージドテーブル、外部テーブル、フォーリンテーブルが存在テーブル
- Table ②メタデータ管理と権限制御 CREATE TABLE IF NOT EXISTS my_table (id INT, name STRING, age INT) COMMENT 'this is a comment' TBLPROPERTIES ('foo'='bar');

マネージド /外部ロケーション 47 ユーザークラスターまたは SQLウェアハウスクラウドストレージ (S3, ADLS, GCS)
外部ロケーションのパス外部ロケーションのパス ... 外部ロケーションと資格情報アクセスコントロールボリュームテーブル　Unity 　　　　 Catalog スキーマ/カタログ上のマネージドロケーションマネージドマネージド外部外部場所を指定せずに作られたテーブルやボリュームは”マネージド”として扱われ、外部ロケーションを指定すると”外部”として扱われる ②メタデータ管理と権限制御

Liquid Clusteringは、データスキップを最大化するようにデータレイアウトを整理する予測最適化により、パフォーマンスが自動的に向上マネージドテーブル - Managed Table シンプルで高性能なテーブル
変換はワンステップでシンプル！変換処理中に同時書き込みを処理しながら、テーブル履歴と構成を保持する。読み取りと書き込みのダウンタイムを最小限に抑える ALTER TABLE catalog.schema.my_external_table SET MANAGED Spark Trino Flink Create table Delta Lake Iceberg AI-driven Predictive Optimization Read table Snowﬂake DBX Iceberg REST Unity REST Iceberg REST ②メタデータ管理と権限制御

マネージド＋外部アセット特徴マネージド - Managed 外部 - External (Unmanaged) テーブルのタイププロパティ値
“MANAGED“ "EXTERNAL" DROP Tableのふるまい • DROPコマンドはメタデータを破棄し、基となるデータは 30日以内にストレージアカウントから削除される • UNDROPコマンドはテーブルの削除に使用できます • メタデータのみを破棄し、データは削除されない。データの削除が必要な場合は、手動で行う必要がある Create Table構文 CREATE TABLE [<catalog>.][<schema>.]<table> ... CREATE TABLE [<catalog>.][<schema>.]<table> ... LOCATION ‘abfss:/[email protected]'; データファイルの保存場所指定されているマネージドロケーションのうち、最初に見つかった場所：スキーマ -> カタログ -> メタストア。 LOCATIONキーワードで指定されたパスパフォーマンス最適化予測的最適化による自動的な最適化（Optimize、Vacuum、 Analyze、…）の実行手動管理データフォーマットのサポート DELTA、ICEBERG DELTA、CSV、JSON、AVRO、PARQUET、ORC、TEXT テーブル作成と管理を簡素化 ②メタデータ管理と権限制御

マネージド＋外部アセット特徴マネージド - Managed 外部 - External (Unmanaged) テーブルのタイププロパティ値
“MANAGED“ "EXTERNAL" DROP Tableのふるまい • DROPコマンドはメタデータを破棄し、基となるデータは 30日以内にストレージアカウントから削除される • UNDROPコマンドはテーブルの削除に使用できます • メタデータのみを破棄し、データは削除されない。データの削除が必要な場合は、手動で行う必要がある Create Table構文 CREATE TABLE [<catalog>.][<schema>.]<table> ... CREATE TABLE [<catalog>.][<schema>.]<table> ... LOCATION ‘abfss:/[email protected]'; データファイルの保存場所指定されているマネージドロケーションのうち、最初に見つかった場所：スキーマ -> カタログ -> メタストア。 LOCATIONキーワードで指定されたパスパフォーマンス最適化予測的最適化による自動的な最適化（Optimize、Vacuum、 Analyze、…）の実行手動管理データフォーマットのサポート DELTA、ICEBERG DELTA、CSV、JSON、AVRO、PARQUET、ORC、TEXT テーブル作成と管理を簡素化 ②メタデータ管理と権限制御ベストプラクティス ★ マネージドテーブルから開始するパフォーマンスと操作性を最大限に高めるため、可能な限りマネージドテーブルを使用することを推奨

ビュー View 関数 Function 接続 Connection 外部ロケーション External Location
ストレージ資格情報 Storage Credential クリーンルーム Clean Room 共有者 Provider 受信者 Recipient 共有 Share サービス資格情報 Service Credential 51 メタストア Metastore ボリューム • 表形式以外のオブジェクトを管理するコンテナ • マネージドボリュームと外部ボリュームが存在スキーマ Schema カタログ Catalog テーブル Table ボリューム Volume ボリューム - Volume ②メタデータ管理と権限制御

52 Unity Catalogボリュームの活用 Unity Catalogガバナンスによるファイルへのアクセス、保存、整理、処理 • POSIXコマンドでアクセス dbutils.fs.ls(“s3://my_external_location/Volumes/catalog/schema/volum e123”) ls
/Volumes/catalog/schema/volume123 • マネージドまたは外部ロケーションに作成され、リネージに表示される • 表形式でないデータセットに対するガバナンスを適用する ◦ 機械学習に使用される非構造化データ（画像、音声、動画、 PDFファイル） ◦ 機械学習モデルのトレーニングに使用される、半構造化されたトレーニング、検証、テストデータセット ◦ アドホックまたは初期段階のデータ探索、または保存された出力に使用される生データファイル ◦ ワークスペース間で使用されるライブラリまたは設定ファイル ◦ ロギングやチェックポイント出力ファイルなどの運用データクラウドストレージ (S3, ADLS, GCS) マネージド / 外部ロケーション　ボリューム　　ボリューム　テーブル Data データ ②メタデータ管理と権限制御

Delta Sharing - データ共有 53 リージョン/クラウドを跨ぐDatabricksワークスペース同士のデータ共有が必要な場合、Databricks to DatabricksのDelta Sharingを利用する
Delta Lake Delta Sharing + Unity Catalog + ✔ パーティションフィルタ ✔ 統合データガバナンス ✔ IPアクセス / クラウドリージョン制限 ✔ SQL API と UI Databricks-managed sharing connection Delta Sharing + Unity Catalog + ✔ SQL API と UI ✔ 統合データガバナンス ✔ 共有ビューにアクセスデータ受信者（Recipient）データ提供者（Provider） ✔ トークンの交換 & 管理不要 ✔ ゼロコピー & ライ　ブ共有 Databricks on AWS Azure Databricks ③外部との共有

Delta Sharing 動作の裏側 54 備考 • 共有は Deltaのファイル単位で行われ、テーブル全体・特定のパーティション・バージョン指定（タイムトラベル）にも対応
• クライアント側はシステムに依存せず、 Parquetファイルを読み取れるだけで利用可能 • Databricks では Sharing Server と Unity Catalog が統合されており、一元管理が可能 Delta Table Delta Sharing サーバー Delta Sharing クライアントデータ共有者データ受信者 Delta Sharing Protocol Access Permissions Parquet ﬁles テーブルをリクエスト署名付きの短時間有効なURL オブジェクトストア内のファイル（Parquet形式）への直接アクセス Delta Sharing Protocol: 1. クライアントが Sharingサーバーに対して認証を行う 2. クライアントがテーブル（フィルタ条件付き）をリクエストする 3. サーバーがアクセス権限をチェックする 4. サーバーが署名付きの短時間有効な URLを生成・返却する 5. クライアントはそのURLを使って、オブジェクトストレージからファイルを直接読み込む Power BI データ受信者は、Delta Sharingサーバーに認証して共有テーブルを要求し、権限確認後に返される署名付き短期URLでParquetファイルを直接読み取る ③外部との共有

Delta SharingとUCオブジェクトメタストアX カタログ A スキーマ A1 テーブル A1-1 共有
S スキーマ A1 テーブル A1-1 メタストアY 受信者Y (forメタストアY) 共有者X (forメタストアX) カタログ B スキーマ B1 テーブル B1-1 スキーマ B1 テーブル B1-1 共有カタログ S’ スキーマ A1’ テーブル A1-1’ スキーマ B1’ テーブル B1-1’ アカウントX (共有側) アカウントY (受信側) 55 受信者、共有者 • 共有側：受信者を識別する RECIPIENTを作成する。 • 受信側：共有後、メタストアには共有者を示すPROVIDERが自動作成される共有 • 共有者：共有対象の資産を SHAREに紐づける • 受信者：受信したSHAREから共有カタログを作成する ※自動作成 ③外部との共有

Delta SharingとUCオブジェクトメタストアX カタログ A スキーマ A1 テーブル A1-1 共有
S スキーマ A1 テーブル A1-1 メタストアY 受信者Y (forメタストアY) 共有者X (forメタストアX) カタログ B スキーマ B1 テーブル B1-1 スキーマ B1 テーブル B1-1 共有カタログ S’ スキーマ A1’ テーブル A1-1’ スキーマ B1’ テーブル B1-1’ アカウントX (共有側) アカウントY (受信側) 56 受信者、共有者 • 共有側：受信者を識別する RECIPIENTを作成する。 • 受信側：共有後、メタストアには共有者を示すPROVIDERが自動作成される共有 • 共有者：共有対象の資産を SHAREに紐づける • 受信者：受信したSHAREから共有カタログを作成する ※自動作成 ③外部との共有ベストプラクティス ★ 他メタストア (リージョン / アカウント / クラウド跨ぎ )のデータ共有には Delta Sharingを使用する ※メタストア内のデータ共有（ワークスペース間）はワークスペースとカタログのバインディングで対応可能

57 アクティビティ (2min) 1. 「カタログ」メニューを押下し、カタログエクスプローラーを開きましょう 2. 検索タブから、適当なテーブルを検索し、右側のエリアに表示しましょう -
例：samples.nyctaxi.trips 3. 右側のタブ（概要、サンプルデータ、...）から、どのような情報を得られるか確認しましょう 4. 他のオブジェクト（カタログ、スキーマ、その他）も確認しましょう

権限管理プラットフォームエンジニア　ワークショップ

59 質問 ★ Unity Catalogで付与可能な権限にはどのような種類がありますか？ ★ Unity Catalogではどの粒度で権限を設定することが可能でしょうか？

• Unity Catalogメタストア内で定義されたセキュリティ保護対象オブジェクトに対して、プリンシパル（ユーザー、グループなど）に権限を付与することができる • SQLを使用して、UI上および
プログラム的に作成可能集中アクセス制御すべてのデータとAI資産を統合的に管理するガバナンス GRANT <privilege> ON <securable_type> <securable_name> TO `<principal>` GRANT CREATE TABLE ON SCHEMA my_catalog.my_schema TO `finance-team`; Unity Catalog権限モデルの概念 | Databricks on AWS

所有者とMANAGE権限 “所有者”はそのUnity Catalogオブジェクトの真の管理者であるが、MANAGE権限の付与によって管理業務を移譲することが可能 61 所有者（Owner）オブジェクトの本当の”管理者” - UCオブジェクトに対して設定される単
一の主体（ユーザー、SP、グループ） - 全権限を暗黙的に持つのに加え、権限付与/剥奪、所有権移譲、削除が可能 MANAGE権限 ”管理作業だけ移譲”するための権限 - UCオブジェクトに対して設定可能な権限の1つ - 複数の主体に付与可能 - 権限付与/剥奪、所有権移譲、削除が可能だが、それ自体はデータアクセス権（SELECT等）を持たない

セルフサービスのための情報検索と BROWSE権限 62 メタデータのみ閲覧可能とするBROWSE権限と、アクセス要求機能を組み合わせて、ユーザーのデータ探索の自由度を向上させる • カタログエクスプローラー、schemaブラウザ、検索結果、lineageグラフ、情報スキーマ、およびRESTAPIを使用して、オブジェクトのメタデータ
を表示できる • この権限単体では、ユーザーはオブジェクトのサンプルデータを閲覧することはできない • カタログ、Clean Rooms、および外部拠点のみに適用される • BROWSE権限でオブジェクトのメタデータを表示すると、ユーザーは「アクセス要求」ボタンを使用して、そのオブジェクトに対するアクセス許可を要求できる • リクエストは、オブジェクトごとにカスタマイズ可能なアクセスリクエスト宛先にルーティングされる • • BROWSE権限アクセス要求アクセスリクエストを管理する | Databricks on AWS

データ分類ガバナンスタグを大規模に適用する • データ分類は、カタログ内のテーブルを自動的に分類する機能。以下の用途で使用可能 • 機密データの検出 • 行レベル・列レベルのセキュリティ •
テーブルレベルのセキュリティ • データ分類を有効にするには、 catalogに対して MANAGE, CREATE SCHEMA, SELECT権限が必要 ※管理タグを使用するユースケースでは、タグに対して ASSIGN権限、テーブルに対して APPLY TAG権限も必要データ分類 | Databricks on AWS

管理タグ • 管理対象タグはアカウントレベルで定義される • タグの割り当て権限（制限）を持つユーザーは、USE CATALOG, USE SCHEMA,
APPLY TAG権限を持つオブジェクトにそのタグを適用可能 • ABACによるアクセス管理、リソース使用状況、課金、および検出に使用するタグの標準化と適用方法管理タグ | Databricks on AWS

きめ細やかなセキュリティ 65 行・列単位のきめ細やかなアクセスコントロール行：特定レコードのみにフィルタ構文概要: CREATE FUNCTION <name> ( <parameter_name>
<parameter_type> .. ) RETURN {booleanを返すフィルタ句 } 実装例:　 -- Adminグループは全行、他は USリージョンの行のみ表示 CREATE FUNCTION us_filter(region STRING) RETURN IF(IS_MEMBER(‘admin’), true, region=“US”); ALTER TABLE sales SET ROW FILTER us_filter ON region; グループメンバーシップをテスト再利用可能なフィルターをテーブルに割り当てフィルター述語を指定列：特定カラムのみにマスク構文概要: CREATE FUNCTION <name> (<p_name>, <p_type>, [, <col>...]) RETURN {第1引数と同じ型の式 } 実装例: -- Adminグループ以外には ssnを****と表示されるようマスク CREATE FUNCTION ssn_mask(ssn STRING) RETURN IF(IS_MEMBER(‘admin’), ssn, “****”); ALTER TABLE users ALTER COLUMN ssn SET MASK ssn_mask; グループメンバーシップをテスト再利用可能なマスクを列に割り当てマスクまたはマスク関数を指定

属性ベースのアクセスコントロール（ ABAC）ガバナンスポリシーの策定 • ポリシーはカタログ、スキーマ、テーブルに定義でき、親コンテナから継承される（スキーマはカタログからポリシーを継承する） • ポリシー定義は、プリンシパル（ユーザー、グループなど）を対象とし、管理タグに基づいてオブジェクト
に適用可能 • ポリシーの種類： • 利用可能：行フィルター／列マスク • 近日公開：GRANT / DENY • MANAGE権限を持つ所有者またはユーザーは、 Unity Catalogオブジェクトにポリシーを適用可能 Unity Catalogにおける属性ベースのアクセス制御 | Databricks on AWS

ABACのコンセプト ABACは属性でユーザーやデータを表現し、ルールでアクセス条件を定義し、それらを継承して階層全体に一貫して適用するアクセス制御モデル属性 Attributes ルール Rules 継承 Inheritance ポリシーが評価されるオ
ブジェクトのコンテキスト（タグ、他）アクセスコントロールを定めるルールルールやタグは下位オブジェクトに加算的に継承される

ABACによるスケーラブルなガバナンス txn_data Unity Catalog メタストア sales_prod business_unit カタログ ⇨ スキーマ
⇨ データ ⇨ SET Mask UDF ON Column WHEN has_tag(‘phone’) full_name cell_phone Todd G 321-123-**** Malik (データを生み出したい ) ルールを作成 Juan (データを管理したい) タグを適用 (tags) マスクルールが自動的に適用 *のみ参照可 1 2 3 データを読み込み 4 5 Sarita (データをクエリしたい ) ⇶ full_name ⇶ cell_phone phone RULE

69 アクティビティ (2min) 1. 「カタログ」メニューを押下し、カタログエクスプローラーを開きましょう 2. 適当なテーブルを開いて「権限」タブを確認し、自身にどのような権限が割り振られているかを確認しましょう

計算資源管理プラットフォームエンジニア　ワークショップ

71 質問 ★ Databricksにおける”コンピュート”の役割は何ですか？ ★ コンピュートには、どのような種類がありますか？

サーバーレスコンピューティングプレーンコントロールプレーン 72 クラシックコンピューティングプレーンお客様クラウド前提：インフラストラクチャ Unity Catalog
Webアプリ、REST API ノートブック、SQLクエリユーザーコンピュートストレージクラウドストレージノートブック, ワークフロー, SDP SQLウェアハウス (Serverless) モデルサービング etc. 汎用コンピュート (Standard / ML) ジョブコンピュート (Standard / ML) SQLウェアハウス (Classic / Pro) … Databricksは、コントロールプレーンとコンピューティングプレーンで構成コンピューティングプレーンは、サーバーレスおよびクラシックの二種類 AWS: VPC - EC2 Azure: Vnet - VM Google Cloud: VPC - VM AWS: S3 Azure: ADLS Google Cloud: GCS

コンピュートの役割 73 Databricks ワークスペースノートブック / クエリ / ダッシュボード /
… ユーザーコンピュート SQLクエリやPythonスクリプトの実行などの全ての計算処理はDatabricksのコンピュート上で実行される Databricksによるデータ分析データ (Unity Catalog)

Databricksコンピュートの提供価値 74 高性能のSpark環境を、安定した状態で、楽に使用可能性能安定・互換性運用性 Apache Spark互換 & Photon
エンジンで大規模データでもスケーラブルに高速処理 Databricks Runtime によって、Spark本体・ライブラリ・最適化が検証済みの形で提供され、用途に応じて選択可能サーバーレスコンピュートや自動スケーリングにより、クラスタのサイジングや管理負荷を減らしつつ、必要なときに必要な分だけ使える

コンピュートと Databricksの費用の関係ほとんどのワークロードにおいて、Databricksコストはコンピュートの起動時間中に、秒単位の従量課金で発生するコスト発生タイミング（クラシックコンピュートの例） 75 DBU:Databricks Unit, Databricks内の課金単位

最適なコンピュートの選択使用者とワークロード別に最適に設計されたコンピュートを選んで使用可能 76 データサイエンティスト画像処理とディープラーニングデータエンジニア大規模データの加工処理ジョブ /
パイプラインデータアナリスト / ビジネスユーザーデータの集計・可視化ジョブコンピュート低単価タスク完了時に停止ノートブック汎用コンピュートインタラクティブ開発向け柔軟な設定項目 (GPU, Node, Instance) SQLウェアハウス SQL実行に特化シンプルなサイジング SQLクエリ / ダッシュボード / Genie Spaces

コンピュートの種類名称サーバーレスコンピューティングクラシックコンピューティング特徴インフラ管理が不要即時利用可能お客様環境で資源が稼働詳細な設定が可能用途
ノートブックでの対話的分析 Serverless Interactive All Purpose Clusters (Standard / ML*1) ジョブ実行 Standard / Performance Optimized Jobs Classic Clusters (Standard / ML*1) パイプライン実行 Serverless Core / Pro / Advanced SQLウェアハウス SQL Warehouse (Serverless) SQL Warehouse (Pro / Classic) モデルサービング Agent Bricks Model Serving - ベクトル検索 Agent Bricks Vector Search*2 - Webアプリ構築 Databricks Apps - OLTPデータベース Lakebase Postgresインスタンス*2 - *1: Standard: ビッグデータ分析体験を最適化する Apache Sparkやその他多くのコンポーネントを事前設定済み。 ML: TensorFlowやKeras、PyTorch、XGBoost などの一般的な機械学習ライブラリを事前設定済み *2: コンピュートに加え、データも Databricks環境で管理される Databricksのプロダクトの多くはコンピュート上で実行される 77

コンピュートの種類名称サーバーレスコンピューティングクラシックコンピューティング特徴インフラ管理が不要即時利用可能お客様環境で資源が稼働詳細な設定が可能用途
ノートブックでの対話的分析 Serverless Interactive All Purpose Clusters (Standard / ML*1) ジョブ実行 Standard / Performance Optimized Jobs Classic Clusters (Standard / ML*1) パイプライン実行 Serverless Core / Pro / Advanced SQLウェアハウス SQL Warehouse (Serverless) SQL Warehouse (Pro / Classic) モデルサービング Agent Bricks Model Serving - ベクトル検索 Agent Bricks Vector Search*2 - Webアプリ構築 Databricks Apps - OLTPデータベース Lakebase Postgresインスタンス*2 - *1: Standard: ビッグデータ分析体験を最適化する Apache Sparkやその他多くのコンポーネントを事前設定済み。 ML: TensorFlowやKeras、PyTorch、XGBoost などの一般的な機械学習ライブラリを事前設定済み *2: コンピュートに加え、データも Databricks環境で管理される Databricksのプロダクトの多くはコンピュート上で実行される 78 ベストプラクティス ★ フルマネージドなサーバーレスコンピュートを使用し、即時利用による生産性向上・アイドル時間を削減し低コスト化を狙う ★ コンピュートポリシーによって、想定外のコスト発生を防ぐガードレールを敷く

サーバーレスのメリット • 設定なし • パフォーマンスチューニング不要 • 容量管理不要 • 自動アップグレード
およびパッチ • コンピュートの起動を待つことなく、ユーザーがクエリをすぐに開始 • 即時のスケーリングで並列に処理可能なユーザー、クエリを増加管理不要 (フルマネージド ) ユーザーの生産性の向上 • 消費した分だけ支払い、アイドルクラスター時間を削減 • リソースのオーバープロビジョニングなし • 自動終了 (最後のクエリから一定期間経過後にアイドル容量を削除) 低コスト 79

コンピュートポリシーの設定ユーザーがのコンピュートを作成するときに、使える設定や上限をルールで制御する仕組み 80 • ユーザーがコンピュートを作成する際に設定の制限を加える機能 • ユーザー/グループ毎に異なるポリシーを割り当てることが可能 • 同一のユーザー/グループに複数のコンピュートポリシーを割り当て、用途に応
じてデフォルト設定として使用することも可能 • 利用例 ◦ 使用できるインスタンスタイプ、台数の制限 ◦ 特定のタグを強制的に付与 ◦ ライブラリやSpark Confの指定 ◦ 等々、コンピュート設定に出てくるものは基本的に全て制御可能コンピュートポリシーの作成と管理

コンピュートのモニタリング「モニタリング」タブまたはシステムテーブルからコンピュートのメトリクスを監視し、最適なコンピュート設計のインプットとする 81 コンピュートのモニタリングの例（ SQL Warehouse） All Purpose &
Job (Classic): コンピュートメトリクスの表示 | Databricks on AWS SQL Warehouse: SQLウェアハウスを監視する | Databricks on AWS

82 アクティビティ (2min) 1. 「コンピュート」メニューを押下し、コンピュートの一覧画面を開きましょう 2. 各タブ（汎用コンピュート、ジョブコンピュート、...）を遷移し、どのコンピュートが作動しているかを確認しましょう 3.
「コンピュートを作成」を押下し、設定可能な値を確認しましょう ※設定値を確認するのみ。確認後は「キャンセル」を押すか、作成後にコンピュートを直ちに停止する

予実管理プラットフォームエンジニア　ワークショップ

84 質問 ★ Databricksのコストは、DBUを使ってどのように算出することが可能ですか？ ★ 予算を設定 / 実績を管理するにはどのような機能を使用できますか？

Databricks 費用構造 Databricksは従量課金であり、ほとんどの機能の請求金額はコンピュートの処理単価と実行時間の積算で決まる費用 ($/月) 処理単価 ($/h) 実行時間 (h/月)
費用の計算式 85

Databricks 費用構造 - DBUとは処理単価はDBU単価($/DBU)とDBU消費量(DBU/h)で正規化されているコンピュート費用は、DBU単価・DBU消費量・実行時間の積算で計算される費用 ($/月) DBU単価 ($/DBU)
DBU消費量 (DBU/h) 実行時間 (h/月) 費用の計算式 DBU（Databricks Unit）：Databricksの処理能力をクラウドやリージョン横断で規格化した単位 86

Databricks 費用構造 - 要素分解 DBU単価は用途と実行環境、DBU消費量はコンピュートの処理能力、実行時間は処理能力や様々な要因で定まる費用 ($/月) 費用の計算式以下で構成される
SKUで決定 ✓ プロダクト ✓ プラン ✓ クラウド ✓ リージョンコンピュートの処理能力で決定 ✓ ノード数 ✓ ノードの種類 ✓ Photon有無 ✓ その他様々な要因が複雑に作用 ✓ 処理能力 ✓ データ量 ✓ 処理の複雑性 ✓ その他 87 DBU単価 ($/DBU) DBU消費量 (DBU/h) 実行時間 (h/月)

Databricks 費用計算の例（ジョブ）費用 ($/月) 費用の計算式例1. AWS ap-northeast-1でJobs Classic Clusterを月80h(4h×20日)稼働
コンピュートはi3.xlargeの2ワーカー（Photonあり）を使用 $96 /月 $0.20/DBU 6 DBU/h 80h 88 DBU単価 ($/DBU) DBU消費量 (DBU/h) 実行時間 (h/月) 1 2 3 1 1 3 2

(1) DBU単価 DBU単価はプロダクトと実行環境（＝SKU）によって定まり、Pricingページから参照することが可能 DBU単価 ($/DBU) クラウドリージョンプロダクトプラン
コンピュートが対応するプロダクトや実行環境（プラン・クラウド・リージョン）で決定 ※Commit契約時の割引金額も DBU単価に作用する Lakeﬂow Jobs | Databricks Pricingページ DBU単価の決定要因参照方法 89 Enterprise Plan, AWS Tokyo Regionの Job Classic Clustersで$0.20/DBU

参考. SKUの種類課金メニューの単位はSKUとして定義されている。どのプロダクト／用途で、どのプラン・クラウド・リージョンを使うかを定める https://www.databricks.com/product/sku-groups 90

(2) DBU消費量 - All Purpose/Job DBU消費量はコンピュート処理能力をリージョンやクラウド間で統一した規格であり、コンピュート作成時に確認することが可能 DBU消費量 (DBU/h) ノードタイプ
Photonの有無ノード数コンピュートの能力（ノード数や種類）で決定 All Purpose/Job Computeの場合 Databricksワークスペースコンピュート作成画面 DBU消費量の決定要因参照方法 i3.xlargeの2ワーカー（Photonあり）で 6 DBU/h 91

(2) DBU消費量 - SQL Warehouse DBU消費量はコンピュート処理能力をリージョンやクラウド間で統一した規格であり、コンピュート作成時に確認することが可能 DBU消費量 (DBU/h) スケーリング
(Min x, Max x) クラスターサイズ (XXS, XS, S, …) コンピュートの能力（サイズやスケーリング）で決定 SQL Warehouseの場合 Databricksワークスペース SQL Warehouse作成画面 DBU消費量の決定要因参照方法 Mサイズ、最小1-最大2で24-48DBU/h 1クエリの処理時間に影響複数クエリの並列処理性能に影響 92

(3) 実行時間実行時間はコンピュートの性能、データ量、その他の要因が相互に・間接的に作用する実行時間 (h/月) データ量その他 DBU消費量実行時間の決定要因
処理ファイル数ファイル当たりサイズ処理の複雑性データレイアウト他ノード数ノードタイプ他 93

参考. 費用計上における特殊な例ほとんどの費用はDBU単価・DBU消費量・実行時間の積算で決定されるが、一部の例外を説明する基盤モデル API Pay Per Token サーバーレス
ストレージ Lakebase / Vector Search / Serverless Workspace マネージドサービス入出力したトークンによってDBUを消費（DBU / 1M Token）コンピュート実行時の DBUに加えて、保管するデータ量当たりでのDSU*1 を消費（$ / GB / month）予測的最適化、データ分類の機能の実行時に DBUを消費 Foundation Model Serving | Databricks Vector Search | Databricks Lakebase | Databricks Storage | Databricks Databricks Managed Services 1 2 4 例費用計上方式参考リンク # *1 DSU: Databricks Storage Unit *2 DBU単価はSKU “SERVERLESS_REAL_TIME_INFERENCE”で算出 *3 150 DBU / user / monthまで無料で使用可能 *4 Public/Private Connectivity は接続方式ごとの費用、 Data Egress はAZ・リージョン・クラウド外など転送先 /経路ごとの費用が計上 94 Genie Genie Code / Genie Spaces 入出力したトークンによってDBUを消費（DBU / 1M Token）*2 。Free Tier*3 あり - 3 サーバーレスネットワーク通信 Databricksサーバーレスと顧客側リソースの間の特定経路の通信*4 において費用計上 Data Transfer & Connectivity | Databricks 5

システムテーブル： Databricksのすべての運用データを格納するDatabricksホスト型の分析ストアウォームパスとして、以下を含むお客様の履歴オブザーバビリティ（観測可能性）のために使用されるシステムテーブル - レイクハウスの可観測性 95
このユーザーは過去 24時間で何にアクセスしたか？ SELECT request_params.table_full_name system.operational_data.audit_logs から取得 WHERE user_identity.email = "[email protected]" かつ service_name = "unityCatalog" AND action_name = "generateTemporaryTableCredential" AND datediff(now(), created_at) < 1; Cost/usage analytics Efﬁciency analytics Audit analytics Data Quality analytics システムテーブルはすぐに使用可能、データへの洞察力を高める

システムテーブル - 課金関連のテーブル名 96 usage で「どれだけ使ったか」list_prices で「1単位いくらか」を把握する注： • billingスキーマの取得スコープは
”Databricks”のみ（クラウドプロバイダーのコストは含まない） • list_pricesには全社共通の Promotionの情報を含むが、アカウント個別の discount情報は含まない system.billing.usage 利用実績データ（何DBU使用したか） system.billing.list_prices 単価マスタ（1DBUあたりいくらか）どのワークスペース／ジョブ／エンドポイントがどれだけ使ったかの分析・コスト配賦に使用する usage 利用量をリスト価格で金額換算するための単価マスタの履歴の確認に使用する - sku_name: SKU名（料金プラン） - usage_quantity: 利用量（DBU など） - usage_start_time / usage_end_time: 利用期間 - billing_origin_product: 製品種別（ALL_PURPOSE など） - sku_name: SKU名 - price_start_time / price_end_time: 価格の有効期間 - pricing.effective_list.default: 有効なリスト単価テーブル用途代表カラム

システムテーブル - コスト算出のクエリ例 97 -- 特定タグに紐づく当月のリスト価格ベースコスト SELECT SUM(usage.usage_quantity * list_prices.pricing.effective_list.default)
AS total_list_cost_usd FROM system.billing.usage AS usage JOIN system.billing.list_prices AS list_prices ON usage.sku_name = list_prices.sku_name AND usage.cloud = list_prices.cloud AND usage.usage_unit = list_prices.usage_unit -- usage 期間が価格の有効期間内に入るように絞り込む AND usage.usage_end_time >= list_prices.price_start_time AND (list_prices.price_end_time IS NULL OR usage.usage_end_time < list_prices.price_end_time) WHERE usage.custom_tags [:key] = :value AND usage.usage_date BETWEEN DATE '2025-05-01' AND DATE '2025-05-31'; その他のクエリの参考： https://docs.databricks.com/aws/en/admin/usage/system-tables 量(DBU) x 単価($/DBU)で金額を算出 skuで両方のテーブルを結合

予算管理 98 アカウント管理者は予算設定を行い、費用のモニタリングとアラートを設定することが可能予算の設定予算の確認予算管理機能アカウントコンソール -> 使用量
-> 予算 ✓ 対象ワークスペースの設定 ✓ 閾値の設定 ✓ 超過時の通知 ※自動停止は不可予算の作成と監視 | Databricks on AWS

使用状況ダッシュボード 99 システムテーブルを入力に作成されたコストモニタリング用のダッシュボードをインポートできる。AI/BI機能準拠のためカスタマイズも可能使用状況ダッシュボード | Databricks on AWS ダッシュボードのセットアップ
（アカウントコンソール）ダッシュボードの例

使用状況ダッシュボード 100 システムテーブルを入力に作成されたコストモニタリング用のダッシュボードをインポートできる。AI/BI機能準拠のためカスタマイズも可能使用状況ダッシュボード | Databricks on AWS ダッシュボードのセットアップ
（アカウントコンソール）ダッシュボードの例ベストプラクティス ★ カスタムタグやサーバーレス使用量ポリシーを設定し、コンピュートの利用量を任意の分類で識別する

カスタムタグ 101 カスタムタグをコンピュートに付与し、コスト分析時にタグベースで識別することが可能コンピュートや一部リソースに付ける、コスト按分・追跡用の任意の key-valueタグ概要 All Purpose Compute,
Job Compute, SQL Warehouse (Serverless含む), 他対象設定例 : SQLウェアハウス設定例設定例 : ジョブタグを使用して使用状況を属性付けし、追跡する | Databricks on AWS

サーバーレス使用量ポリシー 102 サーバーレスコンピュートの利用識別はサーバーレス使用量ポリシーを通しせて設定したカスタムタグを通して行うサーバーレスワークロードに対して、課金記録へ自動でタグを付与するための規則概要 Serverless Notebook, Serverless Job,
Serverless Pipelines, Model Serving Endpoint, 他対象設定画面（ワークスペース管理者設定）設定例設定例 : ジョブ (サーバーレス ) サーバーレス使用ポリシー内でカスタムタグを定義ポリシーを通してタグも付与（既存のジョブのカスタムタグは上書きする）サーバレスでの属性の使用ポリシー | Databricks on AWS

使いすぎの防止 • ノートブック：spark.databricks.execution.timeoutによるSparkクエリの実行時間上限設定 ※For無限ループなど、Pythonコードのミスは停止しないことに留意 • SQLウェアハウス：STATEMENT_TIMEOUTの設定（スクリプト /
ワークスペース単位） • ジョブ：Job Timeoutの設定 • 基盤モデル API：Unity AI Gatewayによる分単位クエリ(QPM)・分当たりトークン数(TPM)の制御 103 意図しない利用によるコンピュートの長時間稼働や使いすぎを防止する

104 アクティビティ (2min) 1. 料金計算ツール（AWS / Google Cloud, Azure）にアクセスしましょう
2. プラン、クラウド、コンピュートの種類を選び、特定時間あたりの費用を計算しましょう例：SQL Warehouse (Serverless) 時間あたりコスト Databricks on AWS / Google Cloud • Enterpriseプラン • SQL Serverlessコンピュート • AP (Tokyo)リージョン • 2X-smallサイズ1インスタンス、1時間 x 1日 Azure Databricks • Servlerless SQLワークロード • Premiumプラン • Japan Eastリージョン • Hour表示

その他監視・モニタリングプラットフォームエンジニア　ワークショップ

107 質問 ★ システムテーブルでは、利用実績(billing)以外にどのようなことが確認できますか？

オブザーバビリティとは何かオブザーバビリティ（可観測性）はデータプラットフォームにおける重要な要素であり、以下の役割を担う • プラットフォームの利用状況を詳細に可視化する • コストや支出の影響を、それぞれの利用ケースと紐付けて把握できるようにする • データプラットフォームへのアクセスに対するセキュリティ管理および監査を可能にする 108

モニタリングの対象の例データ・オブザーバビリティ（可観測性） • 容量の大きいテーブルはどれか？ • 書き込み頻度が最も高いテーブルはどれか？ • クラスタリングを適用すべき列はどれか？パフォーマンス／リソース活用状況 •
利用率が最も低いクラスターはどれか • 利用率は時間・分単位でどのような傾向にあるか 109 コスト • 最もコストがかかっているクラスターはどれか？ • 最もコストがかかっているジョブはどれか？ • 最もコストがかかっているプロジェクトはどれか？セキュリティと監査 • データの分類に応じたユーザーやユーザーグループのアクセス状況を監視・追跡する • アカウントのログインと変更履歴を追跡するプラットフォーム利用状況とパイプライン状態 • 現在、パイプラインはどのような状態か？ • 毎月いくつの新しいジョブが追加されているか？ • 実行時間の長いジョブやクエリはどれか？ • どのようなクラスターやジョブの設定が使用されているか？ • ワークスペースには何人のユーザーがいるか？

システムテーブル： Databricksのすべての運用データを格納するDatabricksホスト型の分析ストアウォームパスとして、以下を含むお客様の履歴オブザーバビリティ（観測可能性）のために使用されるシステムテーブル - レイクハウスの可観測性 110
このユーザーは過去 24時間で何にアクセスしたか？ SELECT request_params.table_full_name system.operational_data.audit_logs から取得 WHERE user_identity.email = "[email protected]" かつ service_name = "unityCatalog" AND action_name = "generateTemporaryTableCredential" AND datediff(now(), created_at) < 1; Cost/usage analytics Efﬁciency analytics Audit analytics Data Quality analytics システムテーブルはすぐに使用可能、データへの洞察力を高める

111 • 誰がこのテーブルにアクセスしたのか？ • 直近1日以内にどのユーザーがテーブルにアクセスしたか？ • ユーザーがどのテーブルにアクセスしたか？ • すべてのパーミッションの変更を表示
• 最近実行したノートブックコマンドを表示 Audit Log (監査ログ）アカウント使用に関する一般的な質問に答える

112 • DBU消費量の日次推移は？ • 今月、各SKUは何DBU使用されたか？ • あるワークスペースが6月1日に使用した各SKUの量は？ • 最もDBUを消費したジョブは？ •
特定のタグを持つリソースにどれだけの使用量を帰属させることができるか？ • 利用が伸びているSKUを示す • All Purpose Compute (Photon)の使用傾向は？ Billing usage (請求) usageテーブルを活用したDBU消費の分析と最適化

113 2種類のリネージテーブル • system.access.table_lineage • system.access.column_lineage Table and Column Lineage
(リネージ）リネージュ機能を利用して、リネージュをプログラムで照会し、意思決定やレポートの作成に役立てる

Compute (コンピュート ) • クラスターはどのくらい稼働していたのですか？ • どのようなVMタイプを使用したのですか？ • どのように規模を拡大／縮小したのかスキーマ
• system.compute.clusters • system.compute.node_timeline • system.compute.node_types • system.compute.warehouse_events 114 インフラの使用状況とスケーリングイベントを理解する

Query 115 データが誰にどのように照会されているかを理解する • 最も使用頻度の高いテーブル/カラムは？ • テーブルはどのようにクエリされるのか？ • 誰がどのデータを見るのか？

116 アクティビティ (2min) 1. システムテーブルのドキュメント（AWS / Azure / Google Cloud）を参照
し、どのようなテーブルがあるかを見てみましょう 2. ワークスペースの「カタログ」メニューを押下し、systemカタログ（システムテーブル格納先）を探しましょう。その後、配下のスキーマ、テーブルの情報とサンプルデータを見てみましょう ※表示されない / データ閲覧出来ない場合は、本アクティビティをスキップしてください

まとめ Well Architected Lakehouse プラットフォームエンジニア　ワークショップ

本ワークショップが扱う範囲 Databricksの管理者が主に担当する、7つのトピックを扱います。カタログ管理権限管理その他監査・モニタリング計算資源管理アカウント管理アイデンティティ管理予実管理
◎ ◎ ◎ ◎ トピックアカウント管理者 Databricks全体の資産管理基盤管理/中央Govチーム ◯ ワークスペース内アクションの監査 ◎ ◯ 作業環境への登録 ◯ 作業環境内の予実集計ワークスペース管理者特定の作業環境の管理基盤管理/中央Govチーム /DevOpsチーム ◎ ◯ データセット全体の利用状況監視メタストア管理者データAI資産全体の管理中央IT Gov/基盤管理チーム ◎ ◯ 特定データセットの品質監視カタログ所有者特定のデータ AI資産の管理中央Govチーム/ 事業部Govチーム責務 (黒: Databricks上の名称、緑: 想定される社内の職掌) 3 4 7 5 1 2 6

119 オペレーショナルエクセレンスセキュリティプライバシーコンプライアンス信頼性パフォーマンス効率コスト最適化
データ & AI ガバナンス柱 Well-Architected Lakehouseとはスコ｜プ相互運用性と使いやすさレイクハウス固有システムが障害から復旧し、継続的に機能する能力レイクハウスの本番環境での安定稼働を支えるすべての運用プロセス Databricksのアプリケーション、顧客のワークロードおよびデータを脅威から保護システムが負荷の変化に柔軟に対応する能力投資対効果を最大化するためのコスト管理レイクハウスがユーザーや他のシステムと効果的に連携する能力データとAIが価値を生み出し、ビジネス戦略を支えることを保証するための監視 Databricks Platform BI & データウェアハウスデータエンジニアリングデータストリーミング ML & データサイエンス Unity Catalog Delta Lake

Well-Architected Lakehouse オペレーショナルエクセレンスセキュリティ信頼性パフォーマンス効率コスト最適化持続可能性
AWS Well-Architected Framework Microsoft Azure Well-Architected Framework Google Cloud Architecture Framework Databricksレイクハウス BI & データウェアハウスデータエンジニアリングデータストリーミング ML & データサイエンス Unity Catalog Delta Lake クラウドデータレイク 120 クラウドのWell-Architected Frameworkをレイクハウスに拡張

体系化された基本原則とベストプラクティス 121 基本原則とベストプラクティスオペレーショナルエクセレンスセキュリティプライバシーコンプライアンス信頼性パフォーマンス
効率コスト最適化データ & AI ガバナンス相互運用性と使いやすさ https://docs.databricks.com/ja/lakehouse-architecture/index.html https://docs.gcp.databricks.com/ja/lakehouse-architecture/index.html https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architec ture

7つの柱とそれぞれの基本原則 122 データ & AI ガバナンスデータ品質基準の確立データ &
AI 管理の一元化データ & AI セキュリティの一元化相互運用性と使いやすさ新規ユースケース実装のシンプル化統合の標準を定義オープンなフォーマットとインターフェイス一貫性と使いやすさオペレーショナルエクセレンスプロセスの最適化自動化キャパシティ管理セキュリティ・コンプライアンス・プライバシー IDと特権管理データセキュリティネットワークセキュリティコンプライアンスとプライバシーセキュリティ監視信頼性データ品質の管理スケーリング復旧手順自動化監視パフォーマンス効率パフォーマンステストサーバーレスサービスパフォーマンス設計パフォーマンス監視コスト最適化コスト監視最適なリソースの選択リソースの動的な割り当てコスト効率の高いワークロード設計監視失敗に備えた設計

プラットフォームエンジニア ワークショップ/ platform-workshop

プラットフォームエンジニア ワークショップ/ platform-workshop

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript

プラットフォームエンジニアワークショップ/ platform-workshop

プラットフォームエンジニアワークショップ/ platform-workshop