Slide 1

Slide 1 text

©2023 Databricks Inc. — All rights reserved Unity Catalogで 実現する真の データガバナンス 2023/11/17 Databricks Japan 弥生 隆明

Slide 2

Slide 2 text

©2023 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明 (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

©2023 Databricks Inc. — All rights reserved 投資 $3B 市場価値は5兆円以上 従業員数 5000+ (3年前は1500人) 収益(ARR) $1B+ (1,360億円) データレイクハウスの 発明者でパイオニア 導入企業数 10000+ レイクハウスカンパニー のクリエーターが 2013年に起業 知る人ぞ知るデカコーン Databricksは2022年 も攻勢を続ける | Coral Capital https://www.databricks.com/jp

Slide 4

Slide 4 text

アジェンダ ● ガバナンスとは? ● Databricksにおけるガバナンスの実現 ● お客様事例 ● ガバナンスの課題と Unity Catalogのアプローチ ● Unity Catalogのベストプラクティス ● まとめ

Slide 5

Slide 5 text

©2023 Databricks Inc. — All rights reserved ガバナンスとは

Slide 6

Slide 6 text

©2023 Databricks Inc. — All rights reserved データガバナンスとは ■ データガバナンスとは、企業のデータ資産をそのライフサイクルを通じて管理するための原 則、プラクティス、ツールから構成される包括的なアプローチのことです。 ■ ビジネス戦略とデータに関連する要件をアラインすることで、データガバナンスは 企業に対して優れたデータ管理、品質、可視性、セキュリティ、コンプライアンスの 能力を提供します。 ■ 効果的なデータガバナンス戦略によって、企業は許可されないアクセスから自身のデータを 保護し、規制の要件によるコンプライアンスを保証しつつも、意思決定に 容易にデータを活用できるようになります。 今ではガバナンスはデータにのみ適用されるものではありません

Slide 7

Slide 7 text

©2023 Databricks Inc. — All rights reserved データとAIのガバナンスが ビジネス価値を生み出します “今ではAIは企業にとって重要なものとなっているため、AIガバナンスは経営層のトピックとして サイバーセキュリティやコンプライアンスに追加されることでしょう” — Forrester, 2023 AI Predictions report “ようやく企業は資産としてのデータの価値を理解し、それらの資産価値を高めるために 保護、管理、維持する必要があることを認識しました” — IDC “AIから高いリターンを得ている企業では、モデル開発プロセスのすべてのステップをカバーする AIガバナンスのフレームワークを所有しています” — The State of AI in 2022, McKinsey & Co

Slide 8

Slide 8 text

©2023 Databricks Inc. — All rights reserved 現在、データやAIのガバナンスは複雑です ファイルに対する権限 テーブル、行・列に対する権限 MLモデル、特徴量に 対する権限 レポート、ダッシュボードに対 する権限 データガバナンスチーム MLエンジニア データエンジニア データアナリスト データ利用者 アプリケーション “データセット、モ デル、ノートブッ ク、ダッシュボード をどのように見つ けたら?” “このデータやML モデルを信頼 していいのか?” “これらの資産を どのように 保護すべき か?” “これらの資産に 対するアクセス や利用をどのよ うに監視すべき か?” “我々は規制の コンプライアンス に準拠している のか?” データレイク データ ウェアハウス MLモデル BIダッシュボード

Slide 9

Slide 9 text

©2023 Databricks Inc. — All rights reserved ML Models BI dashboards Data lake Data warehouse Permissions on files Permissions on tables, rows and columns Permissions on ML models, features Permissions on reports, dashboards Data Governance Team Data scientist Data engineer Data analyst Data Consumers Applications “Where are the datasets, models, notebooks, dashboards that I need?” “Can I trust the data and ML models?” “How to secure these assets?” “Who is accessing these assets and how?” “Are we meeting the regulatory compliance?” 現在、データやAIのガバナンスは複雑です データやAI領域における 断片化したビュー アクセス管理に対して 分断されたツール 不完全な監視と 観測可能性 プラットフォーム横断のデータ 共有の欠如 イノベーション加速 を阻害 データ漏えいリスク、 運用コストの増加 コンプライアンス非準拠のリス ク、評判の毀損 高価なデータ共有、 手付かずの金鉱

Slide 10

Slide 10 text

©2023 Databricks Inc. — All rights reserved 企業はデータとAIに対する 統合的なアプローチを必要とし ています 2026年までには、大企業の20%が個々 のガバナンスプログラムを統合、自動化 するために単一のデータと分析のプラッ トフォームを使うようになるでしょう ©2023 Databricks Inc. — All rights reserved

Slide 11

Slide 11 text

©2023 Databricks Inc. — All rights reserved Databricksにおける ガバナンスの実現

Slide 12

Slide 12 text

©2023 Databricks Inc. — All rights reserved DatabricksレイクハウスはデータとAIの ガバナンスを統合します 外部の計算プラットフォーム BI & データ ウェアハウス データエンジ ニアリング データ ストリーミング データ サイエンス & ML オープンインタフェース Databricks Unity Catalog (UC) 構造化、非構造化のデータ + AIに対する単一のガバナンスモデル データベースやデータウェアハウス クラウドデータレイク すべての構造化、半構造化、非構造化データ 外部カタログ

Slide 13

Slide 13 text

Databricks Unity Catalog (UC) ディスカバリー データ共有 アクセス制御 監査 リネージ モニタリング テーブル ファイル モデル ノート ブック ダッシュボー ド データ & AIに対する統合ガバナンス ユーザー アプリ Databricks Unity Catalog データとAIに対する統合ビュー データとAIに対するシンプルな権限モデル AIで強化された監視と観測可能性 オープンなデータ共有 Databricks Unity Catalog

Slide 14

Slide 14 text

©2023 Databricks Inc. — All rights reserved ML Models BI dashboards Data lake Data warehouse Permissions on files Permissions on tables, rows and columns Permissions on ML models, features Permissions on reports, dashboards Data Governance Team Data scientist Data engineer Data analyst Data Consumers Applications “Where are the datasets, models, notebooks, dashboards that I need?” “Can I trust the data and ML models?” “How to secure these assets?” “Who is accessing these assets and how?” “Are we meeting the regulatory compliance? ” Unity Catalogが価値を解放します データとAIの統合ビュー データとAIに対する シンプルな権限モデル AIで強化された監視と 観測可能性 オープンなデータ共有 イノベーションの加速 プラットフォームの複雑性とコ ストの削減 リスクの低減と コンプライアンスの保証 データの価値の連携と 収益化

Slide 15

Slide 15 text

©2023 Databricks Inc. — All rights reserved データとAIの統合ビュー ■ 構造化データ、非構造化データ、ファイル、ノートブック、ML モデル、ダッシュボードを一つの場所からディスカバリー・ 分類 ■ データを移動、コピーすることなしに、単一の アクセスポイントを用いて他のデータベースやデータウェア ハウスからのデータを統合、クエリー ■ 自動化リネージ、タグ、自動生成されるデータ洞察を用い て、ご自身のデータ領域をより深く理解 ■ 自然言語を用いたご自身のデータやAI資産の検索、 理解、洞察の抽出による生産性の向上

Slide 16

Slide 16 text

©2023 Databricks Inc. — All rights reserved データとAIに対するシンプルな権限モデル ■ 一つの場所ですべてのデータとAI資産に対する アクセスポリシーを管理、監査するための統合され、 シンプルなインタフェースを用いて皆様のデータ資産を保 護 ■ 強化されたセキュリティのために、行や列に対する きめ細かいアクセス制御を有効化 ■ 一つの場所で一貫性を持って管理される権限と オープンなインタフェースを用いた他の計算プラット フォームからセキュアにデータにアクセス

Slide 17

Slide 17 text

©2023 Databricks Inc. — All rights reserved AIで強化された監視と観測可能性 ■ データとMLモデルの品質問題に対するプロアクティブな 警告を受信 ■ 効率的な根本原因分析やインパクト評価のためにカラム レベルにまで追跡できるリアルタイムのデータリネージへのアク セス ■ ステークホルダーとデータとML品質レポートを容易に共有する ための自動生成ダッシュボードの活用 ■ 課金、監査、リネージなどに対する運用インテリジェンスによる 完全なデータとAIの観測可能性の実現

Slide 18

Slide 18 text

©2023 Databricks Inc. — All rights reserved ■ クラウド、リージョン、プラットフォーム横断で複製不要の シームレスなデータ共有のために、 オープンソースのDelta Sharingでベンダーロック インを回避 ■ データ以上のものを共有 - ノートブック、 MLモデル、ダッシュボード、アプリケーション ■ オープンなマーケットプレースでデータ製品の探索と収 益化 ■ スケーラブルなデータクリーンルームで センシティブなデータに対するセキュアな コラボレーション オープンなデータ共有

Slide 19

Slide 19 text

©2023 Databricks Inc. — All rights reserved 豊富なパートナーエコシステム Databricks Unity Catalog BI データガバナンス ©2023 Databricks Inc. — All rights reserved データ連携

Slide 20

Slide 20 text

©2023 Databricks Inc. — All rights reserved 皆様のデータのセキュリティが最優先事項 強化セキュリティ、コンプライアンス HIPAA PCI-DSS FedRAMP Moderate 顧客管理キー プライベート接続と ネットワークセキュリティ Unity Catalog セキュアで信頼される プラットフォームに構築 ベストプラクティスに基づく 計算資源、ネットワーク、 ワークロードの セキュリティコントロール 規制の要件に適合 規制がありセンシティブな ワークロードに対する広範な コンプライアンスコントロールのセット 皆様のデータの保護と コントロール 暗号化キーで皆様のデータを保護 Unity Catalogのきめ細かいアクセスコ ントロールや監査ログを 活用して皆様のデータを統制 20

Slide 21

Slide 21 text

©2023 Databricks Inc. — All rights reserved あらゆる規模の企業からの信頼

Slide 22

Slide 22 text

©2023 Databricks Inc. — All rights reserved お客様事例

Slide 23

Slide 23 text

©2023 Databricks Inc. — All rights reserved 課題 Hiveメタストアによるレガシーな ガバナンスモデルはワークスペース間の データ共有の課題を引き起こして おり、アクセスの分離、重複した ユーザー管理や分断されたガバナンスプ ロセスの工数を強いていました。 ソリューション Unity Catalogは統合されたメタデータカタ ログを提供することで、重複したテーブルの 作成を不要にし、データ 共有をシンプルにします。 テーブルやカラムレベルでのきめ細かいア クセスコントロールを定義する 能力を提供します。 きめ細かいアクセスコントロールに よって 強化された データセキュリティ インパクト “Unity Catalogによる分散データガバナンスはAkamaiのデータ管理、統治のアプローチを変革しました。 Akamaiでは40テラバイトから65テラバイトに至るいくつかの大規模なテーブルを含む 100以上のテーブルの移行に 成功しました。Unity Catalogによって、行・列に対するきめ細かいアクセスコントロールが施された 6ペタバイト以上のデータを管 理、制御できるようになっています。 ”— Gilad Asulin, Big Data Team Leader スケーラブルな 分散データガバナンスの実現 ワークスペース横断で 6PB のデータを管理、制御

Slide 24

Slide 24 text

©2023 Databricks Inc. — All rights reserved 課題 分散されたファイルシステムの アクセスコントロールは困難であり、様々な データソースからのストリーム /バッチによるデータ取り込みによってさら に複雑なものとなり、データから洞察を得る のに4時間のレーテンシーが発生していま した。 ソリューション Unity Catalogによってきめ細かいロー ルベースのアクセスコントロールが可能と なり、権限が維持されていることを検証す るためのリアルタイムのデータリネージを 利用できるようになりました。 15分以内に 50億 のイベントが分析で利用可能に インパクト “Unity Catalogによってデータベースよりも優れた柔軟性でファイル権限を管理できるようになりました。 データリネージによって、我々のデータの使用状況を効果的に関しでき、データプラットフォームチームとして我々が設定した標準 が維持されていることを確認できるようになりました。 ” —Chris Locklin, Engineering Manager, Data Platforms, きめ細かいデータセキュリティによ る迅速な洞察 効果的に データリネージによってデータの利 用をモニタリング

Slide 25

Slide 25 text

©2023 Databricks Inc. — All rights reserved 課題 データカタログではAWS Glue、 アクセスコントロールではAWSのIAMに 依存していました。これは様々なユース ケースにおいて個別のIAMロールを作成 し、特定のクラスターにリンクするというこ とを意味していました。ガバナンスで IAM ロールを使うには管理が困難で、きめ細 かいアクセスコントロールに欠けていまし た。 ソリューション 長期的にはDatabricksのネイティブなガバ ナンスソリューションが必要となりました。 Unity Catalogによって、Amgenの厳密に 制限されたデータセットに対して正確かつ 複雑なガバナンスポリシーを実装する能力 が強化されました。 監査の管理の効率が 50% 改善されました インパクト “Unity Catalogとのインテグレーションによって、 Amgenの厳格なデータセットに対して正確かつ複雑なガバナンス ポリシーを定義する我々の能力が強化されました。この特筆すべき偉業によって、我々のデータエンジニアリング部門で非常に大 きなやる気が引き起こされ、Unity Catalogが中央メタストアやアクセス管理サービスとして動作することで、我々のデータプラット フォームへの投資が増加しました ”— Jaison Dominic, Senior Manager, Information Systems 規制の厳しい業界でエンタープライズレ ベルのガバナンスをデプロイ 20% のDatabricksコスト削減

Slide 26

Slide 26 text

©2023 Databricks Inc. — All rights reserved ガバナンスの課題と Unity Catalogの アプローチ

Slide 27

Slide 27 text

©2023 Databricks Inc. — All rights reserved ガバナンスの課題 ■ 目の前にあるテーブルにどのようなクエリーを行えばいいのかわからない。 ■ 目の前にあるテーブルが作成された経緯がわからず、容易に活用できない。 ■ テーブルの説明文を記載したいが手が回らない。 ■ 特定のテーブルに詳しい専門家が特定できず問い合わせられない。 ■ 特定のテーブルがどこで利用されているのかわからず、更新・削除が行えない。 ■ テーブルだけではなく、機械学習モデルやファイルに対するアクセス制御が煩雑。 ■ データに対するアクセスコントロールの粒度が粗く、セキュリティを高めると分析できない。 データ分析やデータプラットフォームの運用でよくある課題

Slide 28

Slide 28 text

©2023 Databricks Inc. — All rights reserved 目の前にあるテーブルにどのようなクエリーを行え ばいいのかわからない ■ カタログエクスプローラでテーブルにアクセ スし、洞察タブを表示します。 ■ テーブルに対して実行されているクエリーに クイックにアクセスすることができます。 ■ クエリーをクリックすると詳細を確認でき、  をクリックすることでクエリ エディタに移動できます。

Slide 29

Slide 29 text

©2023 Databricks Inc. — All rights reserved 目の前にあるテーブルが作成された経緯が わからず、容易に活用できない ■ カタログエクスプローラでテーブルにアクセ スし、依存関係タブを表示します。依存関係 がUpstreamになっているテーブルから対象 のテーブルが作成されていることがわかりま す。 ■ リネージグラフを表示をクリックすることで、 より視覚的に依存関係を確認することがで きます。

Slide 30

Slide 30 text

©2023 Databricks Inc. — All rights reserved テーブルの説明文を記載したいが 手が回らない ■ カタログエクスプローラでテーブルにアクセ スすると、生成AI(大規模言語モデル)によっ て、(英語ですが)自動で説明文が生成され ます。

Slide 31

Slide 31 text

©2023 Databricks Inc. — All rights reserved 特定のテーブルに詳しい専門家が特定できず問 い合わせられない ■ カタログエクスプローラでテーブルにアクセ スし、洞察タブを表示します。 ■ よく使用するユーザーには、対象のテーブ ルに頻繁にクエリーを実行しているユー ザーが表示されるので、詳細を聞いてみま しょう。

Slide 32

Slide 32 text

©2023 Databricks Inc. — All rights reserved 特定のテーブルがどこで利用されているのかわか らず、更新・削除が行えない ■ カタログエクスプローラでテーブルにアクセ スし、依存関係タブを表示します。 ■ ダウンストリームへの接続でフィルタリングし て、テーブルにアクセスしているダッシュ ボード、ノートブック、クエリーなどを特定しま す。

Slide 33

Slide 33 text

©2023 Databricks Inc. — All rights reserved テーブルだけではなく、機械学習モデルやファイル に対するアクセス制御が煩雑 ■ カタログエクスプローラでは、テーブルだけではなく、機械学習モデルやファイルに対する アクセス制御を同じGUIから行えます。

Slide 34

Slide 34 text

©2023 Databricks Inc. — All rights reserved データに対するアクセスコントロールの粒度が粗 く、セキュリティを高めると分析できない ■ 行フィルター、列マスクを用いることで、行・列レベルのアクセスコントロールが可能です。

Slide 35

Slide 35 text

©2023 Databricks Inc. — All rights reserved Unity Catalogの ベストプラクティス

Slide 36

Slide 36 text

©2023 Databricks Inc. — All rights reserved Unity Catalogのベストプラクティス ■ ユースケースごとのクラスターセキュリティモード ■ ソフトウェア開発ライフサイクル(SDLC)の環境 ■ UCへの段階的な移行

Slide 37

Slide 37 text

©2023 Databricks Inc. — All rights reserved ベストプラクティス1: ユースケースごとのクラスターセ キュリティモード 37

Slide 38

Slide 38 text

©2023 Databricks Inc. — All rights reserved Unity Catalogとクラスター/エンドポイント ユーザー分離モードの共有クラスター ● SQLやPythonを用いた一般的なワークロード(ETL, データ探索...)ではユーザー分離 モードを使用 ● 複数ユーザーが同じクラスターで作業可能 シングルユーザーモードの標準クラスター ● Scalaユーザーとデータサイエンティストはシングルユーザーモードを使用 ● MLflowを含むML Runtimeをサポート ● このクラスターのオーナーのみがコードを実行できるので、ノートブック コラボレーションにおいては、共同作業者は全てを参照できますが、セルを実行することはで きません。 ● 制限 ○ ビューへのアクセスには背後のテーブルに対するアクセス権が必要です ○ ダイナミックビュー (例: 行列レベルのセキュリティ)はサポートされません SQLウェアハウス ● Databricks SQL EditorやPower BI, Tableauような外部BIツールを用いているビジネスアナ リストはSQLウェアハウスを使用 システムアカウント (AzureのサービスプリンシパルやマネージドID、AWSのIAM ロール、GCPのサービスアカウント) Delta Lake Databricks ワークスペース ユーザー分離 モード クラスター SQL + Python SQL ウェアハウス SQL Unity Catalog シングル ユーザモード クラスター SQL, Python, Scala, R メタデータ, ACLチェック メタデータ, ACLチェック メタデータ, ACLチェック トークン 経由のread/write トークン 経由のread/write トークン 経由のread/write 38 注意: 共有クラスターにおける MLランタイムとMLFlowのサポートは開発中です

Slide 39

Slide 39 text

©2023 Databricks Inc. — All rights reserved ベストプラクティス2: ソフトウェア開発ライフサイクル (SDLC)の環境 39

Slide 40

Slide 40 text

©2023 Databricks Inc. — All rights reserved ● お客様は開発のそれぞれのステージで異なる環境を使用します。最小の構成では2つの環境「開発&テス ト」と「プロダクション」を持ちます。 ● また、多くのお客様は「開発&テスト」を2つ以上の環境:「開発」と「テスト」、「QA」、 「ステージング」、「インテグレーション」などのような2つ以上の環境に分割します。 ● このシナリオでは “DEV” - “STG” - “PRD” 環境を説明しますが、このアプローチはお客様の環境に応じて より多くあるいはより少ない環境でも動作します。 ● また、多くのエンタープライズのお客様は異なるストレージコンテナ、VNet/VPCとDatabricksワークスペー スからこれらの環境を分離することができます。 シナリオ: ソフトウェア開発ライフサイクル DEV ワークスペース PRD ワークスペース STG ワークスペース DEV ストレージコンテナ PRD ストレージコンテナ STG ストレージコンテナ Databricks クラウド ストレージ

Slide 41

Slide 41 text

©2023 Databricks Inc. — All rights reserved アプローチ: ● クラウドリージョンあたりのメタストアは1つのみであり、これは関連する すべてのSDLCワークスペース(DEV, STG, PRD, …)で使用されます。 ● Unity Catalogの3レベル名前空間のカタログレベルで環境を分離しま す。 ○ DEVカタログは“DEVデータ”のロケーションをカバー ○ PRDカタログは“PRDデータ”のロケーションをカバー ● カタログはSDLCとビジネス/組織ユニット名の組み合わせにすることが できます。例: sales_dev, sales_prd, engineering_dev ● ワークスペース、クラスター、エンドポイントへのアクセスは それに合わせて設定する必要があります。 右の例: ● ユーザー (開発者、データエンジニア、データサイエンティスト)はDEV ワークスペースで開発し、DEVデータへのread/writeが許可されていま す。オプションとして、PRDデータへのread-onlyアクセスを持ちます。 ● PRDデータ、データベースとテーブルは、サービスアカウントが実行する スケジュールジョブあるいはCI/CDが起動したジョブで作成されます。 ● ユーザー(例: ビジネスアナリスト)はProdワークスペースで稼働してい るDatabricks SQL上のBIツール経由でPRDデータにアクセスします。 イラストをシンプルにするために DEVとPRDのみを表示しています UCによるソフトウェア開発ライフサイクル環境 41 Users Unity メタストア DEV ワークスペース PRD ワークスペース ワークロード ワークロード PRD カタログ DEV カタログ Delta Lake DEV データ PRD データ トークン経由の read/write へのアクセスを許可 へのアクセスを許可 UCのDEVシステムアカウント UCのPRODシステムアカウント DEVとProdで作業するユーザーグループ PRDでのジョブを実行するシステムアカウント 割当 Users トークン経由の read/write DEVデータのテーブルへ のフルアクセスを に 許可 PRDデータのテーブルへのフルアク セスを に許可 オプション: PRDデータのテーブルへ のread-onlyアクセスを に許 可 メタデータア クセス メタデータア クセス

Slide 42

Slide 42 text

©2023 Databricks Inc. — All rights reserved ベストプラクティス3: UCへの段階的な移行 42

Slide 43

Slide 43 text

©2023 Databricks Inc. — All rights reserved シナリオ: Unity Catalogへの段階的移行 43 現在の状況 • 多くのお客様にとって、当初はUCは彼らの既存のユースケースを完全にサポートしていませんでした(ベス トな候補となるユースケースはBI周辺のものでした)。 • 大規模なお客様 (10から100のワークスペースを持つAzureでは特に) はワークロードを問わないビッグバ ン型の移行はしません。 近い将来の状況 • 両方の世界 (UCに保護されたDatabricksと“クラシック”なDatabricksの世界)はしばらくの間共存する必 要があります。

Slide 44

Slide 44 text

©2023 Databricks Inc. — All rights reserved “BIファースト”の移行アプローチ 44 BIのユースケースはUnity Catalogで最もサポートされているものであり、それらがすでにDatabricks SQL上で実 装されている場合にはベストなものと言えます。 この移行アプローチの背後にある考え方は、2つのセキュリティゾーンを定義するというものです。 ● UCゾーン きめ細かい権限管理によってUnity Catalogによってすべてのアクセスが管理されます。 ● 非UCゾーン ビジネス上の理由や技術的理由によって移行できないプロジェクトは、よく知られている標準 クラスターの世界にとどまり、後で移行されます。

Slide 45

Slide 45 text

©2023 Databricks Inc. — All rights reserved 非UCゾーン Databricks ワークスペース Hive メタストア アプローチ 1. データを以下の用途のバケット /コンテナに分割 ○ プロジェクトデータ: 移行されないプロジェクトのデータの ロケーション ○ 共通データ(オプション): 例としては公開データ (気候、社会統計 データなど)や機密性の低い企業データ ○ 機密データ: 非UCゾーンのワークスペースからの直接アクセスは 不可であり、UCゾーンユーザー向けにきめ細かい セキュリティを提供 ○ 2. 2つのゾーンの作成 ○ 一つは移行されたすべてのユースケースやプロジェクトのために Unity Catalogで保護 (必要であれば”機密データ”に移行された データやHiveメタストアからUCに移行されたメタデータ ) ○ 一つは”クラシック”ワークスペースとセキュリティをベースとした移 行されないプロジェクト向けのもの 3. 異なるデータロケーションに対して異なるシステムアカウントを 使用 UCゾーン Databricks ワークスペース Delta Lake ハイレベルの2ゾーン環境 45 Unity Catalog セキュアモードク ラスター Scala, Rや シングルユーザーの DS/ML 標準クラスター DSなど プロジェクト データ 共通データ (オプション) アクセス コントロール (r/o) 機密データ Unity メタストア gold bronze silver Ingest Curated (Layer of Truth) Final 共通データ (オプション) 機密データ

Slide 46

Slide 46 text

©2023 Databricks Inc. — All rights reserved プロジェクトで”機密データ”のようなデータを必要とすることがあります。し かし、セキュリティ上の理由から直接アクセスすることはできません。 オプション (優先度の順序はありません ): ● Delta Sharing ● UCゾーンのDB SQLにPATを用いてDatabricks Pythonコネクターを 使用 注意: ● 機密データが”(存在する場合)共通データ”経由でUCゾーンに流入す るのを防ぐために、非 UCゾーンのユーザーに対しては ”共通データ” を読み取り専用にすることを検討してください。 ● AzureユーザーはAADトークンを好みます。コネクターは AADトークン でも動作しますが、ユーザーの AADトークンの作成は関連プロセスに 組み込まれ、通常はエンドユーザーは選択できません。 Non-UC-Zone UC-Zone Databricks ワークスペース Databricks ワークスペース Delta Lake 2ゾーン環境: UC保護のデータへのアクセス 46 Unity Catalog セキュアモードク ラスター Scala, Rやシングル ユーザーのDS/ML 標準クラスター DSなど プロジェクト データ 共通データ (オプション) アクセス コントロール 機密データ Hive メタストア Unity メタストア 1 1 2 2 (r/o)

Slide 47

Slide 47 text

©2023 Databricks Inc. — All rights reserved まとめ

Slide 48

Slide 48 text

©2023 Databricks Inc. — All rights reserved Unity Catalogによる真のガバナンスの実現 ■ 冒頭からお伝えしているように、今ではガバナンスはデータ(テーブル)のみに適用される べきものではなく、ファイルや機械学習モデル、処理ロジック(ノートブック)、ダッシュボード など、データやAIの活用に必要となるあらゆるコンポーネントに対して適用する必要があり ます。 ■ しかし、これらの個別のオブジェクトに個別のソリューションを適用したとしても、すぐに運 用が破綻することは想像に難くありません。 ■ DatabricksのUnity Catalogを活用することで、これらの課題に容易に対応することがで きることを感じていただけたら幸いです。皆様のデータと(生成AIを含む)AIの取り組みを支 援するために、継続的にUnity Catalogを改善してまいります。是非ご活用ください! Unity CatalogはデータとAIに対するガバナンスを実現します

Slide 49

Slide 49 text

©2023 Databricks Inc. — All rights reserved