Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データブリックスのUnity Catalogで実現する真のデータガバナンス

データブリックスのUnity Catalogで実現する真のデータガバナンス

こちらのウェビナーで説明したスライドです。

データブリックスのUnity Catalog で実現する真のデータガバナンス https://events.databricks.com/20231027-unitycatalog-jp

データブリックスのUnity Catalogで実現する真のデータガバナンス #Databricks - Qiita https://qiita.com/taka_yayoi/items/530c922528e4269120bf

Takaaki Yayoi

May 13, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2023 Databricks Inc. — All rights reserved Unity Catalogで 実現する真の

    データガバナンス 2023/11/17 Databricks Japan 弥生 隆明
  2. ©2023 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  3. ©2023 Databricks Inc. — All rights reserved 投資 $3B 市場価値は5兆円以上

    従業員数 5000+ (3年前は1500人) 収益(ARR) $1B+ (1,360億円) データレイクハウスの 発明者でパイオニア 導入企業数 10000+ レイクハウスカンパニー のクリエーターが 2013年に起業 知る人ぞ知るデカコーン Databricksは2022年 も攻勢を続ける | Coral Capital https://www.databricks.com/jp
  4. ©2023 Databricks Inc. — All rights reserved データガバナンスとは ▪ データガバナンスとは、企業のデータ資産をそのライフサイクルを通じて管理するための原

    則、プラクティス、ツールから構成される包括的なアプローチのことです。 ▪ ビジネス戦略とデータに関連する要件をアラインすることで、データガバナンスは 企業に対して優れたデータ管理、品質、可視性、セキュリティ、コンプライアンスの 能力を提供します。 ▪ 効果的なデータガバナンス戦略によって、企業は許可されないアクセスから自身のデータを 保護し、規制の要件によるコンプライアンスを保証しつつも、意思決定に 容易にデータを活用できるようになります。 今ではガバナンスはデータにのみ適用されるものではありません
  5. ©2023 Databricks Inc. — All rights reserved データとAIのガバナンスが ビジネス価値を生み出します “今ではAIは企業にとって重要なものとなっているため、AIガバナンスは経営層のトピックとして

    サイバーセキュリティやコンプライアンスに追加されることでしょう” — Forrester, 2023 AI Predictions report “ようやく企業は資産としてのデータの価値を理解し、それらの資産価値を高めるために 保護、管理、維持する必要があることを認識しました” — IDC “AIから高いリターンを得ている企業では、モデル開発プロセスのすべてのステップをカバーする AIガバナンスのフレームワークを所有しています” — The State of AI in 2022, McKinsey & Co
  6. ©2023 Databricks Inc. — All rights reserved 現在、データやAIのガバナンスは複雑です ファイルに対する権限 テーブル、行・列に対する権限

    MLモデル、特徴量に 対する権限 レポート、ダッシュボードに対 する権限 データガバナンスチーム MLエンジニア データエンジニア データアナリスト データ利用者 アプリケーション “データセット、モ デル、ノートブッ ク、ダッシュボード をどのように見つ けたら?” “このデータやML モデルを信頼 していいのか?” “これらの資産を どのように 保護すべき か?” “これらの資産に 対するアクセス や利用をどのよ うに監視すべき か?” “我々は規制の コンプライアンス に準拠している のか?” データレイク データ ウェアハウス MLモデル BIダッシュボード
  7. ©2023 Databricks Inc. — All rights reserved ML Models BI

    dashboards Data lake Data warehouse Permissions on files Permissions on tables, rows and columns Permissions on ML models, features Permissions on reports, dashboards Data Governance Team Data scientist Data engineer Data analyst Data Consumers Applications “Where are the datasets, models, notebooks, dashboards that I need?” “Can I trust the data and ML models?” “How to secure these assets?” “Who is accessing these assets and how?” “Are we meeting the regulatory compliance?” 現在、データやAIのガバナンスは複雑です データやAI領域における 断片化したビュー アクセス管理に対して 分断されたツール 不完全な監視と 観測可能性 プラットフォーム横断のデータ 共有の欠如 イノベーション加速 を阻害 データ漏えいリスク、 運用コストの増加 コンプライアンス非準拠のリス ク、評判の毀損 高価なデータ共有、 手付かずの金鉱
  8. ©2023 Databricks Inc. — All rights reserved 企業はデータとAIに対する 統合的なアプローチを必要とし ています

    2026年までには、大企業の20%が個々 のガバナンスプログラムを統合、自動化 するために単一のデータと分析のプラッ トフォームを使うようになるでしょう ©2023 Databricks Inc. — All rights reserved
  9. ©2023 Databricks Inc. — All rights reserved DatabricksレイクハウスはデータとAIの ガバナンスを統合します 外部の計算プラットフォーム

    BI & データ ウェアハウス データエンジ ニアリング データ ストリーミング データ サイエンス & ML オープンインタフェース Databricks Unity Catalog (UC) 構造化、非構造化のデータ + AIに対する単一のガバナンスモデル データベースやデータウェアハウス クラウドデータレイク すべての構造化、半構造化、非構造化データ 外部カタログ
  10. Databricks Unity Catalog (UC) ディスカバリー データ共有 アクセス制御 監査 リネージ モニタリング

    テーブル ファイル モデル ノート ブック ダッシュボー ド データ & AIに対する統合ガバナンス ユーザー アプリ Databricks Unity Catalog データとAIに対する統合ビュー データとAIに対するシンプルな権限モデル AIで強化された監視と観測可能性 オープンなデータ共有 Databricks Unity Catalog
  11. ©2023 Databricks Inc. — All rights reserved ML Models BI

    dashboards Data lake Data warehouse Permissions on files Permissions on tables, rows and columns Permissions on ML models, features Permissions on reports, dashboards Data Governance Team Data scientist Data engineer Data analyst Data Consumers Applications “Where are the datasets, models, notebooks, dashboards that I need?” “Can I trust the data and ML models?” “How to secure these assets?” “Who is accessing these assets and how?” “Are we meeting the regulatory compliance? ” Unity Catalogが価値を解放します データとAIの統合ビュー データとAIに対する シンプルな権限モデル AIで強化された監視と 観測可能性 オープンなデータ共有 イノベーションの加速 プラットフォームの複雑性とコ ストの削減 リスクの低減と コンプライアンスの保証 データの価値の連携と 収益化
  12. ©2023 Databricks Inc. — All rights reserved データとAIの統合ビュー ▪ 構造化データ、非構造化データ、ファイル、ノートブック、ML

    モデル、ダッシュボードを一つの場所からディスカバリー・ 分類 ▪ データを移動、コピーすることなしに、単一の アクセスポイントを用いて他のデータベースやデータウェア ハウスからのデータを統合、クエリー ▪ 自動化リネージ、タグ、自動生成されるデータ洞察を用い て、ご自身のデータ領域をより深く理解 ▪ 自然言語を用いたご自身のデータやAI資産の検索、 理解、洞察の抽出による生産性の向上
  13. ©2023 Databricks Inc. — All rights reserved データとAIに対するシンプルな権限モデル ▪ 一つの場所ですべてのデータとAI資産に対する

    アクセスポリシーを管理、監査するための統合され、 シンプルなインタフェースを用いて皆様のデータ資産を保 護 ▪ 強化されたセキュリティのために、行や列に対する きめ細かいアクセス制御を有効化 ▪ 一つの場所で一貫性を持って管理される権限と オープンなインタフェースを用いた他の計算プラット フォームからセキュアにデータにアクセス
  14. ©2023 Databricks Inc. — All rights reserved AIで強化された監視と観測可能性 ▪ データとMLモデルの品質問題に対するプロアクティブな

    警告を受信 ▪ 効率的な根本原因分析やインパクト評価のためにカラム レベルにまで追跡できるリアルタイムのデータリネージへのアク セス ▪ ステークホルダーとデータとML品質レポートを容易に共有する ための自動生成ダッシュボードの活用 ▪ 課金、監査、リネージなどに対する運用インテリジェンスによる 完全なデータとAIの観測可能性の実現
  15. ©2023 Databricks Inc. — All rights reserved ▪ クラウド、リージョン、プラットフォーム横断で複製不要の シームレスなデータ共有のために、

    オープンソースのDelta Sharingでベンダーロック インを回避 ▪ データ以上のものを共有 - ノートブック、 MLモデル、ダッシュボード、アプリケーション ▪ オープンなマーケットプレースでデータ製品の探索と収 益化 ▪ スケーラブルなデータクリーンルームで センシティブなデータに対するセキュアな コラボレーション オープンなデータ共有
  16. ©2023 Databricks Inc. — All rights reserved 豊富なパートナーエコシステム Databricks Unity

    Catalog BI データガバナンス ©2023 Databricks Inc. — All rights reserved データ連携
  17. ©2023 Databricks Inc. — All rights reserved 皆様のデータのセキュリティが最優先事項 強化セキュリティ、コンプライアンス HIPAA

    PCI-DSS FedRAMP Moderate 顧客管理キー プライベート接続と ネットワークセキュリティ Unity Catalog セキュアで信頼される プラットフォームに構築 ベストプラクティスに基づく 計算資源、ネットワーク、 ワークロードの セキュリティコントロール 規制の要件に適合 規制がありセンシティブな ワークロードに対する広範な コンプライアンスコントロールのセット 皆様のデータの保護と コントロール 暗号化キーで皆様のデータを保護 Unity Catalogのきめ細かいアクセスコ ントロールや監査ログを 活用して皆様のデータを統制 20
  18. ©2023 Databricks Inc. — All rights reserved 課題 Hiveメタストアによるレガシーな ガバナンスモデルはワークスペース間の

    データ共有の課題を引き起こして おり、アクセスの分離、重複した ユーザー管理や分断されたガバナンスプ ロセスの工数を強いていました。 ソリューション Unity Catalogは統合されたメタデータカタ ログを提供することで、重複したテーブルの 作成を不要にし、データ 共有をシンプルにします。 テーブルやカラムレベルでのきめ細かいア クセスコントロールを定義する 能力を提供します。 きめ細かいアクセスコントロールに よって 強化された データセキュリティ インパクト “Unity Catalogによる分散データガバナンスはAkamaiのデータ管理、統治のアプローチを変革しました。 Akamaiでは40テラバイトから65テラバイトに至るいくつかの大規模なテーブルを含む 100以上のテーブルの移行に 成功しました。Unity Catalogによって、行・列に対するきめ細かいアクセスコントロールが施された 6ペタバイト以上のデータを管 理、制御できるようになっています。 ”— Gilad Asulin, Big Data Team Leader スケーラブルな 分散データガバナンスの実現 ワークスペース横断で 6PB のデータを管理、制御
  19. ©2023 Databricks Inc. — All rights reserved 課題 分散されたファイルシステムの アクセスコントロールは困難であり、様々な

    データソースからのストリーム /バッチによるデータ取り込みによってさら に複雑なものとなり、データから洞察を得る のに4時間のレーテンシーが発生していま した。 ソリューション Unity Catalogによってきめ細かいロー ルベースのアクセスコントロールが可能と なり、権限が維持されていることを検証す るためのリアルタイムのデータリネージを 利用できるようになりました。 15分以内に 50億 のイベントが分析で利用可能に インパクト “Unity Catalogによってデータベースよりも優れた柔軟性でファイル権限を管理できるようになりました。 データリネージによって、我々のデータの使用状況を効果的に関しでき、データプラットフォームチームとして我々が設定した標準 が維持されていることを確認できるようになりました。 ” —Chris Locklin, Engineering Manager, Data Platforms, きめ細かいデータセキュリティによ る迅速な洞察 効果的に データリネージによってデータの利 用をモニタリング
  20. ©2023 Databricks Inc. — All rights reserved 課題 データカタログではAWS Glue、

    アクセスコントロールではAWSのIAMに 依存していました。これは様々なユース ケースにおいて個別のIAMロールを作成 し、特定のクラスターにリンクするというこ とを意味していました。ガバナンスで IAM ロールを使うには管理が困難で、きめ細 かいアクセスコントロールに欠けていまし た。 ソリューション 長期的にはDatabricksのネイティブなガバ ナンスソリューションが必要となりました。 Unity Catalogによって、Amgenの厳密に 制限されたデータセットに対して正確かつ 複雑なガバナンスポリシーを実装する能力 が強化されました。 監査の管理の効率が 50% 改善されました インパクト “Unity Catalogとのインテグレーションによって、 Amgenの厳格なデータセットに対して正確かつ複雑なガバナンス ポリシーを定義する我々の能力が強化されました。この特筆すべき偉業によって、我々のデータエンジニアリング部門で非常に大 きなやる気が引き起こされ、Unity Catalogが中央メタストアやアクセス管理サービスとして動作することで、我々のデータプラット フォームへの投資が増加しました ”— Jaison Dominic, Senior Manager, Information Systems 規制の厳しい業界でエンタープライズレ ベルのガバナンスをデプロイ 20% のDatabricksコスト削減
  21. ©2023 Databricks Inc. — All rights reserved ガバナンスの課題 ▪ 目の前にあるテーブルにどのようなクエリーを行えばいいのかわからない。

    ▪ 目の前にあるテーブルが作成された経緯がわからず、容易に活用できない。 ▪ テーブルの説明文を記載したいが手が回らない。 ▪ 特定のテーブルに詳しい専門家が特定できず問い合わせられない。 ▪ 特定のテーブルがどこで利用されているのかわからず、更新・削除が行えない。 ▪ テーブルだけではなく、機械学習モデルやファイルに対するアクセス制御が煩雑。 ▪ データに対するアクセスコントロールの粒度が粗く、セキュリティを高めると分析できない。 データ分析やデータプラットフォームの運用でよくある課題
  22. ©2023 Databricks Inc. — All rights reserved 目の前にあるテーブルにどのようなクエリーを行え ばいいのかわからない ▪

    カタログエクスプローラでテーブルにアクセ スし、洞察タブを表示します。 ▪ テーブルに対して実行されているクエリーに クイックにアクセスすることができます。 ▪ クエリーをクリックすると詳細を確認でき、  をクリックすることでクエリ エディタに移動できます。
  23. ©2023 Databricks Inc. — All rights reserved 目の前にあるテーブルが作成された経緯が わからず、容易に活用できない ▪

    カタログエクスプローラでテーブルにアクセ スし、依存関係タブを表示します。依存関係 がUpstreamになっているテーブルから対象 のテーブルが作成されていることがわかりま す。 ▪ リネージグラフを表示をクリックすることで、 より視覚的に依存関係を確認することがで きます。
  24. ©2023 Databricks Inc. — All rights reserved テーブルの説明文を記載したいが 手が回らない ▪

    カタログエクスプローラでテーブルにアクセ スすると、生成AI(大規模言語モデル)によっ て、(英語ですが)自動で説明文が生成され ます。
  25. ©2023 Databricks Inc. — All rights reserved 特定のテーブルに詳しい専門家が特定できず問 い合わせられない ▪

    カタログエクスプローラでテーブルにアクセ スし、洞察タブを表示します。 ▪ よく使用するユーザーには、対象のテーブ ルに頻繁にクエリーを実行しているユー ザーが表示されるので、詳細を聞いてみま しょう。
  26. ©2023 Databricks Inc. — All rights reserved 特定のテーブルがどこで利用されているのかわか らず、更新・削除が行えない ▪

    カタログエクスプローラでテーブルにアクセ スし、依存関係タブを表示します。 ▪ ダウンストリームへの接続でフィルタリングし て、テーブルにアクセスしているダッシュ ボード、ノートブック、クエリーなどを特定しま す。
  27. ©2023 Databricks Inc. — All rights reserved テーブルだけではなく、機械学習モデルやファイル に対するアクセス制御が煩雑 ▪

    カタログエクスプローラでは、テーブルだけではなく、機械学習モデルやファイルに対する アクセス制御を同じGUIから行えます。
  28. ©2023 Databricks Inc. — All rights reserved データに対するアクセスコントロールの粒度が粗 く、セキュリティを高めると分析できない ▪

    行フィルター、列マスクを用いることで、行・列レベルのアクセスコントロールが可能です。
  29. ©2023 Databricks Inc. — All rights reserved Unity Catalogのベストプラクティス ▪

    ユースケースごとのクラスターセキュリティモード ▪ ソフトウェア開発ライフサイクル(SDLC)の環境 ▪ UCへの段階的な移行
  30. ©2023 Databricks Inc. — All rights reserved Unity Catalogとクラスター/エンドポイント ユーザー分離モードの共有クラスター

    • SQLやPythonを用いた一般的なワークロード(ETL, データ探索...)ではユーザー分離 モードを使用 • 複数ユーザーが同じクラスターで作業可能 シングルユーザーモードの標準クラスター • Scalaユーザーとデータサイエンティストはシングルユーザーモードを使用 • MLflowを含むML Runtimeをサポート • このクラスターのオーナーのみがコードを実行できるので、ノートブック コラボレーションにおいては、共同作業者は全てを参照できますが、セルを実行することはで きません。 • 制限 ◦ ビューへのアクセスには背後のテーブルに対するアクセス権が必要です ◦ ダイナミックビュー (例: 行列レベルのセキュリティ)はサポートされません SQLウェアハウス • Databricks SQL EditorやPower BI, Tableauような外部BIツールを用いているビジネスアナ リストはSQLウェアハウスを使用 <SA> システムアカウント (AzureのサービスプリンシパルやマネージドID、AWSのIAM ロール、GCPのサービスアカウント) Delta Lake Databricks ワークスペース ユーザー分離 モード クラスター SQL + Python SQL ウェアハウス SQL Unity Catalog シングル ユーザモード クラスター SQL, Python, Scala, R メタデータ, ACLチェック メタデータ, ACLチェック メタデータ, ACLチェック <SA>トークン 経由のread/write <SA>トークン 経由のread/write <SA>トークン 経由のread/write 38 注意: 共有クラスターにおける MLランタイムとMLFlowのサポートは開発中です
  31. ©2023 Databricks Inc. — All rights reserved • お客様は開発のそれぞれのステージで異なる環境を使用します。最小の構成では2つの環境「開発&テス ト」と「プロダクション」を持ちます。

    • また、多くのお客様は「開発&テスト」を2つ以上の環境:「開発」と「テスト」、「QA」、 「ステージング」、「インテグレーション」などのような2つ以上の環境に分割します。 • このシナリオでは “DEV” - “STG” - “PRD” 環境を説明しますが、このアプローチはお客様の環境に応じて より多くあるいはより少ない環境でも動作します。 • また、多くのエンタープライズのお客様は異なるストレージコンテナ、VNet/VPCとDatabricksワークスペー スからこれらの環境を分離することができます。 シナリオ: ソフトウェア開発ライフサイクル DEV ワークスペース PRD ワークスペース STG ワークスペース DEV ストレージコンテナ PRD ストレージコンテナ STG ストレージコンテナ Databricks クラウド ストレージ
  32. ©2023 Databricks Inc. — All rights reserved アプローチ: • クラウドリージョンあたりのメタストアは1つのみであり、これは関連する

    すべてのSDLCワークスペース(DEV, STG, PRD, …)で使用されます。 • Unity Catalogの3レベル名前空間のカタログレベルで環境を分離しま す。 ◦ DEVカタログは“DEVデータ”のロケーションをカバー ◦ PRDカタログは“PRDデータ”のロケーションをカバー • カタログはSDLCとビジネス/組織ユニット名の組み合わせにすることが できます。例: sales_dev, sales_prd, engineering_dev • ワークスペース、クラスター、エンドポイントへのアクセスは それに合わせて設定する必要があります。 右の例: • ユーザー (開発者、データエンジニア、データサイエンティスト)はDEV ワークスペースで開発し、DEVデータへのread/writeが許可されていま す。オプションとして、PRDデータへのread-onlyアクセスを持ちます。 • PRDデータ、データベースとテーブルは、サービスアカウントが実行する スケジュールジョブあるいはCI/CDが起動したジョブで作成されます。 • ユーザー(例: ビジネスアナリスト)はProdワークスペースで稼働してい るDatabricks SQL上のBIツール経由でPRDデータにアクセスします。 イラストをシンプルにするために DEVとPRDのみを表示しています UCによるソフトウェア開発ライフサイクル環境 41 Users Unity メタストア DEV ワークスペース PRD ワークスペース ワークロード ワークロード PRD カタログ DEV カタログ Delta Lake DEV データ PRD データ <PA> トークン経由の read/write <PA>へのアクセスを許可 <DA>へのアクセスを許可 <DA> UCのDEVシステムアカウント <PA> UCのPRODシステムアカウント <UG>DEVとProdで作業するユーザーグループ <JA> PRDでのジョブを実行するシステムアカウント 割当 Users <DA>トークン経由の read/write DEVデータのテーブルへ のフルアクセスを <UG>に 許可 PRDデータのテーブルへのフルアク セスを <JA>に許可 オプション: PRDデータのテーブルへ のread-onlyアクセスを <UG>に許 可 メタデータア クセス メタデータア クセス
  33. ©2023 Databricks Inc. — All rights reserved シナリオ: Unity Catalogへの段階的移行

    43 現在の状況 • 多くのお客様にとって、当初はUCは彼らの既存のユースケースを完全にサポートしていませんでした(ベス トな候補となるユースケースはBI周辺のものでした)。 • 大規模なお客様 (10から100のワークスペースを持つAzureでは特に) はワークロードを問わないビッグバ ン型の移行はしません。 近い将来の状況 • 両方の世界 (UCに保護されたDatabricksと“クラシック”なDatabricksの世界)はしばらくの間共存する必 要があります。
  34. ©2023 Databricks Inc. — All rights reserved “BIファースト”の移行アプローチ 44 BIのユースケースはUnity

    Catalogで最もサポートされているものであり、それらがすでにDatabricks SQL上で実 装されている場合にはベストなものと言えます。 この移行アプローチの背後にある考え方は、2つのセキュリティゾーンを定義するというものです。 • UCゾーン きめ細かい権限管理によってUnity Catalogによってすべてのアクセスが管理されます。 • 非UCゾーン ビジネス上の理由や技術的理由によって移行できないプロジェクトは、よく知られている標準 クラスターの世界にとどまり、後で移行されます。
  35. ©2023 Databricks Inc. — All rights reserved 非UCゾーン Databricks ワークスペース

    Hive メタストア アプローチ 1. データを以下の用途のバケット /コンテナに分割 ◦ プロジェクトデータ: 移行されないプロジェクトのデータの ロケーション ◦ 共通データ(オプション): 例としては公開データ (気候、社会統計 データなど)や機密性の低い企業データ ◦ 機密データ: 非UCゾーンのワークスペースからの直接アクセスは 不可であり、UCゾーンユーザー向けにきめ細かい セキュリティを提供 ◦ 2. 2つのゾーンの作成 ◦ 一つは移行されたすべてのユースケースやプロジェクトのために Unity Catalogで保護 (必要であれば”機密データ”に移行された データやHiveメタストアからUCに移行されたメタデータ ) ◦ 一つは”クラシック”ワークスペースとセキュリティをベースとした移 行されないプロジェクト向けのもの 3. 異なるデータロケーションに対して異なるシステムアカウントを 使用 UCゾーン Databricks ワークスペース Delta Lake ハイレベルの2ゾーン環境 45 Unity Catalog セキュアモードク ラスター Scala, Rや シングルユーザーの DS/ML 標準クラスター DSなど <SA 2> プロジェクト データ 共通データ (オプション) アクセス コントロール <SA 1> <SA 4> (r/o) 機密データ <SA 3> Unity メタストア gold bronze silver Ingest Curated (Layer of Truth) Final 共通データ (オプション) 機密データ
  36. ©2023 Databricks Inc. — All rights reserved プロジェクトで”機密データ”のようなデータを必要とすることがあります。し かし、セキュリティ上の理由から直接アクセスすることはできません。 オプション

    (優先度の順序はありません ): • Delta Sharing • UCゾーンのDB SQLにPATを用いてDatabricks Pythonコネクターを 使用 注意: • 機密データが”(存在する場合)共通データ”経由でUCゾーンに流入す るのを防ぐために、非 UCゾーンのユーザーに対しては ”共通データ” を読み取り専用にすることを検討してください。 • AzureユーザーはAADトークンを好みます。コネクターは AADトークン でも動作しますが、ユーザーの AADトークンの作成は関連プロセスに 組み込まれ、通常はエンドユーザーは選択できません。 Non-UC-Zone UC-Zone Databricks ワークスペース Databricks ワークスペース Delta Lake 2ゾーン環境: UC保護のデータへのアクセス 46 Unity Catalog セキュアモードク ラスター Scala, Rやシングル ユーザーのDS/ML 標準クラスター DSなど プロジェクト データ 共通データ (オプション) アクセス コントロール 機密データ Hive メタストア Unity メタストア 1 1 2 2 <SA 1> <SA 3> <SA 2> <SA 4> (r/o)
  37. ©2023 Databricks Inc. — All rights reserved Unity Catalogによる真のガバナンスの実現 ▪

    冒頭からお伝えしているように、今ではガバナンスはデータ(テーブル)のみに適用される べきものではなく、ファイルや機械学習モデル、処理ロジック(ノートブック)、ダッシュボード など、データやAIの活用に必要となるあらゆるコンポーネントに対して適用する必要があり ます。 ▪ しかし、これらの個別のオブジェクトに個別のソリューションを適用したとしても、すぐに運 用が破綻することは想像に難くありません。 ▪ DatabricksのUnity Catalogを活用することで、これらの課題に容易に対応することがで きることを感じていただけたら幸いです。皆様のデータと(生成AIを含む)AIの取り組みを支 援するために、継続的にUnity Catalogを改善してまいります。是非ご活用ください! Unity CatalogはデータとAIに対するガバナンスを実現します