Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Microsoft Purview Data Governance について

Ryoma Nagata
June 14, 2024
630

Microsoft Purview Data Governance について

Microsoft Purview Data Governance をひも解きます

Ryoma Nagata

June 14, 2024
Tweet

Transcript

  1. Microsoft MVP for Data Platform 永田 亮磨 (ZEAL CORPORATION) X:

    @ryomaru0825 Linkedin: ryoma-nagata-0825 Qiita: ryoma-nagata Microsoft Purview Data Governanceについて
  2. Microsoft Purview = M365 コンプライアンスソリューション + Azure Purview Microsoft Purview

    とは? | Microsoft Learn Azure Purview M365 コンプライアンスソリューション 統合、リブランディング データ損失防止 内部リスク管理 情報保護 メタデータの自動収集・管理 データカタログ データアクセスポリシー データライフサイクル管理 電子情報開示と監査 コミュニケーションコンプライアンス
  3. 従来のソリューションとのマッピング Microsoft Purview ポータル (https://purview.microsoft.com/home/applauncher) From Azure Purview From M365

    コンプライアンスソリューション From M365 コンプライアンス ソリューション From Azure Purview From Azure Purview From Azure Purview From M365 コンプライアンス ソリューション From M365 コンプライアンスソリューション コンプライアンスとデータ ガバナンスの未来はここにあります: Microsoft Purview の概要 |Microsoft セキュリティ ブログ
  4. Microsoft Purview データガバナンス 全体像 データマップ データ資産のスキャン・詳細なメタデータの付与を行い、組織全体のデー タ資産を管理する データカタログ データ資産をビジネスの文脈で整理・管理し、 利用価値を生み出す

    オンプレミス マルチクラウド SaaS アプリケーション Microsoft Purview データガバナンス ビジネスオーナー ビジネスドメイン内でデータ製品 を管理し、利用者に提供 データ利用者 データシステムオーナー データアセットへの 接続・スキャンの管理 データガバナンス責任者 ソリューションの管理 データエステートの監視統制 *頻出ワードの補足 • データエステート:組織全体のデータ資産 • データアセット:個々のデータ資産 データ製品/データアセットを 発見・活用 メタデータのアクティベート メタデータの収集
  5. ビジネスドメインの概念  事業領域などで業務機能はドメインと して責任範囲を分割できる  それぞれの事業領域は所有している 業務アプリケーションが異なり、データ を交換する場合がある  データ

    ドメイン - Cloud Adoption Framework | Microsoft Learn  ドメイン間のデータ交換にガバナンスが ない場合、インターフェースの濫立を生 む  異なるフォーマット、異なるサービス  利用者不在の秘伝のエンドポイント  未確認なデータ利用規約
  6. データ製品指向によるデータガバナンスの再考  データ製品指向(Data as Product):データに商業製品的な特性を適用する考え方を通して、データインター フェースを統制する  「データは水道のようにすぐに使えて、どこにでも同じような形で蛇口があり、安全であってほしい」 主な特性 

    検出、説明性:たとえばECサイトのように  データは発見が可能な状態(市場化)である  消費者に説明するためのカタログが付随する  データ契約:たとえばクラウドサービスのように  データには所有者が定められており、利用規約とともに提供され、SLAに準拠される  相互運用性:たとえばねじや工具のように  データはあらゆる目的、場所でも同じように使えるようにフォーマットや、インターフェースが標準化されている 業務アプリケーション セルフサービスデータ基盤 データ統合 サービス データ製品 貨物管理 運行管理 別ドメイン 業務アプリケーション セルフサービスデータ基盤
  7. 補足)データ製品=ドメイン間のデータ交換インターフェース  データ製品をインターフェースとすることでドメイン間のデータ交換が統制される  Understanding Data Modelling in Data Mesh

    | by Piethein Strengholt | Medium  これを進めるとデータを統合する専用の業務に直接関係しないドメインも発生する  エンタープライズデータアーキテクチャなどの企業内の「同一エンティティ異ドメインデータ」を統合する活動がそれにあたる  このドメインは専用のバックオフィス(いわゆるCDO直轄チーム)として組織される場合がある
  8. データメッシュによるセルフサービスデータ活用の統制と促進  データメッシュ:ドメイン個々でデータを管理し迅速性と統制を両立する  Data Mesh Principles and Logical Architecture

    (martinfowler.com) ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ製品の生成 データガバナンス基盤 セルフサービスデータ基盤 データ製品の文書化 ドメイン全体で横断した統制 ドメイン個々でのデータ処理 Microsoft Fabric Microsoft Purview
  9. データメッシュ参考  Data Mesh Principles and Logical Architecture (martinfowler.com) 

    How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com)  クラウド規模の分析 - Azure 向けの Microsoft Cloud 導入フレームワーク - Cloud Adoption Framework | Microsoft Docs  ★データ基盤の新たな潮流:データファブリック ~データとAIの活用を加速させる新たなアプローチ |前編 データファブリックの概要 - アイマガジン|i Magazine|IS magazine  Data Fabric vs Data Mesh: 3 Key Differences, How They Help and Proven Benefits  データメッシュとデータファブリックを実現させるデータガバナンス  拡張データ管理: データ ファブリックとデータ メッシュ (ibm.com)  データ・ファブリックとは|アイビーエム (ibm.com)  ガートナーの2021年のトップデータと分析トレンド (gartner.com)  Using Data Fabric Architecture to Modernize Data Integration (gartner.com)  データファブリック:ナレッジグラフのキラーユースケース (datanami.com)  ★データファブリックとデータメッシュ:どこが違うのか?|北原 祐司 / 「データとAIの民主化」を目指す Databricks|note  データファブリックとは最新のエンタープライズデータアーキテクチャ (k2view.com)  James Serra's Blog  データ メッシュ: トポロジとドメインの粒度|ピエテイン・ストレングホルト・|データサイエンスに向けて (towardsdatascience.com)  ★データメッシュの概念について理解する - connecting the dots (hatenablog.com)  Data Mesh: Centralized ownership vs decentralized ownership | James Serra's Blog  成功するデータメッシュの構築 – 単なるテクノロジーイニシアチブ以上のもの|リンクトイン (linkedin.com)  Data Trends: Comparing Data Fabrics, Data Meshes, And Knowledge Graphs – Diffblog (diffbot.com)  Data Mesh: The Balancing Act of Centralization and Decentralization | by Piethein Strengholt | Mar, 2022 | Towards Data Science  Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics (cidrdb.org)
  10. データガバナンス原則からビジネスデータカタログ機能を理解する Microsoft Purview データガバナンス データカタログ データ資産を 意味づけ、整理し、 公開することで、安全 に利用、保護できる ようにします。

    データの適切な使用 とアクセスを促進し、 安全性とイノベーショ ンのバランスを取りま す。 日々のビジネスや イノベーションに必要 なデータを、ユーザーが 発見、承認できるよう にします。 ユーザーがデータの内 容と使用方法を理解 するための文書を提 供します。 データとメタデータ双 方の品質を維持し、 データの最新性と 安全性を保ちます。 データキュレーション データアクセス データ正常性 データ理解 データディスカバリ New Microsoft Purview Data Catalog (Preview) | Microsoft Learn
  11. ビジネス価値中心にデータを理解する データ理解 - ユーザーがデータの内容と使用方法を理解するための文書を提供します。 用語集の用語  ビジネスドメイン内で定義された用語が データカタログをビジネス語彙の側面か ら強化します。 共通的な語彙が業務上のインター

    フェースの混乱を防ぎます OKR(Objective Key Result)  ビジネスドメイン内のデータ活用をドライ ブするために、ビジネス的なバリューによ る目標を定義します  データ製品にひもづけられたOKRは その価値を明らかにします
  12. データカタログとデータマップ データマップはPurviewソリューション全体のバックエンドとして メタデータ収集を効率化し、インフラストラクチャーとアクセス制御を提供する データマップ データ資産のスキャン・詳細なメタデータの付与を行い、組織全体のデー タ資産を管理する データカタログ データ資産をビジネスの文脈で整理・管理し、 利用価値を生み出す オンプレミス

    マルチクラウド SaaS アプリケーション Microsoft Purview データガバナンス メタデータのアクティベート メタデータの収集 データアセットにアクセス、 ビジネスメタデータの付与と表 示をするためのインターフェース データアセットを収集・蓄積し、 テクニカルメタデータの充実と アセット個々に対する細かい アクセス制御層を提供する 組織全体でのRBACや SaaSとしての設定を構成する
  13. 詳細な機能の説明と関係性 – データカタログ データカタログ データ資産正常性 データマップ Microsoft Purview データガバナンス ビジネスドメイン

    正常性コントロール ドメインと コレクション ソース管理 注釈管理 データ品質 アクセスポリシー ビジネス用語集 OKR カスタム属性 重要データ データ製品 スキャン アセット 正常性アクション メタデータ品質 レポート 監視 スキャンルールセット パターンルール 統合ランタイム 資格情報 系列の接続 分類 分類名 データソース キュレーション (編纂)、表示 ビジネスメタデータ付与 ビジネスドメイン データカタログ内で、「ビジネス文脈」中心にアセットを整理するため の論理グループ 主な管理対象 • データ製品:アセットをパッケージ化して利用者に提供する。 データカタログのメインとなる成果物 • 重要データ:アセット、データ製品に紐づけて利用する。N個のアセットの 列をグループ化し、データ品質とポリシーを一元的に適用 • ビジネス用語集:アセット、データ製品に紐づけて利用する。ビジネスドメ イン内でビジネスユーザーの共通語彙として提供・統制 ビジネスドメイン内で定義され、成果物に紐づけされるもの • OKR:目標と主要な結果を定義し、データの活用を促進する • データ品質:プロファイリング結果と品質の測定結果を提供する • アクセスポリシー:データの利用規約を定義する。ポリシーは用語や重要 データ要素からデータ製品に継承可能 • カスタム属性:必須の説明情報など、ドメイン固有のメタデータ項目を 定義する データ資産正常性 組織のデータカタログ状況を測定・調査・改善するツール群 主な管理対象 • 正常性コントロール:ビジネスドメインまたは組織のデータカタログ全体に 品質ルールを適用し、測定スコアを算出する • 正常性アクション:データ品質または正常性コントロールの結果から抽出 された問題と対処内容をバックログ化として表示する • メタデータ品質:独自または組み込み済みの品質測定ルールを定義す る • レポート:カタログの利用状況/充実度やインベントリレポートなど、様々 な観点でデータガバナンスの状況を監視する
  14. 詳細な機能の説明と関係性 – データマップ データカタログ データ資産正常性 データマップ Microsoft Purview データガバナンス ビジネスドメイン

    正常性コントロール ドメインと コレクション ソース管理 注釈管理 データ品質 アクセスポリシー ビジネス用語集 OKR カスタム属性 重要データ データ製品 スキャン アセット 正常性アクション メタデータ品質 レポート 監視 スキャンルールセット パターンルール 統合ランタイム 資格情報 系列の接続 分類 分類名 データソース ドメインとコレクション データマップ内に取り込み対象のデータソースや、 取り込まれたアセットのアクセス制御を管理するための親子構造 主な管理対象 • アセット:系列ソースや、スキャンにより取り込まれたデータ資産 • データソース:データソースをデータマップに紐付けて管理する • スキャン:紐づけられたデータソースに対するスキャンを構成する ソース管理 共通されるインフラストラクチャや再利用可能なスキャンルールを定義する 主な管理対象 • 系列の接続:Data Factoryなど、リネージ情報を送信するソースサービ スを管理する • パターンルール:共通の命名規則をもったファイル群など、アセットをグ ループ化(リソースセット)するためのルールを定義する • スキャンルールセット:分類規則など、スキャン時に使用する規則をグ ループ化して、データソース個々で再利用する • 統合ランタイム:スキャンに使用されるインフラストラクチャーを管理する • 資格情報:スキャンに使用される資格情報を管理する 監視 スキャン結果などアセット取り込み結果を監視する 注釈管理 スキャンルールセットに利用する分類と分類名を管理する 主な管理対象 • 分類:「電話番号」「住所」など、格納されたデータから特定可能なラ ベルを定義する • 分類規則:分類を割り当てるためのルールを定義する キュレーション (編纂)、表示 ビジネスメタデータ付与
  15. 全体構成例:運行管理ドメインでのデータ製品開発 業務アプリケーション データ製品 貨物管理 運行管理 別ドメイン 業務アプリケーション Fabric ワークスペース データカタログ

    データマップ ビジネスドメイン、データ製品 ドメインとコレクション 運行管理 貨物管理 アプリケーションドメイン データドメイン データドメイン アプリケーションドメイン 運行管理 貨物管理 Microsoft Purview データ統合 Fabric ワークスペース
  16. 補足)Databricks × Fabric による大規模データ管理とデータ製品開発  Microsoft Purview は Microsoft Fabric

    のプラットフォームガバナンスと、Databricks Unity Catalogによるプラットフォームレベルのガバナンスと 深く統合することでより大規模なセルフサービスデータプラットフォームに拡張可能 Microsoft Fabric Microsoft Purview Databricks メタデータの統合 ビジネスデータカタログによるアクセスポリシーの適用 Fabric/Databricks内で最適化されたポリシーの定義 ビジネスユーザーフレンドリーな体験と総合力の高さ データプロフェッショナルに最高効率の機能を提供
  17. Purview データガバナンスの提供方式について  SaaS オファリングとしてリブランディングされているが、 費用や処理リソースはAzure リソースから供給される  Fabric についても類似のモデルとなる

    ※Fabric にはPower BI のための ユーザーライセンスの概念が追加される  Purview アカウントの数は テナントに一つのみである点は注意  新しい Microsoft Purview ポータルについてよく寄せら れる質問 | Microsoft Learn Microsoft Purview Microsoft Fabric Microsoft Azure サブスクリプション Microsoft Entra ID テナント サブスクリプション Fabric 容量 Purview アカウント ワークスペース ワークスペース Fabric アイテム(成果物) ワークスペース に紐づけ テナントに一つの アカウントとして使用
  18. エンタープライズバージョンのコスト  基本的考え方(2024/6/14現在): Purview リソースの課金ポイントは主にCUとスキャン時間での従量課金となる CU(Capacity Unit) • API呼び出し:Purviewのアクセス数、アセットの取り込み時に動的に増加 •

    ストレージサイズ:アセットなどのメタデータサイズが増加すると自動的にCUを拡張 スキャン・取り込み処理(32core or 64coreで動作) • Fabric など一部のスキャンは現在無料 • データの配置に規則がないなど複雑なデータレイクなどは時間がかかり、費用が 大きくなりやすい その他の分析画面などにも従量課金単価が設定されている 参考 • Microsoft Purview の価格 | Microsoft Azure • エラスティック データ マップ | Microsoft Learn
  19. リソース  Microsoft Fabric と Microsoft Purview によるスケーラブルなデータ管理 |作 成者

    Piethein Strengholt |中程度 (medium.com)  Episode 5: Connecting the dots with Microsoft Purview (youtube.com)  Microsoft Purview | Microsoft Learn  Microsoft Purview 用語集 | Microsoft Learn