Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Microsoft Fabric と データメッシュ

Microsoft Fabric と データメッシュ

Ryoma Nagata

December 06, 2023
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. 自己紹介 永田 亮磨(Ryoma Nagata) • Microsoft MVP for Data Platform

    • Databricks Solutions Architect Champion • 株式会社ジール • Microsoft Data Analytics Solution の導入など • 主な活動場所 • Qiita : @ryoma-nagata • Twitter : @ryomaru0825 • connpass : • JSSUG (Japan SQL Server User Group) • JEDAI - The Data & AI Meetup MVP Profile 推しサービス(≒守備範囲) Synapse / Databricks / Power BI / Machine Learning Purview / Microsoft Fabric
  2. 役割分担を行い、データ活用における知識のギャップをなくす 生データ (Bronze) 目的別の準備済みデータ ( Gold ) 整備済みデータ ( Silver

    ) BI アナリスト 分析ソリューションの専門家 データエンジニア データ統合を中心としたデータ整備の専門家 機械学習 データサイエンティスト 統計処理、機械学習 ソリューションの専門家 ビジネスユーザー 洞察をビジネスアクションへ 転用する利用者 ビジネスアクション  データ活用の一連の活動では様々なスキルセットを持つ人々が存在するが、 具体的な活用シナリオに近いほどビジネス知識が重要となる データ消費 データ統合 データソース
  3. 役割分担を行い、データ活用における知識のギャップをなくす 生データ (Bronze) 目的別の準備済みデータ ( Gold ) 整備済みデータ ( Silver

    ) BI アナリスト 分析ソリューションの専門家 データエンジニア データ統合を中心としたデータ整備の専門家 機械学習 データサイエンティスト 統計処理、機械学習 ソリューションの専門家 ビジネスユーザー 洞察をビジネスアクションへ 転用する利用者 ビジネスアクション  データ活用の一連の活動では様々なスキルセットを持つ人々が存在するが、 具体的な活用シナリオに近いほどビジネス知識が重要となる データ消費 データ統合 データソース 1つのチームでさばける量に限界 • 様々な部署から 異なる依頼 • 待たされる
  4. セルフサービスの重要性  ビジネスの問いに『迅速』かつ『確実に』対応する方法は直接データにアクセスすること データの消費者自身が試行錯誤を実施できるセルフサービスの仕組みが重要 テクニカルなデータから ビジネスに生かせる情報の生成 洞察からアクションへ データ整備と提供 セルフサービスによる試行錯誤、改善サイクル アナリスト

    分析ソリューションの専門家 データエンジニア データ統合を中心としたデータ整備の専門家 データサイエンティスト 統計処理、機械学習 ソリューションの専門家 ビジネスユーザー 洞察をビジネスアクションへ 転用する利用者 データ消費 データ統合 データの特定と取得 本当に整備すべきデータがわかる
  5. データ製品指向によるデータガバナンス  データ製品指向(Data as Product):データに商業製品的な特性を適用する考え方  「データは水道のようにすぐに使えて、どこにでも同じような形で蛇口があり、安全であってほしい」  これらの原則でデータを統制し、セルフサービスを推進させることが重要とされている 

    検出、説明性:たとえばECサイトのように  データは発見が可能な状態(市場化)である  消費者に説明するためのカタログが付随する  データ契約:たとえばクラウドサービスのように  データには所有者が定められており、保証されている  データにおけるSLAを定義し、監視、統制する  相互運用性:たとえばねじや工具のように  データはあらゆる目的、場所でも同じように使えるようにフォーマットが標準化されている
  6. セルフサービスとコラボレーションを重視した大規模データ戦略「データメッシュ」  分散型データオーナーシップ、ドメイン駆動設計  中央集権的にデータ管理するのではなく、ドメインそれぞれでデータを管理する  一貫したデータガバナンス  管理や所有権は各ドメインに委任されるが、全体で一貫したガバナンスを適用する 

    セルフサービスプラットフォーム  ユーザーにとってセルフサービスでデータ構築のしやすいツールを提供する 組織全体のデータをドメインに分割 ドメインA ドメインB ドメインC ・・・ 分割されたドメインチームそれぞれでデータを製品として開発
  7. セルフサービスとコラボレーションを重視した大規模データ戦略「データメッシュ」  分散型データオーナーシップ、ドメイン駆動設計  中央集権的にデータ管理するのではなく、ドメインそれぞれでデータを管理する  一貫したデータガバナンス  管理や所有権は各ドメインに委任されるが、全体で一貫したガバナンスを適用する 

    セルフサービスプラットフォーム  ユーザーにとってセルフサービスでデータ構築のしやすいツールを提供する ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ検出と説明性 (データカタログ) データ契約 (データ品質・プライバシー) 相互運用性 (データ標準化) データガバナンス データメッシュ ストレージ・パイプライン・分析ツール セルフサービスプラットフォーム 各ドメインのデータオーナーシップのもと相互に データ製品を交換・昇華する
  8. セルフサービスプラットフォームを実現するテクノロジーは?  データメッシュは組織の構造と文化のアプローチ  ガバナンスのもとにセルフサービスを推進するためにはテクノロジーが必要  特にドメイン内のデータ製品開発、ドメイン間のデータ交換ではデータへのアクセス性の向上が重要となる ドメインA ドメインB ドメインC

    ドメインD ドメインE ドメインG データ検出と説明性 (データカタログ) データ契約 (データ品質・プライバシー) 相互運用性 (データ標準化) データガバナンス データメッシュ ストレージ・パイプライン・分析ツール セルフサービスプラットフォーム
  9. Web API データへのアクセス性を高めるデータ統合技術  物理統合  ETL(抽出・変換・取込)やレプリケーションにより、データをデータウェアハウスやデータレイクに移送する  仮想統合 

    仮想化技術を通じて実際にデータがどこにあるかに関わらず利用可能な状態にする  統合アクセスポイント  クラウドネイティブな Web API を通じて様々なツール、目的をもつデータ消費者にデータを配信する ストレージ BI 機械学習 データ消費 分散されたデータ配置 データ統合 レプリケーション ETL 仮想化
  10. セルフサービスを実現するためのテクノロジー「データファブリック」  データファブリックとは、組織内のデータを効率的に管理・利用するための技術を包括した、 テクノロジーの集合体  以下のコンポーネントで構成される  データ統合:ETL、仮想化などを通じてデータを利用可能にする機能  データ分析:BIや可視化、機械学習のワークロードを実行する機能

     ストレージとコンピューティング:データウェアハウス、データレイクなどの方式で提供されるデータ蓄積・処理機能  データマネジメント:メタデータ管理や、ガバナンスの機能  AI・自動化:各種の機能にAIを適用し、自動化を行う ETL/仮想化 Web APIによる データ提供 データレイク データウェアハウス BI・可視化 機械学習 メタデータ収集 カタログ化 プライバシー アクセス制御 データ統合 データファブリック データマネジメント ストレージとコンピューティング データ分析 AI・自動化 データ配置やクエリの最適化 AIによる予測、インサイトの自動抽出 メタデータ自動付与やデータ品質の監視 自動収集・マッピング 組織全体のデータ活用 組織内データ セルフサービス による加速 統合による アクセス性向上 ビジネスアクション 分散されたデータ
  11. トライアルと導入 サインオン ナビゲーションモデル ワークスペース コラボレーション データレイク ストレージフォーマット 全てのエンジンで使用可能なデータコピー セキュリティモデル CI/CD

    監視ハブ データハブ ガバナンスとコンプライアンス 単一化されたUX Microsoft Fabric データ活用にまつわるすべての機能を All-in One 型で提供する分析 SaaS インテリジェントデータファブリック AI による作業支援 共有型作業環境 一体化したコンピューティング容量 統合セキュリティ ”単一”のデータレイク データ統合 データ エンジニアリング データ ウェアハウス リアルタイム 分析 データ サイエンス ビジネス インテリジェンス
  12. Microsoft Fabric エクスペリエンス Data Factory Synapse Data Engineering Synapse Data

    Warehouse Synapse Real-Time Analytics Synapse Data Science Power BI Data Activator (Preview) データ統合 様々なロケーションにあ るデータシステムから データを収集するコネク タをもち、 ETLプロセス全体のワー クフローをパイプラインと して定義・実行する データエンジニアリング データレイクハウスを構 成し、Apache Spark を使用した分散処理 により、組織内のデータ を変換・準備する データウェアハウス ペタバイトスケールで最 高のパフォーマンスを備 え、T-SQL べースで分 析が可能なリレーショナ ルDWH を構築する リアルタイム分析 時系列データに最適 化されたデータベースに 任意の形式のデータを 迅速に取り込み変換 し、ニアリアルタイムで 分析クエリの実行、可 視化 データサイエンス MLflow が統合された jupyter ライクな UI 上 で機械学習モデルの 学習と推論を行うこと で分析情報を強化す る ビジネスインテリジェンス 豊富なビジュアルと分 析機能を使用して、 データ探索の実施や企 業の意思決定を迅速 化するダッシュボードを 構築する データドリブン Fabric 上で作成した 分析結果を監視、通 知し、データとビジネス アクションを連動させる ことでデジタルフィード バックループを促進する Fabric 限定の 新機能
  13. バッチ・ストリーム双方の取り込みに対応可能 バッチ処理のシナリオに対応し、100 を超えるコネ クタであらゆる場所のデータをコピーする Azure Databricks 、 Azure Machine Learning

    とのオーケストレー ションや、Outlook や Teams との接続も可能 ストリーム処理のシナリオに対応し、Azure Event Hubs 、Azure IoT Hub など様々なデータからイ ベントデータをフェッチ 独自のアプリケーションから直接の送信も可能に するカスタムアプリ機能も提供 処理したデータは時系列分析に最適化された KQL データベースなどに連携可能 Data Factory Synapse Real-Time Analytics
  14. OneLake とサーバレスコンピューティング  中核となる OneLake ストレージと、分離されたコンピューティングエンジンにより どのようなワークロードでもコピーせずに同じデータにアクセス OneLake ストレージ サーバレス

    コンピューティング Finance Customers 360 Service Telemetry Business KPIs T-SQL Spark KQL Analysis Services Delta – Parquet Format Delta – Parquet Format Delta – Parquet Format Delta – Parquet Format データウェアハウス、データレイクハウ スなど全てのワークロードのデータは OneLake に自動保存 コンピューティングはストレージと分離さ れ、別のエンジンで処理したデータを相 互に処理可能 非構造化、構造化問わずに保存 可能なストレージ 構造化データはDelta – Parquet と呼ばれるOpenフォーマットで保管 データ ウェアハウス データ エンジニアリング データ統合 データ サイエンス リアルタイム 分析 ビジネス インテリジェンス
  15. Databricks 社の開発したストレージ OSS によりデータアクセスを標準化 特徴 • オープンかつシンプル: • ベンダーロックインなく、あらゆるツールからアクセス可能 •

    SQL/Python 双方での共通データアクセス • 統一されたバッチ、ストリーミング • DWHとデータレイクのいいとこどり: • 列指向フォーマットを背景に高速なクエリ • タイムトラベル機能による過去データの遡り • スキーマの自動拡張 or 強制 • 構造化~非構造化データに対応しつつ高い圧縮率 • コンプライアンス対応: • 監査履歴 • UPDATE, DELETEによるデータ操作 オープンフォーマットDelta Lakeの採用
  16. オープンフォーマット/APIによるあらゆるツールからのデータアクセス  Azure Data Lake と同様の API を採用しており、Azure 内外の分析サービスから Fabric

    のDelta - Parquetにアクセス可能 OneLake クラウドストレージ Azure Data Lake Storage Gen2 Amazon S3 ショートカット Fabric 上のテーブルを任意のサービスで分析 Azure Databricks Azure Synapse Analytics Azure Analytics
  17. 外部データシステムからのニアリアルタイムレプリケーションに対応予定  New! ) ミラーリングにより、No-ETL で既存のデータシステムからのデータを連携 OneLake クラウドストレージ Azure Data

    Lake Storage Gen2 Amazon S3 ショートカット 外部データシステム Azure Databricks Azure Synapse Analytics Azure Analytics Azure SQL DB Snowflake Azure Cosmos DB そのほかも・・・ MongoDB Fabric 外部のデータシステム からレプリケーション
  18. Copilot for Microsoft Fabric によるデータ分析支援 Data Factory Synapse Data Engineering

    Synapse Data Warehouse Synapse Real-Time Analytics Synapse Data Science Power BI Data Activator
  19. Microsoft Fabric ドメイン データ ウェアハウス データ エンジニアリング データ統合 データ サイエンス

    リアルタイム 分析 ビジネス インテリジェンス OneLake ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG  OneLake をベースにサービスとしてのデータ メッシュをサポート  サービス内の設定でドメインを 定義可能  サブドメイン/ドメインロール/委任設定  ワークスペース単位で割り当て  ワークスペースのアイテムはすべてドメイン に関連付けられる
  20. Fabric アイテムの認定  組織内で信頼できるデータ製品にラベリングをすることで、コラボレーションを促す 承認の概要 - Microsoft Fabric | Microsoft

    Learn  昇格→認定の順でラベル付け  認定されたグループのみが判定 を行う設計となっている  各ドメインで認定者をそれぞれ構成可能
  21. OneLake データハブ Microsoft OneLake in Fabric、データ向けOneDrive |Microsoft ファブリック ブログ |Microsoft

    ファブリック OneLake 内で分散管理されたデータを効率的に見つけて、利用するためのハブ  Fabric に関連する各種ツールに組み 込まれており、いつでもデータを検出・ 接続可能  ドメインおよび認定と連動し、 特定のドメインにフィルタリングしたり、 認定済みデータの一覧を表示可能
  22. Microsoft Fabric コミュニティリソース ✓ Microsoft Fabric を無料体験する: https://aka.ms/try-fabric ✓ Fabric

    コミュニティとつながる: https://aka.ms/fabriccommunity ✓ 機能リクエストをして新機能に投票する: https://aka.ms/fabricideas ✓ MS 公式ブログを読む : https://aka.ms/fabricblog ▪ 製品サイト : https://aka.ms/fabric ▪ Buildでのデジタルイベント動画 : https://aka.ms/build-with-analytics ▪ ドキュメント : https://aka.ms/fabric-docs ▪ eブック: https://aka.ms/fabric-get-started-ebook ▪ Microsoft Learn: https://aka.ms/learn-fabric ▪ エンドツーエンドのチュートリアル : https://aka.ms/fabric-tutorials ▪ Fabric Notes (解説図集): https://aka.ms/fabric-notes
  23. その他参考リソース1  How to Move Beyond a Monolithic Data Lake

    to a Distributed Data Mesh (martinfowler.com)  クラウド規模の分析 - Azure 向けの Microsoft Cloud 導入フレームワーク - Cloud Adoption Framework | Microsoft Docs  ★データ基盤の新たな潮流:データファブリック ~データとAIの活用を加速させる新たなアプローチ |前編 データファブリックの概要 - アイマガジン|i Magazine|IS magazine  Data Fabric vs Data Mesh: 3 Key Differences, How They Help and Proven Benefits  データメッシュとデータファブリックを実現させるデータガバナンス  拡張データ管理: データ ファブリックとデータ メッシュ (ibm.com)  データ・ファブリックとは|アイビーエム (ibm.com)  ガートナーの2021年のトップデータと分析トレンド (gartner.com)  Using Data Fabric Architecture to Modernize Data Integration (gartner.com)  データファブリック:ナレッジグラフのキラーユースケース (datanami.com)  ★データファブリックとデータメッシュ:どこが違うのか?|北原 祐司 / 「データとAIの民主化」を目指す Databricks|note  データファブリックとは最新のエンタープライズデータアーキテクチャ (k2view.com)  James Serra's Blog  データ メッシュ: トポロジとドメインの粒度|ピエテイン・ストレングホルト・|データサイエンスに向けて (towardsdatascience.com)
  24. その他参考リソース2  ★データメッシュの概念について理解する - connecting the dots (hatenablog.com)  Data

    Mesh: Centralized ownership vs decentralized ownership | James Serra's Blog  成功するデータメッシュの構築 – 単なるテクノロジーイニシアチブ以上のもの|リンクトイ ン (linkedin.com)  Data Trends: Comparing Data Fabrics, Data Meshes, And Knowledge Graphs – Diffblog (diffbot.com)  Data Mesh: The Balancing Act of Centralization and Decentralization | by Piethein Strengholt | Mar, 2022 | Towards Data Science  Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics (cidrdb.org)