Microsoft Fabric とデータメッシュ

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Silver Sponsor 本イベントのスポンサー様 Facilities & Staff Sponsor Gold Sponsor

Slide 3

Slide 3 text

自己紹介永田亮磨(Ryoma Nagata) • Microsoft MVP for Data Platform • Databricks Solutions Architect Champion • 株式会社ジール • Microsoft Data Analytics Solution の導入など • 主な活動場所 • Qiita : @ryoma-nagata • Twitter : @ryomaru0825 • connpass : • JSSUG (Japan SQL Server User Group) • JEDAI - The Data & AI Meetup MVP Profile 推しサービス(≒守備範囲） Synapse / Databricks / Power BI / Machine Learning Purview / Microsoft Fabric

Slide 4

Slide 4 text

本日お話する内容 01 データメッシュ/データファブリックについて 02 Microsoft Fabric とは 03 Microsoft Fabric でのデータメッシュ/データファブリックについて考える

Slide 5

Slide 5 text

Slide 6

Slide 6 text

今日の企業のデータの配置状態  各種の観点で企業のデータはあらゆる種類で各所に分散し、その形式は様々  これらのデータに迅速にアクセスするには多用なプロセス、ツールを使いこなす必要があり、データ活用の難易度が上がっている観点選択肢場所オンプレミス / クラウドベンダー Azure / AWS / GCP / 他SaaS 形式構造化/ 非構造流入頻度バッチ / ストリーム

Slide 7

Slide 7 text

データ基盤自体が散在している現実  社内の主要ユーザーの好みや、政治的な問題、あるいは法規制により、同じ組織内でN個のデータ基盤があるような場合もある  一次データだけでなく二次的なデータについても所在が分散  こうした現実に目を向けながら企業は『正しいデータに迅速にアクセス』する仕組みについて考える必要がある Microsoft Azure 各種SaaS On-premise BigQuery Cloud Storage SQL DB Synapse Analytics Blob Storage Amazon S3 Amazon RDS Amazon Redshift SQL Server AWS Cloud

Slide 8

Slide 8 text

伝統的ソリューション中央集権型のデータ基盤  これまで、データのサイロを解消するために企業は分散したデータを一つの大きなデータ基盤に物理的に集約することでデータへのアクセスを実現してきた  この経験を経てモノリスな基盤の課題が指摘されているのが現状 1. 中央のデータエンジニアに委託する方式となることが多く、データ活用のスピードが低下するだけでなく、ドメイン知識について現場とのギャップが発生しやすい 2. 中央集権を目指すはずのソリューションがいくつも発生し、しかも互換性をもたない状態中央集権型データ基盤（モノリス）

Slide 9

Slide 9 text

データ基盤では何が起きているかデータをビジネスアクションにつなげるまでの基本的流れ  一般に異なるデータソースが統合されることでBIや機械学習といったシナリオに変換され、アクションにつながる  データ統合にはメダリオンアーキテクチャと呼ばれるような段階ごとにデータを整理するような考え方がある  安定したデータ消費には安定したデータエンジニアリングが不可欠となる生データ（Bronze）目的別の準備済みデータ（ Gold ）整備済みデータ（ Silver ） BI 機械学習ビジネスアクションデータソースデータ消費データ統合

Slide 10

Slide 10 text

役割分担を行い、データ活用における知識のギャップをなくす生データ（Bronze）目的別の準備済みデータ（ Gold ）整備済みデータ（ Silver ） BI アナリスト分析ソリューションの専門家データエンジニアデータ統合を中心としたデータ整備の専門家機械学習データサイエンティスト統計処理、機械学習ソリューションの専門家ビジネスユーザー洞察をビジネスアクションへ転用する利用者ビジネスアクション  データ活用の一連の活動では様々なスキルセットを持つ人々が存在するが、具体的な活用シナリオに近いほどビジネス知識が重要となるデータ消費データ統合データソース

Slide 11

Slide 11 text

Slide 12

Slide 12 text

セルフサービスの重要性  ビジネスの問いに『迅速』かつ『確実に』対応する方法は直接データにアクセスすることデータの消費者自身が試行錯誤を実施できるセルフサービスの仕組みが重要テクニカルなデータからビジネスに生かせる情報の生成洞察からアクションへデータ整備と提供セルフサービスによる試行錯誤、改善サイクルアナリスト分析ソリューションの専門家データエンジニアデータ統合を中心としたデータ整備の専門家データサイエンティスト統計処理、機械学習ソリューションの専門家ビジネスユーザー洞察をビジネスアクションへ転用する利用者データ消費データ統合データの特定と取得本当に整備すべきデータがわかる

Slide 13

Slide 13 text

MSも陥っていたBIの課題（セルフサービスモデル濫立） https://docs.microsoft.com/ja-jp/power-bi/guidance/center-of-excellence-microsoft-business- intelligence-transformation  一貫性の欠如  国や、個社、部署ごとに独自の考え方で売上を計上する「税別？税込？年間契約は月次で按分？」  再利用されないデータ  アナリストが分析ではなく整理・収集に時間を消費「各アナリストが個別で集約を行い、ロジックが組織全体で利用されない」

Slide 14

Slide 14 text

データ製品指向によるデータガバナンス  データ製品指向(Data as Product)：データに商業製品的な特性を適用する考え方  「データは水道のようにすぐに使えて、どこにでも同じような形で蛇口があり、安全であってほしい」  これらの原則でデータを統制し、セルフサービスを推進させることが重要とされている  検出、説明性：たとえばECサイトのように  データは発見が可能な状態（市場化）である  消費者に説明するためのカタログが付随する  データ契約：たとえばクラウドサービスのように  データには所有者が定められており、保証されている  データにおけるSLAを定義し、監視、統制する  相互運用性：たとえばねじや工具のように  データはあらゆる目的、場所でも同じように使えるようにフォーマットが標準化されている

Slide 15

Slide 15 text

セルフサービスとコラボレーションを重視した大規模データ戦略「データメッシュ」  分散型データオーナーシップ、ドメイン駆動設計  中央集権的にデータ管理するのではなく、ドメインそれぞれでデータを管理する  一貫したデータガバナンス  管理や所有権は各ドメインに委任されるが、全体で一貫したガバナンスを適用する  セルフサービスプラットフォーム  ユーザーにとってセルフサービスでデータ構築のしやすいツールを提供する組織全体のデータをドメインに分割ドメインA ドメインB ドメインC ・・・分割されたドメインチームそれぞれでデータを製品として開発

Slide 16

Slide 16 text

セルフサービスとコラボレーションを重視した大規模データ戦略「データメッシュ」  分散型データオーナーシップ、ドメイン駆動設計  中央集権的にデータ管理するのではなく、ドメインそれぞれでデータを管理する  一貫したデータガバナンス  管理や所有権は各ドメインに委任されるが、全体で一貫したガバナンスを適用する  セルフサービスプラットフォーム  ユーザーにとってセルフサービスでデータ構築のしやすいツールを提供するドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ検出と説明性（データカタログ）データ契約（データ品質・プライバシー）相互運用性（データ標準化）データガバナンスデータメッシュストレージ・パイプライン・分析ツールセルフサービスプラットフォーム各ドメインのデータオーナーシップのもと相互にデータ製品を交換・昇華する

Slide 17

Slide 17 text

参考）データメッシュスタイル  Data Mesh: Topologies and domain granularity | by Piethein Strengholt | Towards Data Science

Slide 18

Slide 18 text

セルフサービスプラットフォームを実現するテクノロジーは？  データメッシュは組織の構造と文化のアプローチ  ガバナンスのもとにセルフサービスを推進するためにはテクノロジーが必要  特にドメイン内のデータ製品開発、ドメイン間のデータ交換ではデータへのアクセス性の向上が重要となるドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ検出と説明性（データカタログ）データ契約（データ品質・プライバシー）相互運用性（データ標準化）データガバナンスデータメッシュストレージ・パイプライン・分析ツールセルフサービスプラットフォーム

Slide 19

Slide 19 text

Web API データへのアクセス性を高めるデータ統合技術  物理統合  ETL（抽出・変換・取込）やレプリケーションにより、データをデータウェアハウスやデータレイクに移送する  仮想統合  仮想化技術を通じて実際にデータがどこにあるかに関わらず利用可能な状態にする  統合アクセスポイント  クラウドネイティブな Web API を通じて様々なツール、目的をもつデータ消費者にデータを配信するストレージ BI 機械学習データ消費分散されたデータ配置データ統合レプリケーション ETL 仮想化

Slide 20

Slide 20 text

セルフサービスを実現するためのテクノロジー「データファブリック」  データファブリックとは、組織内のデータを効率的に管理・利用するための技術を包括した、テクノロジーの集合体  以下のコンポーネントで構成される  データ統合：ETL、仮想化などを通じてデータを利用可能にする機能  データ分析：BIや可視化、機械学習のワークロードを実行する機能  ストレージとコンピューティング：データウェアハウス、データレイクなどの方式で提供されるデータ蓄積・処理機能  データマネジメント：メタデータ管理や、ガバナンスの機能  AI・自動化：各種の機能にAIを適用し、自動化を行う ETL/仮想化 Web APIによるデータ提供データレイクデータウェアハウス BI・可視化機械学習メタデータ収集カタログ化プライバシーアクセス制御データ統合データファブリックデータマネジメントストレージとコンピューティングデータ分析 AI・自動化データ配置やクエリの最適化 AIによる予測、インサイトの自動抽出メタデータ自動付与やデータ品質の監視自動収集・マッピング組織全体のデータ活用組織内データセルフサービスによる加速統合によるアクセス性向上ビジネスアクション分散されたデータ

Slide 21

Slide 21 text

Microsoft Fabric

Slide 22

Slide 22 text

トライアルと導入サインオンナビゲーションモデルワークスペースコラボレーションデータレイクストレージフォーマット全てのエンジンで使用可能なデータコピーセキュリティモデル CI/CD 監視ハブデータハブガバナンスとコンプライアンス単一化されたUX Microsoft Fabric データ活用にまつわるすべての機能を All-in One 型で提供する分析 SaaS インテリジェントデータファブリック AI による作業支援共有型作業環境一体化したコンピューティング容量統合セキュリティ ”単一”のデータレイクデータ統合データエンジニアリングデータウェアハウスリアルタイム分析データサイエンスビジネスインテリジェンス

Slide 23

Slide 23 text

Microsoft Fabric エクスペリエンス Data Factory Synapse Data Engineering Synapse Data Warehouse Synapse Real-Time Analytics Synapse Data Science Power BI Data Activator (Preview) データ統合様々なロケーションにあるデータシステムからデータを収集するコネクタをもち、 ETLプロセス全体のワークフローをパイプラインとして定義・実行するデータエンジニアリングデータレイクハウスを構成し、Apache Spark を使用した分散処理により、組織内のデータを変換・準備するデータウェアハウスペタバイトスケールで最高のパフォーマンスを備え、T-SQL べースで分析が可能なリレーショナルDWH を構築するリアルタイム分析時系列データに最適化されたデータベースに任意の形式のデータを迅速に取り込み変換し、ニアリアルタイムで分析クエリの実行、可視化データサイエンス MLflow が統合された jupyter ライクな UI 上で機械学習モデルの学習と推論を行うことで分析情報を強化するビジネスインテリジェンス豊富なビジュアルと分析機能を使用して、データ探索の実施や企業の意思決定を迅速化するダッシュボードを構築するデータドリブン Fabric 上で作成した分析結果を監視、通知し、データとビジネスアクションを連動させることでデジタルフィードバックループを促進する Fabric 限定の新機能

Slide 24

Slide 24 text

データメッシュ、データファブリックの文脈での Microsoft Fabric を考える 1. データファブリックとしてどのようなテクノロジーがデータへのアクセスを効率化するか 2. データメッシュ戦略を実施するためにどのようなサポートが存在するか

Slide 25

Slide 25 text

Slide 26

Slide 26 text

バッチ・ストリーム双方の取り込みに対応可能バッチ処理のシナリオに対応し、100 を超えるコネクタであらゆる場所のデータをコピーする Azure Databricks 、 Azure Machine Learning とのオーケストレーションや、Outlook や Teams との接続も可能ストリーム処理のシナリオに対応し、Azure Event Hubs 、Azure IoT Hub など様々なデータからイベントデータをフェッチ独自のアプリケーションから直接の送信も可能にするカスタムアプリ機能も提供処理したデータは時系列分析に最適化された KQL データベースなどに連携可能 Data Factory Synapse Real-Time Analytics

Slide 27

Slide 27 text

OneLake とサーバレスコンピューティング  中核となる OneLake ストレージと、分離されたコンピューティングエンジンによりどのようなワークロードでもコピーせずに同じデータにアクセス OneLake ストレージサーバレスコンピューティング Finance Customers 360 Service Telemetry Business KPIs T-SQL Spark KQL Analysis Services Delta – Parquet Format Delta – Parquet Format Delta – Parquet Format Delta – Parquet Format データウェアハウス、データレイクハウスなど全てのワークロードのデータは OneLake に自動保存コンピューティングはストレージと分離され、別のエンジンで処理したデータを相互に処理可能非構造化、構造化問わずに保存可能なストレージ構造化データはDelta – Parquet と呼ばれるOpenフォーマットで保管データウェアハウスデータエンジニアリングデータ統合データサイエンスリアルタイム分析ビジネスインテリジェンス

Slide 28

Slide 28 text

クラウドデータレイクとの仮想統合が可能  OneLakeショートカットにより、既存のクラウドデータレイクの資産を Fabric で活用することが可能 OneLake クラウドストレージ Azure Data Lake Storage Gen2 Amazon S3 ショートカットデータ移動なしで直接 Fabric 外部のデータにアクセス

Slide 29

Slide 29 text

Databricks 社の開発したストレージ OSS によりデータアクセスを標準化特徴 • オープンかつシンプル： • ベンダーロックインなく、あらゆるツールからアクセス可能 • SQL/Python 双方での共通データアクセス • 統一されたバッチ、ストリーミング • DWHとデータレイクのいいとこどり： • 列指向フォーマットを背景に高速なクエリ • タイムトラベル機能による過去データの遡り • スキーマの自動拡張 or 強制 • 構造化～非構造化データに対応しつつ高い圧縮率 • コンプライアンス対応： • 監査履歴 • UPDATE, DELETEによるデータ操作オープンフォーマットDelta Lakeの採用

Slide 30

Slide 30 text

オープンフォーマット/APIによるあらゆるツールからのデータアクセス  Azure Data Lake と同様の API を採用しており、Azure 内外の分析サービスから Fabric のDelta - Parquetにアクセス可能 OneLake クラウドストレージ Azure Data Lake Storage Gen2 Amazon S3 ショートカット Fabric 上のテーブルを任意のサービスで分析 Azure Databricks Azure Synapse Analytics Azure Analytics

Slide 31

Slide 31 text

外部データシステムからのニアリアルタイムレプリケーションに対応予定  New! ) ミラーリングにより、No-ETL で既存のデータシステムからのデータを連携 OneLake クラウドストレージ Azure Data Lake Storage Gen2 Amazon S3 ショートカット外部データシステム Azure Databricks Azure Synapse Analytics Azure Analytics Azure SQL DB Snowflake Azure Cosmos DB そのほかも・・・ MongoDB Fabric 外部のデータシステムからレプリケーション

Slide 32

Slide 32 text

Copilot for Microsoft Fabric によるデータ分析支援 Data Factory Synapse Data Engineering Synapse Data Warehouse Synapse Real-Time Analytics Synapse Data Science Power BI Data Activator

Slide 33

Slide 33 text

データファブリックとしての今後の注目点  データガバナンスサービスとの連携  Microsoft Purview との連携は今のところコンプライアンスや、データの状況が中心で、データカタログとしての Purview との連動性について大きな統合のニュースに期待  データプライバシーの管理  きめ細やかアクセス制御の管理

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Microsoft Fabric ドメインデータウェアハウスデータエンジニアリングデータ統合データサイエンスリアルタイム分析ビジネスインテリジェンス OneLake ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG  OneLake をベースにサービスとしてのデータメッシュをサポート  サービス内の設定でドメインを定義可能  サブドメイン/ドメインロール/委任設定  ワークスペース単位で割り当て  ワークスペースのアイテムはすべてドメインに関連付けられる

Slide 36

Slide 36 text

Fabric アイテムの認定  組織内で信頼できるデータ製品にラベリングをすることで、コラボレーションを促す承認の概要 - Microsoft Fabric | Microsoft Learn  昇格→認定の順でラベル付け  認定されたグループのみが判定を行う設計となっている  各ドメインで認定者をそれぞれ構成可能

Slide 37

Slide 37 text

OneLake データハブ Microsoft OneLake in Fabric、データ向けOneDrive |Microsoft ファブリックブログ |Microsoft ファブリック OneLake 内で分散管理されたデータを効率的に見つけて、利用するためのハブ  Fabric に関連する各種ツールに組み込まれており、いつでもデータを検出・接続可能  ドメインおよび認定と連動し、特定のドメインにフィルタリングしたり、認定済みデータの一覧を表示可能

Slide 38

Slide 38 text

まとめ  ビジネスに確実に役立てるデータ活用はセルフサービスの仕組みによるデータの民主化が不可欠  データメッシュ戦略により中央データチームにボトルネックをもたない、かつガバナンスをきかせた組織づくり  複雑化するデータ活用の世界で、データアクセスを効率化するデータファブリックテクノロジーを理解し、活用する  Microsoft Fabric はデータファブリックとしてのテクノロジーをもち、データメッシュ戦略を支援する

Slide 39

Slide 39 text

Microsoft Fabric コミュニティリソース ✓ Microsoft Fabric を無料体験する: https://aka.ms/try-fabric ✓ Fabric コミュニティとつながる: https://aka.ms/fabriccommunity ✓ 機能リクエストをして新機能に投票する: https://aka.ms/fabricideas ✓ MS 公式ブログを読む : https://aka.ms/fabricblog ▪ 製品サイト : https://aka.ms/fabric ▪ Buildでのデジタルイベント動画 : https://aka.ms/build-with-analytics ▪ ドキュメント : https://aka.ms/fabric-docs ▪ eブック: https://aka.ms/fabric-get-started-ebook ▪ Microsoft Learn: https://aka.ms/learn-fabric ▪ エンドツーエンドのチュートリアル : https://aka.ms/fabric-tutorials ▪ Fabric Notes (解説図集): https://aka.ms/fabric-notes

Slide 40

Slide 40 text

その他参考リソース1  How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com)  クラウド規模の分析 - Azure 向けの Microsoft Cloud 導入フレームワーク - Cloud Adoption Framework | Microsoft Docs  ★データ基盤の新たな潮流：データファブリック～データとAIの活用を加速させる新たなアプローチ｜前編データファブリックの概要 - アイマガジン｜i Magazine｜IS magazine  Data Fabric vs Data Mesh: 3 Key Differences, How They Help and Proven Benefits  データメッシュとデータファブリックを実現させるデータガバナンス  拡張データ管理: データファブリックとデータメッシュ (ibm.com)  データ・ファブリックとは|アイビーエム (ibm.com)  ガートナーの2021年のトップデータと分析トレンド (gartner.com)  Using Data Fabric Architecture to Modernize Data Integration (gartner.com)  データファブリック:ナレッジグラフのキラーユースケース (datanami.com)  ★データファブリックとデータメッシュ：どこが違うのか？｜北原祐司 / 「データとAIの民主化」を目指す Databricks｜note  データファブリックとは最新のエンタープライズデータアーキテクチャ (k2view.com)  James Serra's Blog  データメッシュ: トポロジとドメインの粒度|ピエテイン・ストレングホルト・|データサイエンスに向けて (towardsdatascience.com)

Slide 41

Slide 41 text

その他参考リソース2  ★データメッシュの概念について理解する - connecting the dots (hatenablog.com)  Data Mesh: Centralized ownership vs decentralized ownership | James Serra's Blog  成功するデータメッシュの構築 – 単なるテクノロジーイニシアチブ以上のもの|リンクトイン (linkedin.com)  Data Trends: Comparing Data Fabrics, Data Meshes, And Knowledge Graphs – Diffblog (diffbot.com)  Data Mesh: The Balancing Act of Centralization and Decentralization | by Piethein Strengholt | Mar, 2022 | Towards Data Science  Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics (cidrdb.org)

Slide 42

Slide 42 text

ご清聴ありがとうございました。