Slide 1

Slide 1 text

Microsoft Fabric とデータメッシュ

Slide 2

Slide 2 text

Silver Sponsor 本イベントのスポンサー様 Facilities & Staff Sponsor Gold Sponsor

Slide 3

Slide 3 text

自己紹介 永田 亮磨(Ryoma Nagata) • Microsoft MVP for Data Platform • Databricks Solutions Architect Champion • 株式会社ジール • Microsoft Data Analytics Solution の導入など • 主な活動場所 • Qiita : @ryoma-nagata • Twitter : @ryomaru0825 • connpass : • JSSUG (Japan SQL Server User Group) • JEDAI - The Data & AI Meetup MVP Profile 推しサービス(≒守備範囲) Synapse / Databricks / Power BI / Machine Learning Purview / Microsoft Fabric

Slide 4

Slide 4 text

本日お話する内容 01 データメッシュ/データファブリックについて 02 Microsoft Fabric とは 03 Microsoft Fabric でのデータメッシュ/データファブリック について考える

Slide 5

Slide 5 text

本日お話する内容 01 データメッシュ/データファブリックについて 02 Microsoft Fabric とは 03 Microsoft Fabric でのデータメッシュ/データファブリック について考える

Slide 6

Slide 6 text

今日の企業のデータの配置状態  各種の観点で企業のデータはあらゆる種類で各所に分散し、その形式は様々  これらのデータに迅速にアクセスするには多用なプロセス、ツールを使いこなす必 要があり、データ活用の難易度が上がっている 観点 選択肢 場所 オンプレミス / クラウド ベンダー Azure / AWS / GCP / 他SaaS 形式 構造化/ 非構造 流入頻度 バッチ / ストリーム

Slide 7

Slide 7 text

データ基盤自体が散在している現実  社内の主要ユーザーの好みや、政治的な問題、あるいは法規制により、 同じ組織内でN個のデータ基盤があるような場合もある  一次データだけでなく二次的なデータについても所在が分散  こうした現実に目を向けながら企業は『正しいデータに迅速にアクセス』する仕組み について考える必要がある Microsoft Azure 各種SaaS On-premise BigQuery Cloud Storage SQL DB Synapse Analytics Blob Storage Amazon S3 Amazon RDS Amazon Redshift SQL Server AWS Cloud

Slide 8

Slide 8 text

伝統的ソリューション 中央集権型のデータ基盤  これまで、データのサイロを解消するために企業は分散したデータを 一つの大きなデータ基盤に物理的に集約することでデータへのアクセスを実現してきた  この経験を経てモノリスな基盤の課題が指摘されているのが現状 1. 中央のデータエンジニアに委託する方式となることが多く、データ活用のスピードが低下するだけでなく、 ドメイン知識について現場とのギャップが発生しやすい 2. 中央集権を目指すはずのソリューションがいくつも発生し、しかも互換性をもたない状態 中央集権型データ基盤(モノリス)

Slide 9

Slide 9 text

データ基盤では何が起きているか データをビジネスアクションにつなげるまでの基本的流れ  一般に異なるデータソースが統合されることでBIや機械学習といったシナリオに変換さ れ、アクションにつながる  データ統合にはメダリオンアーキテクチャと呼ばれるような段階ごとにデータを整理するような考え方がある  安定したデータ消費には安定したデータエンジニアリングが不可欠となる 生データ (Bronze) 目的別の準備済みデータ ( Gold ) 整備済みデータ ( Silver ) BI 機械学習 ビジネスアクション データソース データ消費 データ統合

Slide 10

Slide 10 text

役割分担を行い、データ活用における知識のギャップをなくす 生データ (Bronze) 目的別の準備済みデータ ( Gold ) 整備済みデータ ( Silver ) BI アナリスト 分析ソリューションの専門家 データエンジニア データ統合を中心としたデータ整備の専門家 機械学習 データサイエンティスト 統計処理、機械学習 ソリューションの専門家 ビジネスユーザー 洞察をビジネスアクションへ 転用する利用者 ビジネスアクション  データ活用の一連の活動では様々なスキルセットを持つ人々が存在するが、 具体的な活用シナリオに近いほどビジネス知識が重要となる データ消費 データ統合 データソース

Slide 11

Slide 11 text

役割分担を行い、データ活用における知識のギャップをなくす 生データ (Bronze) 目的別の準備済みデータ ( Gold ) 整備済みデータ ( Silver ) BI アナリスト 分析ソリューションの専門家 データエンジニア データ統合を中心としたデータ整備の専門家 機械学習 データサイエンティスト 統計処理、機械学習 ソリューションの専門家 ビジネスユーザー 洞察をビジネスアクションへ 転用する利用者 ビジネスアクション  データ活用の一連の活動では様々なスキルセットを持つ人々が存在するが、 具体的な活用シナリオに近いほどビジネス知識が重要となる データ消費 データ統合 データソース 1つのチームでさばける量に限界 • 様々な部署から 異なる依頼 • 待たされる

Slide 12

Slide 12 text

セルフサービスの重要性  ビジネスの問いに『迅速』かつ『確実に』対応する方法は直接データにアクセスすること データの消費者自身が試行錯誤を実施できるセルフサービスの仕組みが重要 テクニカルなデータから ビジネスに生かせる情報の生成 洞察からアクションへ データ整備と提供 セルフサービスによる試行錯誤、改善サイクル アナリスト 分析ソリューションの専門家 データエンジニア データ統合を中心としたデータ整備の専門家 データサイエンティスト 統計処理、機械学習 ソリューションの専門家 ビジネスユーザー 洞察をビジネスアクションへ 転用する利用者 データ消費 データ統合 データの特定と取得 本当に整備すべきデータがわかる

Slide 13

Slide 13 text

MSも陥っていたBIの課題(セルフサービスモデル濫立) https://docs.microsoft.com/ja-jp/power-bi/guidance/center-of-excellence-microsoft-business- intelligence-transformation  一貫性の欠如  国や、個社、部署ごとに独自の考え 方で売上を計上する 「税別?税込?年間契約は月次 で按分?」  再利用されないデータ  アナリストが分析ではなく整理・収 集に時間を消費 「各アナリストが個別で集約を行い、 ロジックが組織全体で利用されな い」

Slide 14

Slide 14 text

データ製品指向によるデータガバナンス  データ製品指向(Data as Product):データに商業製品的な特性を適用する考え方  「データは水道のようにすぐに使えて、どこにでも同じような形で蛇口があり、安全であってほしい」  これらの原則でデータを統制し、セルフサービスを推進させることが重要とされている  検出、説明性:たとえばECサイトのように  データは発見が可能な状態(市場化)である  消費者に説明するためのカタログが付随する  データ契約:たとえばクラウドサービスのように  データには所有者が定められており、保証されている  データにおけるSLAを定義し、監視、統制する  相互運用性:たとえばねじや工具のように  データはあらゆる目的、場所でも同じように使えるようにフォーマットが標準化されている

Slide 15

Slide 15 text

セルフサービスとコラボレーションを重視した大規模データ戦略「データメッシュ」  分散型データオーナーシップ、ドメイン駆動設計  中央集権的にデータ管理するのではなく、ドメインそれぞれでデータを管理する  一貫したデータガバナンス  管理や所有権は各ドメインに委任されるが、全体で一貫したガバナンスを適用する  セルフサービスプラットフォーム  ユーザーにとってセルフサービスでデータ構築のしやすいツールを提供する 組織全体のデータをドメインに分割 ドメインA ドメインB ドメインC ・・・ 分割されたドメインチームそれぞれでデータを製品として開発

Slide 16

Slide 16 text

セルフサービスとコラボレーションを重視した大規模データ戦略「データメッシュ」  分散型データオーナーシップ、ドメイン駆動設計  中央集権的にデータ管理するのではなく、ドメインそれぞれでデータを管理する  一貫したデータガバナンス  管理や所有権は各ドメインに委任されるが、全体で一貫したガバナンスを適用する  セルフサービスプラットフォーム  ユーザーにとってセルフサービスでデータ構築のしやすいツールを提供する ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ検出と説明性 (データカタログ) データ契約 (データ品質・プライバシー) 相互運用性 (データ標準化) データガバナンス データメッシュ ストレージ・パイプライン・分析ツール セルフサービスプラットフォーム 各ドメインのデータオーナーシップのもと相互に データ製品を交換・昇華する

Slide 17

Slide 17 text

参考)データメッシュスタイル  Data Mesh: Topologies and domain granularity | by Piethein Strengholt | Towards Data Science

Slide 18

Slide 18 text

セルフサービスプラットフォームを実現するテクノロジーは?  データメッシュは組織の構造と文化のアプローチ  ガバナンスのもとにセルフサービスを推進するためにはテクノロジーが必要  特にドメイン内のデータ製品開発、ドメイン間のデータ交換ではデータへのアクセス性の向上が重要となる ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ検出と説明性 (データカタログ) データ契約 (データ品質・プライバシー) 相互運用性 (データ標準化) データガバナンス データメッシュ ストレージ・パイプライン・分析ツール セルフサービスプラットフォーム

Slide 19

Slide 19 text

Web API データへのアクセス性を高めるデータ統合技術  物理統合  ETL(抽出・変換・取込)やレプリケーションにより、データをデータウェアハウスやデータレイクに移送する  仮想統合  仮想化技術を通じて実際にデータがどこにあるかに関わらず利用可能な状態にする  統合アクセスポイント  クラウドネイティブな Web API を通じて様々なツール、目的をもつデータ消費者にデータを配信する ストレージ BI 機械学習 データ消費 分散されたデータ配置 データ統合 レプリケーション ETL 仮想化

Slide 20

Slide 20 text

セルフサービスを実現するためのテクノロジー「データファブリック」  データファブリックとは、組織内のデータを効率的に管理・利用するための技術を包括した、 テクノロジーの集合体  以下のコンポーネントで構成される  データ統合:ETL、仮想化などを通じてデータを利用可能にする機能  データ分析:BIや可視化、機械学習のワークロードを実行する機能  ストレージとコンピューティング:データウェアハウス、データレイクなどの方式で提供されるデータ蓄積・処理機能  データマネジメント:メタデータ管理や、ガバナンスの機能  AI・自動化:各種の機能にAIを適用し、自動化を行う ETL/仮想化 Web APIによる データ提供 データレイク データウェアハウス BI・可視化 機械学習 メタデータ収集 カタログ化 プライバシー アクセス制御 データ統合 データファブリック データマネジメント ストレージとコンピューティング データ分析 AI・自動化 データ配置やクエリの最適化 AIによる予測、インサイトの自動抽出 メタデータ自動付与やデータ品質の監視 自動収集・マッピング 組織全体のデータ活用 組織内データ セルフサービス による加速 統合による アクセス性向上 ビジネスアクション 分散されたデータ

Slide 21

Slide 21 text

Microsoft Fabric

Slide 22

Slide 22 text

トライアルと導入 サインオン ナビゲーションモデル ワークスペース コラボレーション データレイク ストレージフォーマット 全てのエンジンで使用可能なデータコピー セキュリティモデル CI/CD 監視ハブ データハブ ガバナンスとコンプライアンス 単一化されたUX Microsoft Fabric データ活用にまつわるすべての機能を All-in One 型で提供する分析 SaaS インテリジェントデータファブリック AI による作業支援 共有型作業環境 一体化したコンピューティング容量 統合セキュリティ ”単一”のデータレイク データ統合 データ エンジニアリング データ ウェアハウス リアルタイム 分析 データ サイエンス ビジネス インテリジェンス

Slide 23

Slide 23 text

Microsoft Fabric エクスペリエンス Data Factory Synapse Data Engineering Synapse Data Warehouse Synapse Real-Time Analytics Synapse Data Science Power BI Data Activator (Preview) データ統合 様々なロケーションにあ るデータシステムから データを収集するコネク タをもち、 ETLプロセス全体のワー クフローをパイプラインと して定義・実行する データエンジニアリング データレイクハウスを構 成し、Apache Spark を使用した分散処理 により、組織内のデータ を変換・準備する データウェアハウス ペタバイトスケールで最 高のパフォーマンスを備 え、T-SQL べースで分 析が可能なリレーショナ ルDWH を構築する リアルタイム分析 時系列データに最適 化されたデータベースに 任意の形式のデータを 迅速に取り込み変換 し、ニアリアルタイムで 分析クエリの実行、可 視化 データサイエンス MLflow が統合された jupyter ライクな UI 上 で機械学習モデルの 学習と推論を行うこと で分析情報を強化す る ビジネスインテリジェンス 豊富なビジュアルと分 析機能を使用して、 データ探索の実施や企 業の意思決定を迅速 化するダッシュボードを 構築する データドリブン Fabric 上で作成した 分析結果を監視、通 知し、データとビジネス アクションを連動させる ことでデジタルフィード バックループを促進する Fabric 限定の 新機能

Slide 24

Slide 24 text

データメッシュ、データファブリックの文脈での Microsoft Fabric を考える 1. データファブリックとしてどのようなテクノロジーがデータへのアクセスを効率化するか 2. データメッシュ戦略を実施するためにどのようなサポートが存在するか

Slide 25

Slide 25 text

データメッシュ、データファブリックの文脈での Microsoft Fabric を考える 1. データファブリックとしてどのようなテクノロジーがデータへのアクセスを効率化するか 2. データメッシュ戦略を実施するためにどのようなサポートが存在するか

Slide 26

Slide 26 text

バッチ・ストリーム双方の取り込みに対応可能 バッチ処理のシナリオに対応し、100 を超えるコネ クタであらゆる場所のデータをコピーする Azure Databricks 、 Azure Machine Learning とのオーケストレー ションや、Outlook や Teams との接続も可能 ストリーム処理のシナリオに対応し、Azure Event Hubs 、Azure IoT Hub など様々なデータからイ ベントデータをフェッチ 独自のアプリケーションから直接の送信も可能に するカスタムアプリ機能も提供 処理したデータは時系列分析に最適化された KQL データベースなどに連携可能 Data Factory Synapse Real-Time Analytics

Slide 27

Slide 27 text

OneLake とサーバレスコンピューティング  中核となる OneLake ストレージと、分離されたコンピューティングエンジンにより どのようなワークロードでもコピーせずに同じデータにアクセス OneLake ストレージ サーバレス コンピューティング Finance Customers 360 Service Telemetry Business KPIs T-SQL Spark KQL Analysis Services Delta – Parquet Format Delta – Parquet Format Delta – Parquet Format Delta – Parquet Format データウェアハウス、データレイクハウ スなど全てのワークロードのデータは OneLake に自動保存 コンピューティングはストレージと分離さ れ、別のエンジンで処理したデータを相 互に処理可能 非構造化、構造化問わずに保存 可能なストレージ 構造化データはDelta – Parquet と呼ばれるOpenフォーマットで保管 データ ウェアハウス データ エンジニアリング データ統合 データ サイエンス リアルタイム 分析 ビジネス インテリジェンス

Slide 28

Slide 28 text

クラウドデータレイクとの仮想統合が可能  OneLakeショートカットにより、既存のクラウドデータレイクの資産を Fabric で活用することが 可能 OneLake クラウドストレージ Azure Data Lake Storage Gen2 Amazon S3 ショートカット データ移動なしで直接 Fabric 外部のデータにアクセス

Slide 29

Slide 29 text

Databricks 社の開発したストレージ OSS によりデータアクセスを標準化 特徴 • オープンかつシンプル: • ベンダーロックインなく、あらゆるツールからアクセス可能 • SQL/Python 双方での共通データアクセス • 統一されたバッチ、ストリーミング • DWHとデータレイクのいいとこどり: • 列指向フォーマットを背景に高速なクエリ • タイムトラベル機能による過去データの遡り • スキーマの自動拡張 or 強制 • 構造化~非構造化データに対応しつつ高い圧縮率 • コンプライアンス対応: • 監査履歴 • UPDATE, DELETEによるデータ操作 オープンフォーマットDelta Lakeの採用

Slide 30

Slide 30 text

オープンフォーマット/APIによるあらゆるツールからのデータアクセス  Azure Data Lake と同様の API を採用しており、Azure 内外の分析サービスから Fabric のDelta - Parquetにアクセス可能 OneLake クラウドストレージ Azure Data Lake Storage Gen2 Amazon S3 ショートカット Fabric 上のテーブルを任意のサービスで分析 Azure Databricks Azure Synapse Analytics Azure Analytics

Slide 31

Slide 31 text

外部データシステムからのニアリアルタイムレプリケーションに対応予定  New! ) ミラーリングにより、No-ETL で既存のデータシステムからのデータを連携 OneLake クラウドストレージ Azure Data Lake Storage Gen2 Amazon S3 ショートカット 外部データシステム Azure Databricks Azure Synapse Analytics Azure Analytics Azure SQL DB Snowflake Azure Cosmos DB そのほかも・・・ MongoDB Fabric 外部のデータシステム からレプリケーション

Slide 32

Slide 32 text

Copilot for Microsoft Fabric によるデータ分析支援 Data Factory Synapse Data Engineering Synapse Data Warehouse Synapse Real-Time Analytics Synapse Data Science Power BI Data Activator

Slide 33

Slide 33 text

データファブリックとしての今後の注目点  データガバナンスサービスとの連携  Microsoft Purview との連携は今のところコンプライアンスや、データの状況が中心で、データカタログとしての Purview との連動性について大きな統合のニュースに期待  データプライバシーの管理  きめ細やかアクセス制御の管理

Slide 34

Slide 34 text

データメッシュ、データファブリックの文脈での Microsoft Fabric を考える 1. データファブリックとしてどのようなテクノロジーがデータへのアクセスを効率化するか 2. データメッシュ戦略を実施するためにどのようなサポートが存在するか

Slide 35

Slide 35 text

Microsoft Fabric ドメイン データ ウェアハウス データ エンジニアリング データ統合 データ サイエンス リアルタイム 分析 ビジネス インテリジェンス OneLake ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG  OneLake をベースにサービスとしてのデータ メッシュをサポート  サービス内の設定でドメインを 定義可能  サブドメイン/ドメインロール/委任設定  ワークスペース単位で割り当て  ワークスペースのアイテムはすべてドメイン に関連付けられる

Slide 36

Slide 36 text

Fabric アイテムの認定  組織内で信頼できるデータ製品にラベリングをすることで、コラボレーションを促す 承認の概要 - Microsoft Fabric | Microsoft Learn  昇格→認定の順でラベル付け  認定されたグループのみが判定 を行う設計となっている  各ドメインで認定者をそれぞれ構成可能

Slide 37

Slide 37 text

OneLake データハブ Microsoft OneLake in Fabric、データ向けOneDrive |Microsoft ファブリック ブログ |Microsoft ファブリック OneLake 内で分散管理されたデータを効率的に見つけて、利用するためのハブ  Fabric に関連する各種ツールに組み 込まれており、いつでもデータを検出・ 接続可能  ドメインおよび認定と連動し、 特定のドメインにフィルタリングしたり、 認定済みデータの一覧を表示可能

Slide 38

Slide 38 text

まとめ  ビジネスに確実に役立てるデータ活用はセルフサービスの仕組みによるデータの 民主化が不可欠  データメッシュ戦略により中央データチームにボトルネックをもたない、かつガバナン スをきかせた組織づくり  複雑化するデータ活用の世界で、データアクセスを効率化するデータファブリック テクノロジーを理解し、活用する  Microsoft Fabric はデータファブリックとしてのテクノロジーをもち、データメッシュ 戦略を支援する

Slide 39

Slide 39 text

Microsoft Fabric コミュニティリソース ✓ Microsoft Fabric を無料体験する: https://aka.ms/try-fabric ✓ Fabric コミュニティとつながる: https://aka.ms/fabriccommunity ✓ 機能リクエストをして新機能に投票する: https://aka.ms/fabricideas ✓ MS 公式ブログを読む : https://aka.ms/fabricblog ▪ 製品サイト : https://aka.ms/fabric ▪ Buildでのデジタルイベント動画 : https://aka.ms/build-with-analytics ▪ ドキュメント : https://aka.ms/fabric-docs ▪ eブック: https://aka.ms/fabric-get-started-ebook ▪ Microsoft Learn: https://aka.ms/learn-fabric ▪ エンドツーエンドのチュートリアル : https://aka.ms/fabric-tutorials ▪ Fabric Notes (解説図集): https://aka.ms/fabric-notes

Slide 40

Slide 40 text

その他参考リソース1  How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com)  クラウド規模の分析 - Azure 向けの Microsoft Cloud 導入フレームワーク - Cloud Adoption Framework | Microsoft Docs  ★データ基盤の新たな潮流:データファブリック ~データとAIの活用を加速させる新たなアプローチ |前編 データファブリックの概要 - アイマガジン|i Magazine|IS magazine  Data Fabric vs Data Mesh: 3 Key Differences, How They Help and Proven Benefits  データメッシュとデータファブリックを実現させるデータガバナンス  拡張データ管理: データ ファブリックとデータ メッシュ (ibm.com)  データ・ファブリックとは|アイビーエム (ibm.com)  ガートナーの2021年のトップデータと分析トレンド (gartner.com)  Using Data Fabric Architecture to Modernize Data Integration (gartner.com)  データファブリック:ナレッジグラフのキラーユースケース (datanami.com)  ★データファブリックとデータメッシュ:どこが違うのか?|北原 祐司 / 「データとAIの民主化」を目指す Databricks|note  データファブリックとは最新のエンタープライズデータアーキテクチャ (k2view.com)  James Serra's Blog  データ メッシュ: トポロジとドメインの粒度|ピエテイン・ストレングホルト・|データサイエンスに向けて (towardsdatascience.com)

Slide 41

Slide 41 text

その他参考リソース2  ★データメッシュの概念について理解する - connecting the dots (hatenablog.com)  Data Mesh: Centralized ownership vs decentralized ownership | James Serra's Blog  成功するデータメッシュの構築 – 単なるテクノロジーイニシアチブ以上のもの|リンクトイ ン (linkedin.com)  Data Trends: Comparing Data Fabrics, Data Meshes, And Knowledge Graphs – Diffblog (diffbot.com)  Data Mesh: The Balancing Act of Centralization and Decentralization | by Piethein Strengholt | Mar, 2022 | Towards Data Science  Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics (cidrdb.org)

Slide 42

Slide 42 text

ご清聴ありがとうございました。