Microsoft Data Analytics の注目キーワード 「Lakehouse」「Data Mesh」について Microsoft MVP for Data Platform 永田 亮磨 Twitter:@ryomaru0825 Linkedin:ryoma-nagata-0825 Qiita:qiita.com/ryoma-nagata
1. データレイクハウスについて ※前回のAnalytics Day の「データレイクとは」の内容のおさらいを含みます。説明を一部割愛しているのでデータレイク自体の詳細は以下参照 What‘s Data Lake ? Azure Data Lake best practice - Speaker Deck 2. データメッシュについて AGENDA
• データレイクによりスキーマの定義や、ファイル形式の制限なく、自由に低コストでデータを保管可能に • ELTというと、データレイクを前提とした構成を指すことが多い • Machine Learning分野においてもデータレイクの利用が好まれた データレイクの登場 デ ー タ 抽 出 ・ 取 込 Data Warehouse Data Sources Data Marts (Curated) BI Dashboard Explorer 分 析 Raw デ ー タ 抽 出 ・ 取 込 ・ 変 換 Data Lake ML Model 解 析 ML 記述的分析:今何が起こってい るか 診断分析:なぜ起こったか 予測分析:これから何が起こる のか 規範的分析:どうすれば起こせ るのか
• データレイク上で変換用に分散処理フレームワーク(Hadoop,Spark)を利用することによるスケーラビリティ向上 • 分析クエリ処理性能(DWH)とデータ変換処理性能(データレイク)で異なるリソースを利用して適材適所化 • データレイク上にデータがあることで、複数種のシステムへの展開が可能=ベンダーフリー データレイク×DWH構成 Modern Data Warehouse デ ー タ 抽 出 ・ 取 込 Data Warehouse Data Sources Data Marts (Curated) BI Dashboard Explorer 分 析 Raw Data Lake ML Model ML Enriched Enriched Curated 解 析 デ ー タ 変 換 デ ー タ 変 換 データ抽出・取込 データ抽出・取込
• 多様なユースケースには混合型のデータストアに対応した結果、 同じ内容のデータであっても、異なる目的では異なるデータストアにアクセスする複雑さが生まれた データレイク×DWH構成 Modern Data Warehouse デ ー タ 抽 出 ・ 取 込 Data Warehouse Data Sources Data Marts (Curated) BI Dashboard Explorer 分 析 Raw Data Lake ML Model ML Enriched Enriched Curated 解 析 デ ー タ 変 換 デ ー タ 変 換 データ抽出・取込 データ抽出・取込 シンプルな方式で 実現できないのか?
ストレージ層 アクセスしたい データ • Databricks社が提唱した名称(現在ではガートナーもハイプサイクル内に位置づけ) • 以下を実現することで、データ分析/サイエンス、MLを一つのプラットフォームで実現する • 異なる言語でも同じデータにアクセスができる • それぞれのデータアクセス、処理は分離されたコンピューティングエンジンが柔軟に性能を提供する データレイクハウス型の情報基盤 • Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics (cidrdb.org) 11 Data Sources BI Dashboard Explorer SQL Lakehouse ML Model ML Pythn コンピューティングエンジン (BI) API コンピューティングエンジン (ML) コンピューティング エンジン (ETL)
Delta Lakeによるデータレイクハウス 12 • ストレージ層にDWH機能+αをSWレベルで構成し、DWHとデータレイクのいいとこどりを実現する • DWHライクなデータ管理性とデータレイク譲りのコスト効率、柔軟性 • ストレージとコンピューティングの分離によるスケーラビリティ、オープンな共有 • SQL / Python双方のAPIをもつことによる透過的なデータアクセス ストレージ層 Data Sources BI Dashboard Explorer SQL Lakehouse ML Model ML Pythn コンピューティングエンジン API Raw Enrich Curate
モノリスなデータ基盤 • How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com) • これまで、データのサイロを解消するために企業は分散したデータを 一つの大きなデータ基盤に物理的に集約することでデータへのアクセスを実現してきた • この経験を経てモノリスな基盤の課題が指摘されているのが現状 • データのユースケースは組織が成熟するにつれて増大し、 モノリシックな構造ではユースケースの多様化に対応しにくい • ドメインエキスパートと中央のデータエンジニアが組織的に分離していることで、 ユースケースを実現するスピードが低下し、お互いに不満をもつ対立的な構造となる モノリシックデータ基盤
• ドメイン分割する際に、中央集権:分散のバランスによってデータメッシュの様式 は、いくつかの粒度が考えられる データメッシュスタイル • Data Mesh: Topologies and domain granularity | by Piethein Strengholt | Towards Data Science
• ★データメッシュの概念について理解する - connecting the dots (hatenablog.com) • Data Mesh: Centralized ownership vs decentralized ownership | James Serra's Blog • 成功するデータメッシュの構築 – 単なるテクノロジーイニシアチブ以上のもの|リン クトイン (linkedin.com) • Data Trends: Comparing Data Fabrics, Data Meshes, And Knowledge Graphs – Diffblog (diffbot.com) • Data Mesh: The Balancing Act of Centralization and Decentralization | by Piethein Strengholt | Mar, 2022 | Towards Data Science 参考リンク集2