$30 off During Our Annual Pro Sale. View Details »

Importance keyword and MS Build 2022 update for Data Analytics Platform

Importance keyword and MS Build 2022 update for Data Analytics Platform

Ryoma Nagata

June 16, 2022
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Microsoft Data Analytics
    の重要キーワードについて
    Microsoft MVP for Data Platform
    永田 亮磨

    View Slide

  2. おしながき
    3
    • データプラットフォームの最新キーワード
    • レイクハウス
    • データメッシュ
    • Microsoft Build 2022での注目すべき最新機能

    View Slide

  3. データプラットフォームの最新キーワードについて

    View Slide

  4. Lakehouse
    5
    Source: Gartner Hype Cycle for Data Management,
    2021, Philip Russom, Donald Feinberg, 27th July 2021.

    View Slide

  5. 従来のDWH型情報基盤
    6
    • ニーズ:サイロ化した業務システムの分析のためにデータを統合・集約した
    DWH が必要となった
    • 問題:高コスト、スキーマオンライト(後述)、ML対応が困難
    データソース:サイロ化した業務システム
    統合:様々なデータを抽出、変換、ロード(ETL)
    DWH:データマートの集合体としてRDBMSに保管
    BI、可視化:ユーザライクなツールによるデータの分析

    View Slide

  6. データレイク型情報基盤
    (2層データレイク+DWHアーキテクチャ
    7
    • ニーズ:柔軟性の確保、 低コスト化(特に効果大)、MLのためのオブジェ
    クトストレージアクセス
    • 問題:サービス間ロードによるデータ鮮度の古さ、複雑さ、ファイル管理性、
    MLとBIを両立させる際のアクセス非効率性
    データソース:構造化、非構造化データ
    データレイク:生データ、加工済みデータ(2層)
    DWH/リアルタイムDB:長所を組み合わせた構成
    BI、可視化:DWHデータを利用
    ML:データレイク上データを利用

    View Slide

  7. レイクハウス型の情報基盤の到来
    8
    • ニーズ:データレイク上のCRUDオペレーション、SQL, MLからの透過的なア
    クセス
    • 主要SW:Delta Lake(from Databricks), Iceberg(from Netflix),
    Hudi(from Uber)
    • What is a Data Lakehouse? – Databricks

    View Slide

  8. Delta Lake
    9
    • Databricks社が開発した、レイクハウスの
    中核を担うOSS
    • DWH機能をデータレイク上に実現
    • UPDATE,MERGEなどのDML実行
    • SQL 、python 双方での共通データアクセス
    • タイムトラベル機能など
    • データレイクの長所を維持
    • 実態はparquetファイルのため高圧縮率
    →コスト効率大
    • jsonなどの非構造化データに対応

    View Slide

  9. Delta LakeによるLakehouse
    10
    • ストレージ層にDWH機能+αをSWレベルで構成し、DWHとデータレイクのいいとこどりを実現する
    • DWHライクなデータ管理性
    • データレイク譲りのコスト効率、柔軟性
    • ストレージとコンピューティングの分離によるスケーラビリティ
    • SQL / Python双方のAPIをもつことによる透過的なデータアクセス
    ストレージ層
    Data
    Sources
    BI
    Dashboard Explorer
    SQL
    Lakehouse
    ML Model
    ML
    Pythn
    コンピューティングエンジン
    API

    View Slide

  10. Data Mesh
    11
    • Zhamak Dehghani氏が提唱した、
    従来の中央集権的なデータ基盤の課題
    に注目し、
    セルフサービス重視の分散型データ基盤
    を目指すアーキテクチャパターン
    • 一般的アプリケーション開発で実証され
    たドメイン駆動設計の考え方を
    データアプリケーションに導入した
    • 類似の概念にData Fabricがあるが、
    Data Meshは組織的なアプローチであ
    り対立するものではない
    How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
    (martinfowler.com)

    View Slide

  11. モノリシックデータ基盤の課題
    12
    • これまでのデータ基盤はモノリシックな設計を行い、
    企業のすべてのデータを集約していたが、いくつかの問題点が指摘されている
    • データのユースケースは組織が成熟するにつれて増大し、モノリシックな構造ではユースケースの多様化に
    対応しにくい
    • ドメインエキスパートとデータエンジニアが組織的に分離していることで、
    ユースケースを実現するスピードが低下し、お互いに不満をもつ対立的な構造となる
    モノリシックデータ基盤

    View Slide

  12. Data Mesh アーキテクチャ
    13
    • データストアをドメイン毎に構成することで、データの所有権をドメインエキスパートに委任する
    • 各ドメインで昇華されたデータはデータ製品とされ、他ドメインと共有契約に基づき再利用される
    • データガバナンスは全ドメインと接続し、統制をはかる
    • 各ドメインに対してデータインフラとしてテクノロジー、ツールを提供する
    データメッシュ

    View Slide

  13. Data Mesh @Microsoft
    14
    • Microsoft docsではデータ分析シナリ
    オに関するCAFを公開
    • データメッシュパターンにも触れられており、
    リファレンスアーキテクチャはデータメッシュ
    を意識したものとなっている
    • Data Mesh 関連のセッションも開催さ
    れており、今後の製品展開も
    レイクハウス、データメッシュ型の基盤を
    いかにスムーズに展開できるかに注力す
    るものと考えられる
    クラウド規模の分析 - Azure 向けの Microsoft Cloud 導入フレームワーク
    - Cloud Adoption Framework | Microsoft Docs

    View Slide

  14. Microsoft Build 2022 注目アップデート
    分析系における注目アップデート

    View Slide

  15. Synapse Link for Microsoft SQL (Preview)
    16
    • HTAPを実現するSynapse Linkの対応データストアにMS SQLが追加
    • MS製品で構成した各種の運用システムのDBは
    Synapse Linkによりノーコードで即座に分析できるビジョンを示した
    Microsoft Data Services Azure Synapse Analytics
    ノーコードETL
    ニアリアルタイム分析
    Azure
    Synapse Link
    SQL
    Machine learning
    Big data analytics
    BI Dashboards
    Cosmos DB Dataverse SQL Server 2022
    Azure SQL
    New!!

    View Slide

  16. Power BI Datamart (Preview)
    17
    • Power BI Service上に分析専用のSQLDBをSaaS型で提供
    • 最大100GBまで保持可能。保持されたデータは適切にクラスタリング、パーティションが構成され高速に分析クエリを実行可能
    • Desktopツール不要で分析モデル構築から可視化まで(SaaSification)
    • 以前より小規模なユースケースや、アドホック分析に対応するためにSynapse or SQL DB もしくは双方という構成がとられていたシナリオ
    に対しての最適解となる見込み
    • 規模に見合わない場合の構成のムダコスト
    (スケーラブルだがニーズと合致しない場合がある)
    • 管理範囲の拡大
    • 構築、連携のための広範な知識
    Synapse SQL
    or Azure SQL
    (DWH~データマート)
    Dataset
    (分析モデル)
    Report Dataset
    (分析モデル)
    Report
    Power BI Service Power BI Service
    Datamart
    New!!
    Power BI Datamart以前
    • ETLから可視化までをWeb上で実現
    • SaaS化による構築、管理の超簡素化
    • ほとんどすべての小規模なユースケースに経済的
    に対応(Premium Per Userに含まれる)
    Power BI Datamart以後
    DWH
    各種
    データソース
    各種
    データソース

    View Slide

  17. Thank you !

    View Slide