$30 off During Our Annual Pro Sale. View Details »

Data Platform MVP から見た、Azure Data Platform 最新動向 (Analytics)

Data Platform MVP から見た、Azure Data Platform 最新動向 (Analytics)

Ryoma Nagata

October 13, 2022
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Azure Analyticsの動向①
    分析環境は統合されシンプル化路線へ

    View Slide

  2. Dataアーキテクチャの変遷
    1980’s
    Data Warehouse
    Staging
    Data
    Warehouse
    Data
    Lake
    Data
    Warehouse
    Data
    Lakehouse
    Data
    Mart
    Data
    Mart
    Data
    Mart
    Data
    Mart
    Data
    Mart
    Data
    Mart
    2010’s
    Data Lake
    2020’s
    Data Lakehouse
    登録
    Raw
    Enrich
    Curate
    変換
    変換
    取込
    抽出/
    登録
    変換
    BI/Reports
    Data Science
    ML
    Raw
    Enrich
    Curate
    変換
    変換
    BI/Reports BI/Reports
    Data Science
    ML
    取込

    View Slide

  3. Data Lakehouseを実現するストレージレイヤOSS
    Delta Lake
    特徴
    • オープンかつシンプル:
    • ベンダーロックインなく、あらゆるツールからアクセス可能
    • SQL/Python 双方での共通データアクセス
    • 統一されたバッチ、ストリーミング
    • DWHとデータレイクのいいとこどり:
    • 高速なクエリ
    • タイムトラベル機能による過去データの遡り
    • スキーマの自動拡張 or 強制
    • 構造化~非構造化データに対応しつつ高い圧縮率
    • コンプライアンス対応:
    • 監査履歴
    • UPDATE, DELETEによるデータ操作
    https://delta.io/

    View Slide

  4. Data Lakehouse on Microsoft Intelligent Data Platform
    あらゆるデータ活用が可能な統合分析環境を実現
    Databricks SQL
    Serve Serve
    Raw Enrich Curate
    Data Lake Storage
    Store
    Azure Databricks
    Process
    Ingest Process Ingest
    Event Hubs Event Hubs
    Data Factory Azure Machine Learning
    Power BI
    Store
    Azure Synapse Analytics
    Spark Pool
    Synapse Analytical Engines
    SQL Pool
    Data Explorer
    Pool
    Power BI
    Azure Machine Learning
    Raw Enrich Curate
    Data Lake Storage
    Pipelines
    Synapse Analytics Lakehouse Databricks Lakehouse

    View Slide

  5. データ×テクノロジー×スキルのサイロを無くす統合分析環境へ
    各所に散らばる
    データのサイロ
    組合せを強いられる
    テクノロジーのサイロ
    多様なペルソナが関わることで起きる
    スキルのサイロ
    Azure Synapse Analytics
    データ統合機能 分析エンジン、蓄積エンジン 統合管理・開発UI
    単一の分析UXに統合

    View Slide

  6. データ×テクノロジー×スキルのサイロを無くす統合分析環境へ
    各所に散らばる
    データのサイロ
    組合せを強いられる
    テクノロジーのサイロ
    多様なペルソナが関わることで起きる
    スキルのサイロ
    Azure Synapse Analytics
    データ統合機能 分析エンジン、蓄積エンジン 統合管理・開発UI
    単一の分析UXに統合
    (New) SAP Change Data Connector
    (New) M365データパイプライン
    テンプレート & Dataflow コネクタ
    (New) Data ExplorerのS3、
    Cosmos DBなどのソース追加
    (New) Synapse MLのMLflow,
    GPT統合などの更新
    (New) R言語サポート

    View Slide

  7. Azure Analyticsの動向②
    データガバナンスの実現

    View Slide

  8. データドリブン企業の注目する関心事 データガバナンス
    データガバナンスの目標
    1. 組織が自身のデータを資産として管理できるようにする
    2. データマネジメントに関する原則、ポリシー、手続き、評価指標、ツール、責任について定義し、承認し、
    伝達し、実施する
    3. ポリシーの順守、データの利用、管理活動を監視し、導く
    DAMA International.『データマネジメント知識体系ガイド 第二版』.日経BP社.2018年,96p
    リスク管理
    データ
    セキュリティ
    プライバシー コンプライアンス対応
    データ品質改善
    メタデータ管理
    PJ効率化
    データ契約管理

    View Slide

  9. Microsoft Purview データガバナンス
    Data Map
    メタデータを大規模に自動管理する
    On-prem
    Cloud
    SaaS
    Applications
    Azure
    Synapse
    Analytics
    Power BI
    Azure SQL
    SQL Server
    Microsoft Purview governance portal
    データ提供者と消費者
    Data Catalog
    信頼できるデータを
    簡単に発見
    Data Policy
    データアクセスを統制
    一般提供
    プレビュー
    データ責任者
    Data Sharing
    組織内外でデータを共有
    Data Estate
    Insights
    データ資産の状態を確認

    View Slide

  10. Microsoft Purview データガバナンス
    Data Map
    メタデータを大規模に自動管理する
    On-prem
    Cloud
    SaaS
    Applications
    Azure
    Synapse
    Analytics
    Power BI
    Azure SQL
    SQL Server
    Microsoft Purview governance portal
    データ提供者と消費者
    Data Catalog
    信頼できるデータを
    簡単に発見
    Data Policy
    データアクセスを統制
    一般提供
    プレビュー
    データ責任者
    Data Sharing
    組織内外でデータを共有
    Data Estate
    Insights
    データ資産の状態を確認
    (New) メタモデルの定義
    (New) SQL 動的リネージュ (現在一般
    公開) ときめ細かいリネージュ
    (New) 機械学習モデルによる分類

    View Slide

  11. Azure Analyticsの動向③
    企業全体のデータ活用は分散型へ

    View Slide

  12. Cloud Adoption Framework for Cloud Scale Analytics
    Data as Product ・・・データを製品とみなすことで
    するべきことを決めるアナロジー思考
    • 検出、説明性:ECサイトのように
    • 製品は発見が可能な状態(市場化)で、製品を説明
    するドキュメントを設ける
    • データ契約:クラウドサービスのように
    • 責任分界点と品質の基準(SLA)を定義する
    • アクセス権を与え、品質を監視する
    • 相互運用性:工具や家具のように
    • 様々なシーンで使えるための
    製品規格(フォーマットや列名称など)を定める

    View Slide

  13. モノリス(中央集約)からデータメッシュ(分散委任型)へ
    • データを組織にあわせてドメイン分割し、製品としてコラボレーション
    • 定義済みのプラットフォームを各ドメインに提供することで、
    ドメインチームとCoEによるセルフサービス開発を促す
    • データの準備は中央データ基盤チームに依頼する受託開発方式
    • 単一のデータ基盤を全ユースケースで共有
    ビッグデータ
    ソリューション
    データソース データ活用
    単一基盤
    モノリスデータ基盤 データメッシュ型基盤

    View Slide

  14. データコラボレーションの拡充
    Purview インプレースデータ共有 Power BI インプレースデータセット共有
    Power BI Service
    Power BI Service
    データセット
    Azure ADテナント Azure ADテナント
    コンテンツ
    データハブ
    検出・検索 発行
    B2B コラボレーションユーザー
    外部データ参照
    データ提供者
    共有データ発行
    外部アクセス権付与
    Data Lake Storage
    Purview Data Governance
    共有元への
    シンボリックリンク作成
    インビテーション
    共有データ参照
    共有データ
    アクセス
    データ提供者 データ消費者
    Data Lake Storage
    Data Share
    共有の作成

    View Slide