Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Platform MVP から見た、Azure Data Platform 最新動向 (Analytics)

Data Platform MVP から見た、Azure Data Platform 最新動向 (Analytics)

Ryoma Nagata

October 13, 2022
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Dataアーキテクチャの変遷 1980’s Data Warehouse Staging Data Warehouse Data Lake Data

    Warehouse Data Lakehouse Data Mart Data Mart Data Mart Data Mart Data Mart Data Mart 2010’s Data Lake 2020’s Data Lakehouse 登録 Raw Enrich Curate 変換 変換 取込 抽出/ 登録 変換 BI/Reports Data Science ML Raw Enrich Curate 変換 変換 BI/Reports BI/Reports Data Science ML 取込
  2. Data Lakehouseを実現するストレージレイヤOSS Delta Lake 特徴 • オープンかつシンプル: • ベンダーロックインなく、あらゆるツールからアクセス可能 •

    SQL/Python 双方での共通データアクセス • 統一されたバッチ、ストリーミング • DWHとデータレイクのいいとこどり: • 高速なクエリ • タイムトラベル機能による過去データの遡り • スキーマの自動拡張 or 強制 • 構造化~非構造化データに対応しつつ高い圧縮率 • コンプライアンス対応: • 監査履歴 • UPDATE, DELETEによるデータ操作 https://delta.io/
  3. Data Lakehouse on Microsoft Intelligent Data Platform あらゆるデータ活用が可能な統合分析環境を実現 Databricks SQL

    Serve Serve Raw Enrich Curate Data Lake Storage Store Azure Databricks Process Ingest Process Ingest Event Hubs Event Hubs Data Factory Azure Machine Learning Power BI Store Azure Synapse Analytics Spark Pool Synapse Analytical Engines SQL Pool Data Explorer Pool Power BI Azure Machine Learning Raw Enrich Curate Data Lake Storage Pipelines Synapse Analytics Lakehouse Databricks Lakehouse
  4. データ×テクノロジー×スキルのサイロを無くす統合分析環境へ 各所に散らばる データのサイロ 組合せを強いられる テクノロジーのサイロ 多様なペルソナが関わることで起きる スキルのサイロ Azure Synapse Analytics

    データ統合機能 分析エンジン、蓄積エンジン 統合管理・開発UI 単一の分析UXに統合 (New) SAP Change Data Connector (New) M365データパイプライン テンプレート & Dataflow コネクタ (New) Data ExplorerのS3、 Cosmos DBなどのソース追加 (New) Synapse MLのMLflow, GPT統合などの更新 (New) R言語サポート
  5. Microsoft Purview データガバナンス Data Map メタデータを大規模に自動管理する On-prem Cloud SaaS Applications

    Azure Synapse Analytics Power BI Azure SQL SQL Server Microsoft Purview governance portal データ提供者と消費者 Data Catalog 信頼できるデータを 簡単に発見 Data Policy データアクセスを統制 一般提供 プレビュー データ責任者 Data Sharing 組織内外でデータを共有 Data Estate Insights データ資産の状態を確認
  6. Microsoft Purview データガバナンス Data Map メタデータを大規模に自動管理する On-prem Cloud SaaS Applications

    Azure Synapse Analytics Power BI Azure SQL SQL Server Microsoft Purview governance portal データ提供者と消費者 Data Catalog 信頼できるデータを 簡単に発見 Data Policy データアクセスを統制 一般提供 プレビュー データ責任者 Data Sharing 組織内外でデータを共有 Data Estate Insights データ資産の状態を確認 (New) メタモデルの定義 (New) SQL 動的リネージュ (現在一般 公開) ときめ細かいリネージュ (New) 機械学習モデルによる分類
  7. Cloud Adoption Framework for Cloud Scale Analytics Data as Product

    ・・・データを製品とみなすことで するべきことを決めるアナロジー思考 • 検出、説明性:ECサイトのように • 製品は発見が可能な状態(市場化)で、製品を説明 するドキュメントを設ける • データ契約:クラウドサービスのように • 責任分界点と品質の基準(SLA)を定義する • アクセス権を与え、品質を監視する • 相互運用性:工具や家具のように • 様々なシーンで使えるための 製品規格(フォーマットや列名称など)を定める
  8. データコラボレーションの拡充 Purview インプレースデータ共有 Power BI インプレースデータセット共有 Power BI Service Power

    BI Service データセット Azure ADテナント Azure ADテナント コンテンツ データハブ 検出・検索 発行 B2B コラボレーションユーザー 外部データ参照 データ提供者 共有データ発行 外部アクセス権付与 Data Lake Storage Purview Data Governance 共有元への シンボリックリンク作成 インビテーション 共有データ参照 共有データ アクセス データ提供者 データ消費者 Data Lake Storage Data Share 共有の作成