Slide 1

Slide 1 text

Azure Analyticsの動向① 分析環境は統合されシンプル化路線へ

Slide 2

Slide 2 text

Dataアーキテクチャの変遷 1980’s Data Warehouse Staging Data Warehouse Data Lake Data Warehouse Data Lakehouse Data Mart Data Mart Data Mart Data Mart Data Mart Data Mart 2010’s Data Lake 2020’s Data Lakehouse 登録 Raw Enrich Curate 変換 変換 取込 抽出/ 登録 変換 BI/Reports Data Science ML Raw Enrich Curate 変換 変換 BI/Reports BI/Reports Data Science ML 取込

Slide 3

Slide 3 text

Data Lakehouseを実現するストレージレイヤOSS Delta Lake 特徴 • オープンかつシンプル: • ベンダーロックインなく、あらゆるツールからアクセス可能 • SQL/Python 双方での共通データアクセス • 統一されたバッチ、ストリーミング • DWHとデータレイクのいいとこどり: • 高速なクエリ • タイムトラベル機能による過去データの遡り • スキーマの自動拡張 or 強制 • 構造化~非構造化データに対応しつつ高い圧縮率 • コンプライアンス対応: • 監査履歴 • UPDATE, DELETEによるデータ操作 https://delta.io/

Slide 4

Slide 4 text

Data Lakehouse on Microsoft Intelligent Data Platform あらゆるデータ活用が可能な統合分析環境を実現 Databricks SQL Serve Serve Raw Enrich Curate Data Lake Storage Store Azure Databricks Process Ingest Process Ingest Event Hubs Event Hubs Data Factory Azure Machine Learning Power BI Store Azure Synapse Analytics Spark Pool Synapse Analytical Engines SQL Pool Data Explorer Pool Power BI Azure Machine Learning Raw Enrich Curate Data Lake Storage Pipelines Synapse Analytics Lakehouse Databricks Lakehouse

Slide 5

Slide 5 text

データ×テクノロジー×スキルのサイロを無くす統合分析環境へ 各所に散らばる データのサイロ 組合せを強いられる テクノロジーのサイロ 多様なペルソナが関わることで起きる スキルのサイロ Azure Synapse Analytics データ統合機能 分析エンジン、蓄積エンジン 統合管理・開発UI 単一の分析UXに統合

Slide 6

Slide 6 text

データ×テクノロジー×スキルのサイロを無くす統合分析環境へ 各所に散らばる データのサイロ 組合せを強いられる テクノロジーのサイロ 多様なペルソナが関わることで起きる スキルのサイロ Azure Synapse Analytics データ統合機能 分析エンジン、蓄積エンジン 統合管理・開発UI 単一の分析UXに統合 (New) SAP Change Data Connector (New) M365データパイプライン テンプレート & Dataflow コネクタ (New) Data ExplorerのS3、 Cosmos DBなどのソース追加 (New) Synapse MLのMLflow, GPT統合などの更新 (New) R言語サポート

Slide 7

Slide 7 text

Azure Analyticsの動向② データガバナンスの実現

Slide 8

Slide 8 text

データドリブン企業の注目する関心事 データガバナンス データガバナンスの目標 1. 組織が自身のデータを資産として管理できるようにする 2. データマネジメントに関する原則、ポリシー、手続き、評価指標、ツール、責任について定義し、承認し、 伝達し、実施する 3. ポリシーの順守、データの利用、管理活動を監視し、導く DAMA International.『データマネジメント知識体系ガイド 第二版』.日経BP社.2018年,96p リスク管理 データ セキュリティ プライバシー コンプライアンス対応 データ品質改善 メタデータ管理 PJ効率化 データ契約管理

Slide 9

Slide 9 text

Microsoft Purview データガバナンス Data Map メタデータを大規模に自動管理する On-prem Cloud SaaS Applications Azure Synapse Analytics Power BI Azure SQL SQL Server Microsoft Purview governance portal データ提供者と消費者 Data Catalog 信頼できるデータを 簡単に発見 Data Policy データアクセスを統制 一般提供 プレビュー データ責任者 Data Sharing 組織内外でデータを共有 Data Estate Insights データ資産の状態を確認

Slide 10

Slide 10 text

Microsoft Purview データガバナンス Data Map メタデータを大規模に自動管理する On-prem Cloud SaaS Applications Azure Synapse Analytics Power BI Azure SQL SQL Server Microsoft Purview governance portal データ提供者と消費者 Data Catalog 信頼できるデータを 簡単に発見 Data Policy データアクセスを統制 一般提供 プレビュー データ責任者 Data Sharing 組織内外でデータを共有 Data Estate Insights データ資産の状態を確認 (New) メタモデルの定義 (New) SQL 動的リネージュ (現在一般 公開) ときめ細かいリネージュ (New) 機械学習モデルによる分類

Slide 11

Slide 11 text

Azure Analyticsの動向③ 企業全体のデータ活用は分散型へ

Slide 12

Slide 12 text

Cloud Adoption Framework for Cloud Scale Analytics Data as Product ・・・データを製品とみなすことで するべきことを決めるアナロジー思考 • 検出、説明性:ECサイトのように • 製品は発見が可能な状態(市場化)で、製品を説明 するドキュメントを設ける • データ契約:クラウドサービスのように • 責任分界点と品質の基準(SLA)を定義する • アクセス権を与え、品質を監視する • 相互運用性:工具や家具のように • 様々なシーンで使えるための 製品規格(フォーマットや列名称など)を定める

Slide 13

Slide 13 text

モノリス(中央集約)からデータメッシュ(分散委任型)へ • データを組織にあわせてドメイン分割し、製品としてコラボレーション • 定義済みのプラットフォームを各ドメインに提供することで、 ドメインチームとCoEによるセルフサービス開発を促す • データの準備は中央データ基盤チームに依頼する受託開発方式 • 単一のデータ基盤を全ユースケースで共有 ビッグデータ ソリューション データソース データ活用 単一基盤 モノリスデータ基盤 データメッシュ型基盤

Slide 14

Slide 14 text

データコラボレーションの拡充 Purview インプレースデータ共有 Power BI インプレースデータセット共有 Power BI Service Power BI Service データセット Azure ADテナント Azure ADテナント コンテンツ データハブ 検出・検索 発行 B2B コラボレーションユーザー 外部データ参照 データ提供者 共有データ発行 外部アクセス権付与 Data Lake Storage Purview Data Governance 共有元への シンボリックリンク作成 インビテーション 共有データ参照 共有データ アクセス データ提供者 データ消費者 Data Lake Storage Data Share 共有の作成