Slide 1

Slide 1 text

Mirroring Azure Cosmos DB in Microsoft Fabric @kazuyukimiyake

Slide 2

Slide 2 text

About me ž Kazuyuki Miyake @kazuyukimiyake • CEO at ZEN Architects • Microsoft MVP / Microsoft Regional Director • Specialty : Azure Architecture Design • Blog: https://k-miyake.github.io/blog/

Slide 3

Slide 3 text

このセッションについて ž 現在プレビュー中の Mirroring Azure Cosmos DB in Microsoft Fabric についてデモを通じて概要を紹介します ž 本セッションの資料(一部)は Cosmos DB チームから日本のコ ミュニティ向けに提供されたものを、三宅個人が翻訳(一部意訳) しています。 ž Special Thanks for Mark Brown and Anitha Adusumilli

Slide 4

Slide 4 text

New technologies offer リアルタイムデータへのアクセスが

Slide 5

Slide 5 text

現状: ビッグデータはサイロ化し多くの重複がある IT Data movement Sales Data movement Operations Data movement Marketing Data movement Data movement Data movement Data movement Data movement

Slide 6

Slide 6 text

多くのプロジェクトが複数 のサブシステムで構成 各サブシステムには異なる プロダクトが必要 プロダクトは複数のベン ダーから提供される 統合は複雑で、壊れやすく、 コストがかかる 現状: サブシステム間を手動で連携しなければならない

Slide 7

Slide 7 text

Microsoft Fabric The unified data platform for the era of AI Unified architecture Unified experience Unified governance Unified business model

Slide 8

Slide 8 text

OneLake によるデータ統合 Data Factory Synapse Data Engineering Synapse Data Science Synapse Data Warehousing Synapse Real Time Analytics Power BI Data Activator OneLake Service Telemetry Finance Customer 360 Business KPIs Serverless Compute Spark T-SQL KQL Analysis Services Amazon Google Azure Dataverse Multi-cloud shortcuts Microsoft Fabric Azure Databricks Azure HDI Azure AI Studio Open Access APIs

Slide 9

Slide 9 text

エンタープライズにおけるデータ資産の現状 ETL Standardized data Analysts Data scientists 非常に複雑で、コストが高く、管理が難しい → 重要なビジネス分析がリアルタイムで実施されない Data warehouses ETL Databases

Slide 10

Slide 10 text

Seamlessly ingest your databases and data warehouses into OneLake Zero-ETL Near real-time Available now, in preview Mirroring in Microsoft Fabric

Slide 11

Slide 11 text

Roadmap Azure Cosmos DB Snowflake Azure SQL DB And More…

Slide 12

Slide 12 text

Mirroring + OneLake によるデータ統合の拡張 Connect your entire data estate Data Factory Synapse Data Engineering Synapse Data Science Synapse Data Warehousing Synapse Real Time Analytics Power BI Data Activator OneLake Service Telemetry Finance Customer 360 Business KPIs Serverless Compute Spark T-SQL KQL Analysis Services Amazon Google Azure Dataverse Multi-cloud shortcuts Microsoft Fabric Azure Databricks Azure HDI Azure AI Studio Open Access APIs Mirroring Snowflake Azure SQL DB Azure COSMOS DB And More…

Slide 13

Slide 13 text

Mirroring in Microsoft Fabric Simplify near real-time analytics ETL 不要で既存のデータベースを Fabric に追加可能 データは Delta 形式で OneLake にほぼリ アルタイムにレプリケートされる OneLake レプリカによって Fabric のすべ ての体験がすぐに機能する レプリカは分析クエリーから運用データ ベースを保護する ソース データベース No-ETL Near real-time Fabric Spark Power BI Fabric DW 圧縮されたレプリカ Delta Parquet in Onelake ミラーリングされた データベース 増分レプリケーション

Slide 14

Slide 14 text

Mirroring Azure Cosmos DB 💡継続的バックアップを有効にしておく必要がある トランザクション、ワークロードの 性能や RU には影響がない CDC ソースとして分析ストアや Change Feed は使用していない

Slide 15

Slide 15 text

Mirroring Pricing 無料対象 • レプリケーションにかかる Cosmos DB のコンピューティング • Fabric の SKU に対応するミラーリング用ストレージ容量 (F2 であれば 2 TB が無料) 課金対象 • Fabric: SQL, Power BI 等のコンピューティング体験 • Cosmos DB: 継続的バックアップ

Slide 16

Slide 16 text

参考: Azure Synapse Link との比較 Azure Synapse Link に対する Mirroring の利点 • オープンプラットフォーム:ミラーリングのデータはデルタ形式 • SQL と Spark でデルタを扱うためのクエリの改善 • 他のデータとの結合が容易 Azure Synapse Link と Mirroring は併用が可能 本番ワークロードでは Azure Synapse Linkを使う必要がある Mirroring は GA 後に本番ワークロードでの利用がサポートされる

Slide 17

Slide 17 text

まとめ (制限事項や個人的コメントなど) ž NoSQL API の Cosmos DB のみ ž 継続的バックアップが有効化されていること (比較的古い Cosmos DB アカウントで分析ストアが有効になっている場合は注意) ž パブリックネットワークアクセスが有効になっていること (サービスエンドポイントも NG なのでかなり厳しい制約(今後に期待)) ž TTL を設定している場合はミラーリングされたデータも削除対象 ž 入れ子になった JSON オブジェクトは、Fabric のウェアハウステー ブルの JSON 文字列になる (T-SQL のクエリが少し書きにくい・・)

Slide 18

Slide 18 text

Thank you! X: @kazuyukimiyake