Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Build 2020 Update Azure Cosmos DB and Azure Synapse Analytics

Build 2020 Update Azure Cosmos DB and Azure Synapse Analytics

More Decks by Hiroyuki Nakazato / 中里 浩之

Other Decks in Technology

Transcript

  1. #dllab Build 2020 最新アップデート Analytics & AI データ分析プラットフォーム 中里 浩之

    | Hiroyuki Nakazato | @nakazax Cloud Solution Architect Microsoft Japan
  2. 2020 年 5 月開催の「Microsoft Build 2020」で発表された • Azure Cosmos DB

    • Azure Synapse Analytics の最新アップデートを中心にご紹介します 本セッションのテーマ
  3. MongoDB Table API ターンキーのマルチ マスター書き込み 即座、エラスティック、 自動的なスケーラビリティ 10 ミリ秒未満のレイテンシ、 99.999%

    の可用性を保証 フル マネージド、 サーバーレス あらゆる Azure リージョンへの データ レプリケーション Azure Cosmos DB ドキュメント 列ファミリー キー/値 グラフ Core (SQL) API
  4. Azure Cosmos DB 自動スケーリング * 2020 年 6 月 24

    日時点の料金 (リージョン: 米国西部 2, 通貨: 米ドル) https://azure.microsoft.com/ja-jp/pricing/details/cosmos-db/
  5. Private Link for Azure Cosmos DB VNET  プライベート エンドポイントを

    通して、Azure Cosmos DB アカウントを仮想ネットワークに 公開  データ流出の危険性を低減
  6. カスタマー マネージド キーによる保存時の暗号化  Azure Cosmos DB の既定の 保存時暗号化に対する、 追加の暗号化レイヤーとして実装

     キー ストアとして Azure Key Vault を 使用 自分の データ サービス マネージド キーによる暗号化 カスタマー マネージド キーによる暗号化
  7. Apache Spark オンデマンドでの SQL 実行 • 2020 年 5 月開催の「Microsoft

    Build 2020」に合わせて • 新機能のプレビュー開始 • さらに Azure Synapse Link の発表 • Azure のデータベース上のデータを ETL なしで Synapse Analytics に統合し分析可能に • 第一弾として Azure Synapse Link for Azure Cosmos DB のプレビュー開始 • 今後は Azure SQL, Azure Database for MySQL / PostgreSQL などにも対応 Azure Synapse Analytics 発表のダイジェスト
  8. Azure Analytics Store Transform Query Ingest Azure Data Factory Azure

    Data Lake Storage Gen2 Azure Databricks Azure SQL Data Warehouse クラウド データ SaaS データ オンプレミス データ デバイス データ Power BI Azure Machine Learning
  9. 2 データ ウェアハウスとビッグデータ分析システム全体のあらゆるデータから、 驚異的なスピードでインサイトを提供する無制限の分析サービス Store Azure Data Lake Storage Gen2

    Azure Synapse Analytics Azure Synapse Analytics クラウド データ SaaS データ オンプレミス データ デバイス データ Power BI Azure Machine Learning
  10. 無限のスケール 一般提供 プレビュー プロビジョニング済みコンピューティング (データ ウェアハウス) ✔ 具体化されたビューと結果セットのキャッシュ ✔ ワークロードの重要度

    ✔ ワークロードの分離 ✔ サーバーレス データ レイク探索 ✔ 強力な洞察 Power BI の統合 ✔ Azure Machine Learning の統合 ✔ Streaming Analytics (データ ウェアハウス) ✔ Apache Spark の統合 ✔ 統合されたエクスペリエンス ハイブリッド データの取り込み ✔ Azure Synapse Studio ✔ 即時の明瞭さ Azure Synapse Link (Azure Cosmos DB との組み合わせ) ✔ 比類ないセキュリティ 列レベルと行レベルのセキュリティ ✔ 動的データ マスク ✔ プライベート エンドポイント ✔
  11. Azure Synapse Analytics • Workload Isolation (GA) • COPY Data

    Loading (GA) • Updatable Hash Key (GA) • Materialized View Improvement (GA) Public Preview • PREDICT Scoring • Bulk Load Wizard • Serverless Query Perf Enhancements • Pay-per-query consumption model • CSV Schema Inference Private Preview • SQL MERGE support, DML Joins • Column Encryption • Multi-Column Hash Distribution Public Preview • DeltaLake Tables v0.6 • CDM Support • .NET for Apache Spark 0.11 • Built-in Samples • Template Code Gen for Notebooks Public Preview • CosmosDB with Synapse Link • Managed Virtual Networks • External Table Wizard • Increased Notebook Cell Features • SQL Pool Monitoring and Management • Spark Pool Monitoring and Management • Spark Job Graph Debugging • Statistical Sample Visualization of Data • More Granular Workspace RBAC Public Preview • Trusted Service for Azure Storage and Azure Key Vault (GA) • Managed Identity for Mapping Data Flows (GA) • Static IP ranges Azure Integration Runtime (GA) • Checkpoint and resume for binary file copy (GA) • Private Endpoint support via Managed Virtual Networks Private Preview • Data Flow CDM Support Query and analyze data with T-SQL using both provisioned and serverless models Quickly create notebooks with your choice of Python, Scala, SparkSQL, and .NET for Spark Build end-to-end workflows for your data movement and data processing scenarios Execute all data tasks with a simple UI and unified workspace environment Synapse SQL Apache Spark for Synapse Synapse Pipelines Synapse Studio Microsoft Build 2020 - Developing end-to-end analytics solutions with the latest Azure Synapse features https://mybuild.microsoft.com/sessions/d0ddfd7d-38bd-4799-9e1a-81be7fd5b8ad?source=sessions
  12. Analytics Runtimes Azure Synapse Analytics 全体アーキテクチャー SQL on-demand SQL Runtime

    共有クラスター 自動スケール 共有ストレージ SQL pool SQL Runtime プロビジョン クラスター 現在、手動スケールのみ 共有 ストレージ 専用 ストレージ クラスター × N 個 を作成可能 クラスター × N 個 を作成可能 Spark pool Spark Runtime プロビジョン クラスター 自動/手動スケール 共有ストレージ データ統合機能 パイプライン/データフロー Azure Data Lake Storage Gen2 ※現在、Spark pool から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、SQL pool への共有は coming soon Synapse Studio 開発/監視/管理
  13. Analytics Runtimes Azure Synapse Analytics 全体アーキテクチャー SQL on-demand SQL Runtime

    共有クラスター 自動スケール 共有ストレージ SQL pool SQL Runtime プロビジョン クラスター 現在、手動スケールのみ 共有 ストレージ 専用 ストレージ クラスター × N 個 を作成可能 クラスター × N 個 を作成可能 Spark pool Spark Runtime プロビジョン クラスター 自動/手動スケール 共有ストレージ データ統合機能 パイプライン/データフロー Azure Data Lake Storage Gen2 ※現在、Spark pool から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、SQL pool への共有は coming soon Synapse Studio 開発/監視/管理 GENERALLY AVAILABLE PREVIEW PREVIEW PREVIEW PREVIEW PREVIEW 現状では米国東部や東南アジアなど 10 リージョンで利用可能 東日本 & 西日本ではまだ利用できない 従来の SQL DW に相当 東日本 & 西日本を含む多数のリージョンで利用可能
  14. 分析ランタイム別の料金* * 2020 年 6 月 24 日時点の料金 (リージョン: 米国西部

    2, 通貨: 米ドル) https://azure.microsoft.com/ja-jp/pricing/details/synapse-analytics/
  15. SQL pool と SQL on-demand との比較 類似点 ⚫ 分散型 Analytics

    Engine ⚫ T-SQL のサポート ⚫ データ ウェアハウス機能 ⚫ Spark pool とのメタデータ共有 相違点 ⚫ サーバーレス クエリ ⚫ 管理オーバーヘッドが無い ⚫ データは Data Lake に存在し、データロード不要 適用領域 ⚫ Data Lake に対するダイレクト クエリ 類似点 ⚫ 分散型 Analytics Engine ⚫ T-SQL のサポート ⚫ データ ウェアハウス機能 ⚫ Spark pool とのメタデータ共有 相違点 ⚫ プロビジョニングされている ⚫ ワークロードに特化した最適化 ⚫ 先進的なワークロード マネジメント ⚫ ロードデータに対するガバナンスが有効 適用領域 ⚫ ロードデータに対する最適化されたワークロード
  16.  Azure Cosmos DB は、 10 ミリ秒未満の読み取り/書き込み レイテンシを提供し、オペレーショナル ワークロードに最適化 

    99.999% の高可用性、スループット、 整合性の保証  Azure の全リージョンにわたる、 ターンキーのグローバル データ レプリケーション Azure Cosmos DB リアルタイム アプリ/サービス Azure Cosmos DB
  17. ユーザー アプリ Azure Cosmos DB Azure Data Lake Storage 抽出

    (パイプライン) 変換 / 強化 オーケストレーション Power BI 提供 Azure Cosmos DB から Azure Data Lake Storage に定期的にデータをインジェスト 分析に最適化するために、データ形式とストレージ レイヤーを管理 Apache Spark for Synapse Synapse SQL OLTP と OLAP を分離
  18. 分析ストア 分析クエリに最適化された「列ストア」 トランザクション ストア トランザクション操作に最適化された「行ストア」 Azure Cosmos DB Azure Synapse

    Analytics コンテナー クラウド ネイティブ HTAP Azure Synapse Link SQL 自動同期 機械学習 ビッグ データ分析 BI ダッシュボード オペレー ショナル データ オペレーショナル データに対する準リアルタイムの洞察を生成 Azure Synapse Link for Azure Cosmos DB の動作
  19. 利用の際には必ず FAQ を参照 https://docs.microsoft.com/ja-jp/azure/cosmos-db/synapse-link-frequently-asked-questions Synapse Link はすべての Azure Cosmos DB

    API でサポートされますか? パブリック プレビュー リリースでは、Synapse Link は Azure Cosmos DB SQL (Core) API でのみサポートされます。 Mongo DB 用 Cosmos DB API と Cassandra API でのサポートは、現在限定的なプレビュー中です。 限定的なプレビューへのアクセスを要求するには、Azure Cosmos DB チームにご連絡ください。 既存のコンテナーで分析ストアを有効にすることはできますか? 現時点では、分析ストアは (新規アカウントの場合も既存のアカウントの場合も) 新しいコンテナーに対してのみ有効にすることができます。 Azure Cosmos DB トランザクション ストアにプロビジョニングされた RU に影響はありますか? Azure Cosmos DB では、トランザクション ワークロードと分析ワークロード間のパフォーマンスの分離が保証されています。 コンテナーで分析ス トアを有効にしても、Azure Cosmos DB トランザクション ストアにプロビジョニングされた RU には影響しません。 分析ストアのトランザクショ ン (読み取りおよび書き込み) とストレージのコストは個別に課金されます。 詳細については、Azure Cosmos DB 分析ストアの価格に関す るセクションを参照してください。 トランザクション ストアから分析ストアへの自動同期レプリケーションは非同期、同期のどちらで、待機時間はどの程度ですか? レプリケーションは非同期であり、現在、予想待機時間は約 2 分です。
  20. Analytics Runtimes Azure Synapse Analytics 全体アーキテクチャー SQL on-demand SQL Runtime

    共有クラスター 自動スケール 共有ストレージ SQL pool SQL Runtime プロビジョン クラスター 現在、手動スケールのみ 共有 ストレージ 専用 ストレージ クラスター × N 個 を作成可能 クラスター × N 個 を作成可能 Spark pool Spark Runtime プロビジョン クラスター 自動/手動スケール 共有ストレージ データ統合機能 パイプライン/データフロー Azure Data Lake Storage Gen2 ※現在、Spark pool から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、SQL pool への共有は coming soon Synapse Studio 開発/監視/管理 GENERALLY AVAILABLE PREVIEW PREVIEW PREVIEW PREVIEW PREVIEW 現状では米国東部や東南アジアなど 10 リージョンで利用可能 東日本 & 西日本ではまだ利用できない 従来の SQL DW に相当 東日本 & 西日本を含む多数のリージョンで利用可能
  21. Home Data Monitor Manage Quick-access to common gestures, most-recently used

    items, and links to tutorials and documentation. Explore structured and unstructured data Centralized view of all resource usage and activities in the workspace. Configure the workspace, pool, access to artifacts Develop Write code and the define business logic of the pipeline via notebooks, SQL scripts, Data flows, etc. Orchestrate Design pipelines that that move and transform data. Synapse Studio
  22. Azure Cosmos DB Free レベルを使用できるようになりました Azure Cosmos DB 用の自動スケーリング プロビジョニング済みスループット

    Azure Cosmos DB のサーバーレス価格モデル Azure Cosmos DB の組み込み Jupyter Notebook の新機能のサポート Azure Cosmos DB Python SDK 4.0 の提供が開始されました Azure Cosmos DB の Azure Private Link の一般提供が開始されました Azure Cosmos DB のカスタマーマネージド キーを使用した保存中の暗号化の一般提供開始 Azure Synapse Analytics 機能のプレビューの提供開始 Azure Cosmos DB の Azure Synapse Link のプレビューが開始されました Azure の更新情報
  23. © 2018 Microsoft Corporation. All rights reserved. 本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。 © 2020

    Microsoft Corporation. All rights reserved. 本情報の内容 (添付文書、リンク先などを含む) は、公開日時点のものであり、予告なく変更される場合があります。 本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。