Slide 1

Slide 1 text

#dllab Build 2020 最新アップデート Analytics & AI データ分析プラットフォーム 中里 浩之 | Hiroyuki Nakazato | @nakazax Cloud Solution Architect Microsoft Japan

Slide 2

Slide 2 text

2020 年 5 月開催の「Microsoft Build 2020」で発表された • Azure Cosmos DB • Azure Synapse Analytics の最新アップデートを中心にご紹介します 本セッションのテーマ

Slide 3

Slide 3 text

Azure Cosmos DB 最新アップデート アジェンダ Azure Synapse Analytics 最新アップデート

Slide 4

Slide 4 text

• [D09] https://decode20-vevent.cloud-config.jp/session/5 • [D14] https://decode20-vevent.cloud-config.jp/session/93 • [D15] https://decode20-vevent.cloud-config.jp/session/95 https://aka.ms/decode20 de:code 2020 関連セッション (オススメ !!)

Slide 5

Slide 5 text

Azure Cosmos DB 最新アップデート

Slide 6

Slide 6 text

MongoDB Table API ターンキーのマルチ マスター書き込み 即座、エラスティック、 自動的なスケーラビリティ 10 ミリ秒未満のレイテンシ、 99.999% の可用性を保証 フル マネージド、 サーバーレス あらゆる Azure リージョンへの データ レプリケーション Azure Cosmos DB ドキュメント 列ファミリー キー/値 グラフ Core (SQL) API

Slide 7

Slide 7 text

Azure Cosmos DB Free レベル

Slide 8

Slide 8 text

Azure Cosmos DB 自動スケーリング

Slide 9

Slide 9 text

Azure Cosmos DB 自動スケーリング * 2020 年 6 月 24 日時点の料金 (リージョン: 米国西部 2, 通貨: 米ドル) https://azure.microsoft.com/ja-jp/pricing/details/cosmos-db/

Slide 10

Slide 10 text

Azure Cosmos DB サーバーレス $ $ $ $ $

Slide 11

Slide 11 text

開発者向けアップデート GENERALLY AVAILABLE PREVIEW

Slide 12

Slide 12 text

Private Link for Azure Cosmos DB VNET  プライベート エンドポイントを 通して、Azure Cosmos DB アカウントを仮想ネットワークに 公開  データ流出の危険性を低減

Slide 13

Slide 13 text

カスタマー マネージド キーによる保存時の暗号化  Azure Cosmos DB の既定の 保存時暗号化に対する、 追加の暗号化レイヤーとして実装  キー ストアとして Azure Key Vault を 使用 自分の データ サービス マネージド キーによる暗号化 カスタマー マネージド キーによる暗号化

Slide 14

Slide 14 text

Azure Synapse Analytics 発表のダイジェスト

Slide 15

Slide 15 text

Apache Spark オンデマンドでの SQL 実行 • 2020 年 5 月開催の「Microsoft Build 2020」に合わせて • 新機能のプレビュー開始 • さらに Azure Synapse Link の発表 • Azure のデータベース上のデータを ETL なしで Synapse Analytics に統合し分析可能に • 第一弾として Azure Synapse Link for Azure Cosmos DB のプレビュー開始 • 今後は Azure SQL, Azure Database for MySQL / PostgreSQL などにも対応 Azure Synapse Analytics 発表のダイジェスト

Slide 16

Slide 16 text

Azure Analytics Store Transform Query Ingest Azure Data Factory Azure Data Lake Storage Gen2 Azure Databricks Azure SQL Data Warehouse クラウド データ SaaS データ オンプレミス データ デバイス データ Power BI Azure Machine Learning

Slide 17

Slide 17 text

2 データ ウェアハウスとビッグデータ分析システム全体のあらゆるデータから、 驚異的なスピードでインサイトを提供する無制限の分析サービス Store Azure Data Lake Storage Gen2 Azure Synapse Analytics Azure Synapse Analytics クラウド データ SaaS データ オンプレミス データ デバイス データ Power BI Azure Machine Learning

Slide 18

Slide 18 text

無限のスケール 一般提供 プレビュー プロビジョニング済みコンピューティング (データ ウェアハウス) ✔ 具体化されたビューと結果セットのキャッシュ ✔ ワークロードの重要度 ✔ ワークロードの分離 ✔ サーバーレス データ レイク探索 ✔ 強力な洞察 Power BI の統合 ✔ Azure Machine Learning の統合 ✔ Streaming Analytics (データ ウェアハウス) ✔ Apache Spark の統合 ✔ 統合されたエクスペリエンス ハイブリッド データの取り込み ✔ Azure Synapse Studio ✔ 即時の明瞭さ Azure Synapse Link (Azure Cosmos DB との組み合わせ) ✔ 比類ないセキュリティ 列レベルと行レベルのセキュリティ ✔ 動的データ マスク ✔ プライベート エンドポイント ✔

Slide 19

Slide 19 text

Azure Synapse Analytics • Workload Isolation (GA) • COPY Data Loading (GA) • Updatable Hash Key (GA) • Materialized View Improvement (GA) Public Preview • PREDICT Scoring • Bulk Load Wizard • Serverless Query Perf Enhancements • Pay-per-query consumption model • CSV Schema Inference Private Preview • SQL MERGE support, DML Joins • Column Encryption • Multi-Column Hash Distribution Public Preview • DeltaLake Tables v0.6 • CDM Support • .NET for Apache Spark 0.11 • Built-in Samples • Template Code Gen for Notebooks Public Preview • CosmosDB with Synapse Link • Managed Virtual Networks • External Table Wizard • Increased Notebook Cell Features • SQL Pool Monitoring and Management • Spark Pool Monitoring and Management • Spark Job Graph Debugging • Statistical Sample Visualization of Data • More Granular Workspace RBAC Public Preview • Trusted Service for Azure Storage and Azure Key Vault (GA) • Managed Identity for Mapping Data Flows (GA) • Static IP ranges Azure Integration Runtime (GA) • Checkpoint and resume for binary file copy (GA) • Private Endpoint support via Managed Virtual Networks Private Preview • Data Flow CDM Support Query and analyze data with T-SQL using both provisioned and serverless models Quickly create notebooks with your choice of Python, Scala, SparkSQL, and .NET for Spark Build end-to-end workflows for your data movement and data processing scenarios Execute all data tasks with a simple UI and unified workspace environment Synapse SQL Apache Spark for Synapse Synapse Pipelines Synapse Studio Microsoft Build 2020 - Developing end-to-end analytics solutions with the latest Azure Synapse features https://mybuild.microsoft.com/sessions/d0ddfd7d-38bd-4799-9e1a-81be7fd5b8ad?source=sessions

Slide 20

Slide 20 text

Azure Synapse Analytics アーキテクチャー概観

Slide 21

Slide 21 text

Analytics Runtimes Azure Synapse Analytics 全体アーキテクチャー SQL on-demand SQL Runtime 共有クラスター 自動スケール 共有ストレージ SQL pool SQL Runtime プロビジョン クラスター 現在、手動スケールのみ 共有 ストレージ 専用 ストレージ クラスター × N 個 を作成可能 クラスター × N 個 を作成可能 Spark pool Spark Runtime プロビジョン クラスター 自動/手動スケール 共有ストレージ データ統合機能 パイプライン/データフロー Azure Data Lake Storage Gen2 ※現在、Spark pool から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、SQL pool への共有は coming soon Synapse Studio 開発/監視/管理

Slide 22

Slide 22 text

Analytics Runtimes Azure Synapse Analytics 全体アーキテクチャー SQL on-demand SQL Runtime 共有クラスター 自動スケール 共有ストレージ SQL pool SQL Runtime プロビジョン クラスター 現在、手動スケールのみ 共有 ストレージ 専用 ストレージ クラスター × N 個 を作成可能 クラスター × N 個 を作成可能 Spark pool Spark Runtime プロビジョン クラスター 自動/手動スケール 共有ストレージ データ統合機能 パイプライン/データフロー Azure Data Lake Storage Gen2 ※現在、Spark pool から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、SQL pool への共有は coming soon Synapse Studio 開発/監視/管理 GENERALLY AVAILABLE PREVIEW PREVIEW PREVIEW PREVIEW PREVIEW 現状では米国東部や東南アジアなど 10 リージョンで利用可能 東日本 & 西日本ではまだ利用できない 従来の SQL DW に相当 東日本 & 西日本を含む多数のリージョンで利用可能

Slide 23

Slide 23 text

分析ランタイム別の料金* * 2020 年 6 月 24 日時点の料金 (リージョン: 米国西部 2, 通貨: 米ドル) https://azure.microsoft.com/ja-jp/pricing/details/synapse-analytics/

Slide 24

Slide 24 text

SQL pool と SQL on-demand との比較 類似点 ⚫ 分散型 Analytics Engine ⚫ T-SQL のサポート ⚫ データ ウェアハウス機能 ⚫ Spark pool とのメタデータ共有 相違点 ⚫ サーバーレス クエリ ⚫ 管理オーバーヘッドが無い ⚫ データは Data Lake に存在し、データロード不要 適用領域 ⚫ Data Lake に対するダイレクト クエリ 類似点 ⚫ 分散型 Analytics Engine ⚫ T-SQL のサポート ⚫ データ ウェアハウス機能 ⚫ Spark pool とのメタデータ共有 相違点 ⚫ プロビジョニングされている ⚫ ワークロードに特化した最適化 ⚫ 先進的なワークロード マネジメント ⚫ ロードデータに対するガバナンスが有効 適用領域 ⚫ ロードデータに対する最適化されたワークロード

Slide 25

Slide 25 text

Azure Synapse Link for Azure Cosmos DB (プレビュー)

Slide 26

Slide 26 text

 Azure Cosmos DB は、 10 ミリ秒未満の読み取り/書き込み レイテンシを提供し、オペレーショナル ワークロードに最適化  99.999% の高可用性、スループット、 整合性の保証  Azure の全リージョンにわたる、 ターンキーのグローバル データ レプリケーション Azure Cosmos DB リアルタイム アプリ/サービス Azure Cosmos DB

Slide 27

Slide 27 text

大規模なオペレーショナル データを 準リアルタイムに分析を実行したい場合は、 どうするか?

Slide 28

Slide 28 text

 大量のデータがある場合、 分析クエリの実行には時間が かかり、リソース集中型になる  OLTP ワークロードの パフォーマンスへの大きな影響 同一データベース上で OLTP/OLAP ワークロードを実行 リアルタイム アプリ/サービス Azure Cosmos DB レポート / ダッシュボード

Slide 29

Slide 29 text

ユーザー アプリ Azure Cosmos DB Azure Data Lake Storage 抽出 (パイプライン) 変換 / 強化 オーケストレーション Power BI 提供 Azure Cosmos DB から Azure Data Lake Storage に定期的にデータをインジェスト 分析に最適化するために、データ形式とストレージ レイヤーを管理 Apache Spark for Synapse Synapse SQL OLTP と OLAP を分離

Slide 30

Slide 30 text

 準リアルタイムのデータ分析  トランザクション ワークロード へのパフォーマンスの影響なし  ETL が不要 Azure Synapse Link for Azure Cosmos DB

Slide 31

Slide 31 text

分析ストア 分析クエリに最適化された「列ストア」 トランザクション ストア トランザクション操作に最適化された「行ストア」 Azure Cosmos DB Azure Synapse Analytics コンテナー クラウド ネイティブ HTAP Azure Synapse Link SQL 自動同期 機械学習 ビッグ データ分析 BI ダッシュボード オペレー ショナル データ オペレーショナル データに対する準リアルタイムの洞察を生成 Azure Synapse Link for Azure Cosmos DB の動作

Slide 32

Slide 32 text

利用の際には必ず FAQ を参照 https://docs.microsoft.com/ja-jp/azure/cosmos-db/synapse-link-frequently-asked-questions Synapse Link はすべての Azure Cosmos DB API でサポートされますか? パブリック プレビュー リリースでは、Synapse Link は Azure Cosmos DB SQL (Core) API でのみサポートされます。 Mongo DB 用 Cosmos DB API と Cassandra API でのサポートは、現在限定的なプレビュー中です。 限定的なプレビューへのアクセスを要求するには、Azure Cosmos DB チームにご連絡ください。 既存のコンテナーで分析ストアを有効にすることはできますか? 現時点では、分析ストアは (新規アカウントの場合も既存のアカウントの場合も) 新しいコンテナーに対してのみ有効にすることができます。 Azure Cosmos DB トランザクション ストアにプロビジョニングされた RU に影響はありますか? Azure Cosmos DB では、トランザクション ワークロードと分析ワークロード間のパフォーマンスの分離が保証されています。 コンテナーで分析ス トアを有効にしても、Azure Cosmos DB トランザクション ストアにプロビジョニングされた RU には影響しません。 分析ストアのトランザクショ ン (読み取りおよび書き込み) とストレージのコストは個別に課金されます。 詳細については、Azure Cosmos DB 分析ストアの価格に関す るセクションを参照してください。 トランザクション ストアから分析ストアへの自動同期レプリケーションは非同期、同期のどちらで、待機時間はどの程度ですか? レプリケーションは非同期であり、現在、予想待機時間は約 2 分です。

Slide 33

Slide 33 text

Synapse ワークスペース & Synapse Studio (プレビュー)

Slide 34

Slide 34 text

Analytics Runtimes Azure Synapse Analytics 全体アーキテクチャー SQL on-demand SQL Runtime 共有クラスター 自動スケール 共有ストレージ SQL pool SQL Runtime プロビジョン クラスター 現在、手動スケールのみ 共有 ストレージ 専用 ストレージ クラスター × N 個 を作成可能 クラスター × N 個 を作成可能 Spark pool Spark Runtime プロビジョン クラスター 自動/手動スケール 共有ストレージ データ統合機能 パイプライン/データフロー Azure Data Lake Storage Gen2 ※現在、Spark pool から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、SQL pool への共有は coming soon Synapse Studio 開発/監視/管理 GENERALLY AVAILABLE PREVIEW PREVIEW PREVIEW PREVIEW PREVIEW 現状では米国東部や東南アジアなど 10 リージョンで利用可能 東日本 & 西日本ではまだ利用できない 従来の SQL DW に相当 東日本 & 西日本を含む多数のリージョンで利用可能

Slide 35

Slide 35 text

Synapse ワークスペース

Slide 36

Slide 36 text

Synapse ワークスペース

Slide 37

Slide 37 text

Home Data Monitor Manage Quick-access to common gestures, most-recently used items, and links to tutorials and documentation. Explore structured and unstructured data Centralized view of all resource usage and activities in the workspace. Configure the workspace, pool, access to artifacts Develop Write code and the define business logic of the pipeline via notebooks, SQL scripts, Data flows, etc. Orchestrate Design pipelines that that move and transform data. Synapse Studio

Slide 38

Slide 38 text

Synapse Studio Data Hub

Slide 39

Slide 39 text

Synapse Studio - Data Hub

Slide 40

Slide 40 text

Data Hub - ストレージ アカウント ADLS Gen2 ストレージ コンテナー (ファイルシステム) ファイル パス

Slide 41

Slide 41 text

Data Hub - ストレージ アカウント

Slide 42

Slide 42 text

Data Hub - ストレージ アカウント ファイルやフォルダーに権限設定が可能

Slide 43

Slide 43 text

Data Hub - ストレージ アカウント ファイルから分析をすぐに開始 T-SQL や PySpark コードを自動生成 SQL スクリプト エディターが起動 Spark Notebook が起動

Slide 44

Slide 44 text

Data Hub - ストレージ アカウント

Slide 45

Slide 45 text

Data Hub - データベース

Slide 46

Slide 46 text

Data Hub - データベース

Slide 47

Slide 47 text

Data Hub - データセット

Slide 48

Slide 48 text

Synapse Studio Develop Hub

Slide 49

Slide 49 text

Synapse Studio - Develop Hub

Slide 50

Slide 50 text

Develop Hub - SQL スクリプト

Slide 51

Slide 51 text

Develop Hub - Notebook %%<言語名>

Slide 52

Slide 52 text

Develop Hub - Notebook 開発者による Spark セッションの設定ができ、 Notebook の実行に必要なリソースを調整可能

Slide 53

Slide 53 text

Develop Hub - Notebook Notebook のセルを実行すると、セルの直下に Spark アプリケーションの実行状況 が表示され、詳細な進捗状況やボトルネックなどを確認可能

Slide 54

Slide 54 text

Develop Hub - データフロー

Slide 55

Slide 55 text

Develop Hub - Power BI

Slide 56

Slide 56 text

クロージング

Slide 57

Slide 57 text

• [D09] https://decode20-vevent.cloud-config.jp/session/5 • [D14] https://decode20-vevent.cloud-config.jp/session/93 • [D15] https://decode20-vevent.cloud-config.jp/session/95 https://aka.ms/decode20 de:code 2020 関連セッション (オススメ !!)

Slide 58

Slide 58 text

https://github.com/microsoft/MCW-Azure-Synapse- Analytics-end-to-end-solution Azure Synapse Analytics ハンズオンコンテンツ

Slide 59

Slide 59 text

Azure Cosmos DB Free レベルを使用できるようになりました Azure Cosmos DB 用の自動スケーリング プロビジョニング済みスループット Azure Cosmos DB のサーバーレス価格モデル Azure Cosmos DB の組み込み Jupyter Notebook の新機能のサポート Azure Cosmos DB Python SDK 4.0 の提供が開始されました Azure Cosmos DB の Azure Private Link の一般提供が開始されました Azure Cosmos DB のカスタマーマネージド キーを使用した保存中の暗号化の一般提供開始 Azure Synapse Analytics 機能のプレビューの提供開始 Azure Cosmos DB の Azure Synapse Link のプレビューが開始されました Azure の更新情報

Slide 60

Slide 60 text

© 2018 Microsoft Corporation. All rights reserved. 本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。 © 2020 Microsoft Corporation. All rights reserved. 本情報の内容 (添付文書、リンク先などを含む) は、公開日時点のものであり、予告なく変更される場合があります。 本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。