Slide 1

Slide 1 text

Microsoft Ignite 2020 最新アップデート Analytics & AI Azure Synapse Analytics Cloud Solution Architect - Microsoft Japan 中里 浩之 - Hiroyuki Nakazato - @nakazax

Slide 2

Slide 2 text

本セッションのテーマ 2020 年 9 月開催の「Microsoft Ignite 2020」とその前後で発表された  Azure Synapse Analytics の最新アップデートを中心にご紹介します

Slide 3

Slide 3 text

アジェンダ  Azure Synapse Analytics 最新アップデート  これまでの振り返り – Azure Synapse Analytics とは etc.  最新アップデート 概観  最新アップデート ピックアップ – AI/ML 関連を中心に  参考リンク紹介 – Azure の更新情報, Ignite 2020 ブレイクアウトセッション

Slide 4

Slide 4 text

Azure Synapse Analytics 振り返り

Slide 5

Slide 5 text

一般的な用語としてのシナプス (Synapse) とは  シナプス : ニューロン間の結合部  “脳はニューロンと呼ばれる神経細胞 からなり、各々のニューロンが、少 しずつ情報を処理しています。その 処理結果は、ニューロン間の特殊な 結合(シナプス)を介して、次の ニューロンに伝えられます” 出典 : 科学技術振興機構, 「共同発表:脳回路が驚くほど精密に配線されていることを発見 (新開発の撮影技術で、数十年来の脳科学の謎を解決)」 https://www.jst.go.jp/pr/announce/20120120/index.html , (参照 2020/11/08)

Slide 6

Slide 6 text

Azure Synapse Analytics の発表のダイジェスト  2019 年 11 月開催の「Microsoft Ignite 2019」で発表  Azure SQL Data Warehouse (SQL DW) の後継サービスに当たる  SQL DW に加えて Apache Spark や サーバーレスでの SQL 実行 などの機能が将来提供されるとの発表  2020 年 5 月開催の「Microsoft Build 2020」に合わせて  上記新機能のプレビュー開始  さらに Azure Synapse Link の発表  Azure のデータベース上のデータを ETL なしで Synapse Analytics に統合し分析可能に  第一弾として Azure Synapse Link for Azure Cosmos DB のプレビュー開始 (Spark プール, SQL API)  今後は Azure SQL, Azure Database for MySQL / PostgreSQL などにも対応  2020 年 9 月開催の「Microsoft Ignite 2020」の前後で  用語のアップデートのアナウンス  Synapse Link for Azure Cosmos DB のサーバーレス SQL プール, MongoDB API 対応のプレビュー開始  その他多数のアップデート (詳細は後述)

Slide 7

Slide 7 text

Azure Analytics Store Transform Query Ingest Azure Data Factory Azure Data Lake Storage Gen2 Azure Databricks Azure SQL Data Warehouse クラウド データ SaaS データ オンプレミス データ デバイス データ Power BI Azure Machine Learning

Slide 8

Slide 8 text

2 データ ウェアハウスとビッグデータ分析システム全体のあらゆるデータから、 驚異的なスピードでインサイトを提供する無制限の分析サービス Store Azure Data Lake Storage Gen2 Azure Synapse Analytics Azure Synapse Analytics クラウド データ SaaS データ オンプレミス データ デバイス データ Power BI Azure Machine Learning

Slide 9

Slide 9 text

分析ランタイム Azure Synapse Analytics ワークスペース サーバーレス SQL プール SQL ランタイム (DQP) 共有クラスター 自動スケール, 自動解放 共有ストレージ 専用 SQL プール SQL ランタイム (MPP) プロビジョン クラスター 手動スケール, 手動停止 共有 ストレージ 専用 ストレージ クラスター × N 個 を作成可能 クラスター × N 個 を作成可能 Spark プール Spark ランタイム プロビジョン クラスター 自動/手動スケール, 自動停止 共有ストレージ Azure Data Lake Storage Gen2 ※現在、Spark プール から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、専用 SQL プール への共有は coming soon Synapse Studio 開発/分析/監視/管理 Synapse パイプライン クラウド オーケストレーション & クラウド ETL 手動スケール, 自動停止 パイプライン エンジン (IR) データ フロー エンジン (Spark) Azure Synapse Analytics の物理アーキテクチャ

Slide 10

Slide 10 text

Azure Synapse Analytics 最新アップデート

Slide 11

Slide 11 text

用語のアップデート Synapse SQL Dedicated (専用) 消費モデル サーバーレス 消費モデル 専用 SQL プール (旧 “SQL プール”) サーバーレス SQL プール (旧 “SQL オンデマンド”) Azure ポータルやドキュメント等への反映は 2020 年 10 月以降 機能 消費モデル リソース 以前の SQL DW

Slide 12

Slide 12 text

Azure ポータルでの Synapse Synapse Studio にプライベート エンドポイント経由で接続 (プレビュー) 以前の SQL DW (GA (一般提供))

Slide 13

Slide 13 text

Azure Synapse Analytics (以前の SQL DW) Synapse workspace Synapse Studio Shared metadata system Pipelines (Data Integration) Common security model 専用 SQL プール Apache Spark プール サーバーレス SQL プール Azure Synapse Analytics (ワークスペース プレビュー) 専用 SQL プール Connected Services SQL 関連の新機能 (専用 SQL プール) 専用 SQL プール以外の 新機能 • サーバーレス SQL • Apache Spark • Connected services

Slide 14

Slide 14 text

Azure Synapse Analytics アップデート サマリー (Microsoft Ignite 2020 周辺) カテゴリー アップデート 以前の SQL DW ワークスペース プレビュー 関連リンク Spark Azure Synapse for Apache Spark ジョブでのキャッシュ & シャッフル N/A Public Preview [Update] Spark Azure Synapse Link for Azure Cosmos DB の サーバーレス SQL プール, MongoDB API 対応 N/A Public Preview [Update1] [Update2] [Doc] Spark Mssparkutils N/A Public Preview N/A Spark ノートブックの参照 N/A Public Preview [Doc] Spark ノートブックのパラメーター対応 N/A Public Preview [Doc] Spark .NET for Apache Spark N/A Public Preview [Doc] Power BI Power BI パフォーマンス アクセラレーター (専用 SQL プール用) N/A Private Preview (申込フォーム) [Blog1] [Blog2] AI/ML 専用 SQL プール向けの機械学習モデル スコアリング ウィザード N/A Public Preview [Update] [Doc] General CDM (Common Data Model) 用コネクター N/A Public Preview [Update] [GitHub] Streaming Azure Stream Analytics から専用 SQL プールへの高スループットでの出力 GA Public Preview [Update] [Doc] SQL 専用 SQL プール : MERGE コマンド Public Preview Public Preview [Update] [Doc] SQL 専用 SQL プール : COPY コマンド GA Public Preview [Update] [Doc] SQL 専用 SQL プール : 行レベルのセキュリティと動的なデータ マスキング GA Public Preview [Doc1] [Doc2] SQL 専用 SQL プール : データの列の暗号化 Public Preview Public Preview [Update] [Doc] SQL 専用 SQL プール : 区切り文字付きテキストファイルの分析のサポート強化 Public Preview Public Preview [Blog] SQL 専用 & サーバーレス SQL プール : インライン テーブル値関数 Public Preview Public Preview [Blog] SQL サーバーレス SQL プール : ストアド プロシージャ N/A Public Preview [Doc] Studio Knowledge Center N/A Public Preview [Doc]

Slide 15

Slide 15 text

Azure Synapse Analytics アップデート サマリー (Microsoft Ignite 2020 周辺) カテゴリー アップデート 以前の SQL DW ワークスペース プレビュー 関連リンク Spark Azure Synapse for Apache Spark ジョブでのキャッシュ & シャッフル N/A Public Preview [Update] Spark Azure Synapse Link for Azure Cosmos DB の サーバーレス SQL プール, MongoDB API 対応 N/A Public Preview [Update1] [Update2] [Doc] Spark Mssparkutils N/A Public Preview N/A Spark ノートブックの参照 N/A Public Preview [Doc] Spark ノートブックのパラメーター対応 N/A Public Preview [Doc] Spark .NET for Apache Spark N/A Public Preview [Doc] Power BI Power BI パフォーマンス アクセラレーター (専用 SQL プール用) N/A Private Preview (申込フォーム) [Blog1] [Blog2] AI/ML 専用 SQL プール向けの機械学習モデル スコアリング ウィザード N/A Public Preview [Update] [Doc] General CDM (Common Data Model) 用コネクター N/A Public Preview [Update] [GitHub] Streaming Azure Stream Analytics から専用 SQL プールへの高スループットでの出力 GA Public Preview [Update] [Doc] SQL 専用 SQL プール : MERGE コマンド Public Preview Public Preview [Update] [Doc] SQL 専用 SQL プール : COPY コマンド GA Public Preview [Update] [Doc] SQL 専用 SQL プール : 行レベルのセキュリティと動的なデータ マスキング GA Public Preview [Doc1] [Doc2] SQL 専用 SQL プール : データの列の暗号化 Public Preview Public Preview [Update] [Doc] SQL 専用 SQL プール : 区切り文字付きテキストファイルの分析のサポート強化 Public Preview Public Preview [Blog] SQL 専用 & サーバーレス SQL プール : インライン テーブル値関数 Public Preview Public Preview [Blog] SQL サーバーレス SQL プール : ストアド プロシージャ N/A Public Preview [Doc] Studio Knowledge Center N/A Public Preview [Doc] Pickup

Slide 16

Slide 16 text

Knowledge Center

Slide 17

Slide 17 text

Knowledge Center Synapse の使い方を学ぶための豊富なサンプル集  サンプル データ セットを用いて、 すぐにサーバーレス SQL や Spark などの Synapse の機能を試せる  Azure Blob Storage 等に格納された 豊富なパブリック データ セットの ギャラリー  SQL スクリプト、ノートブック、 パイプラインのサンプルを参照  Synapse Studio の基本的なツアー

Slide 18

Slide 18 text

Azure Synapse Link for Azure Cosmos DB の サーバーレス SQL プール, MongoDB API 対応

Slide 19

Slide 19 text

MongoDB Table API ターンキーのマルチ マスター書き込み 即座、エラスティック、 自動的なスケーラビリティ 10 ミリ秒未満のレイテンシ、 99.999% の可用性を保証 フル マネージド、 サーバーレス あらゆる Azure リージョンへの データ レプリケーション Azure Cosmos DB ドキュメント 列ファミリー キー/値 グラフ Core (SQL) API

Slide 20

Slide 20 text

分析ストア 分析クエリに最適化された「列ストア」 トランザクション ストア トランザクション操作に最適化された「行ストア」 Azure Cosmos DB Azure Synapse Analytics コンテナー クラウド ネイティブ HTAP Azure Synapse Link SQL 自動同期 機械学習 ビッグ データ分析 BI ダッシュボード オペレー ショナル データ オペレーショナル データに対する準リアルタイムの洞察を生成 Azure Synapse Link for Azure Cosmos DB の動作

Slide 21

Slide 21 text

分析ストア 分析クエリに最適化された「列ストア」 トランザクション ストア トランザクション操作に最適化された「行ストア」 Azure Cosmos DB Azure Synapse Analytics コンテナー クラウド ネイティブ HTAP Azure Synapse Link SQL 自動同期 機械学習 ビッグ データ分析 BI ダッシュボード オペレー ショナル データ Azure Synapse Link for Azure Cosmos DB の動作 MongoDB API SQL API サーバーレス SQL プール Spark プール New New

Slide 22

Slide 22 text

ニア リアルタイム分析のユース ケース例 サプライ チェーンの分析、予測、およびレポート作成 (出典) https://docs.microsoft.com/ja-jp/azure/cosmos-db/synapse-link-use-cases

Slide 23

Slide 23 text

ニア リアルタイム分析のユース ケース例 IoT 予測メンテナンス (出典) https://docs.microsoft.com/ja-jp/azure/cosmos-db/synapse-link-use-cases

Slide 24

Slide 24 text

専用 SQL プール向けの 機械学習モデル スコアリング ウィザード

Slide 25

Slide 25 text

Azure Machine Learning ワークスペース Synapse ワークスペース 専用 SQL プール Models Models Models Table dbo.retail_scoring_data Table dbo.AMLModels ストアド プロシージャ スコア 付け 結果 データ Spark プール Notebook Model in ONNX Format 専用 SQL プール向けの機械学習モデル スコアリング ウィザード  Azure Machine Learning に登録された ONNX 形式のML モデルを Synapse Studio で数クリックで利用可能  専用 SQL プールで T-SQL PREDICT 関数をラップしたストアド プロシージャを使用してスコア付け  チュートリアル:SQL プール向けの機械学習モデル スコアリング ウィザード - Azure Synapse Analytics

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

Azure の更新情報 2020 年 9 月 – 10 月の Synapse 関連の更新情報をピックアップ  Azure Synapse SQL on-demand now enforces TLS 1.2 on outbound connections (2020/09/10)  Azure Synapse Link for Azure Cosmos DB: SQL serverless runtime support coming soon (2020/09/22)  Azure Synapse Link now supports Azure Cosmos DB API for Mongo DB (Preview) (2020/09/22)  Apache Spark for Azure Synapse In-cluster Caching and Shuffle Service (Preview) (2020/09/22)  Azure AD authentication features for Azure SQL DB, Azure Synapse Analytics, and Azure SQL Managed Instance (2020/09/22)  High throughput output from Stream Analytics to Azure Synapse Analytics (General Availability) (2020/09/22)  COPY command now generally available in Azure Synapse Analytics (2020/09/23)  New MERGE command for Azure Synapse Analytics (2020/09/23)  Column-level encryption for Azure Synapse Analytics (2020/09/23)  New Common Data Model connector for Apache Spark in Azure Synapse Analytics & Azure Databricks (in preview) (2020/09/30)  New guided UI experience to deploy machine learning models in Azure Synapse Analytics (in preview) (2020/09/30)  Public Preview: Data Factory adds SQL Managed Instance (SQL MI) support for ADF Data Flows and Synapse Data Flows (2020/09/30)  GA: Data Factory adds ORC data lake file format support for ADF Data Flows and Synapse Data Flows (2020/09/30)  Azure Synapse Link for Azure Cosmos DB: SQL serverless runtime support in preview (2020/10/14)  Announcing Azure Data Explorer data connector for Azure Synapse (2020/10/14)

Slide 28

Slide 28 text

参考リンク  Ignite 2020 – Azure Synapse Analytics ブレイクアウト セッション  Ignite 2020 – DB111 – Building real-time enterprise analytics solutions with Azure Synapse Analytics

Slide 29

Slide 29 text

© Copyright Microsoft Corporation. All rights reserved.

Slide 30

Slide 30 text

Appendix

Slide 31

Slide 31 text

Power BI パフォーマンス アクセラレーター (専用 SQL プール用) Synapse Studio で数クリックで有効化することで パフォーマンス アクセラレーターが以下を実行 • 組織内で最も利用されている Power BI クエリを監視、実行 を最適化してインサイトまでの時間やクエリの応答時間を 大幅に改善 • すべての Power BI クエリを総合的に分析し、実行されてい るクエリのパターンを探索、収集した情報に基づき Azure Synapse エンジン内にマテリアライズド ビューを展開 • Power BI クエリが実行され続けると、クエリも自動的に高 速化されていく • 新しいテーブルが SQL テーブルに取り込まれると、マテリ アライズド ビューが自動的に更新され維持されていく プライベート プレビュー 申込用 Forms へのリンク

Slide 32

Slide 32 text

Synapse Pipeline の PowerQuery サポート より簡単に、コードを書くことなく大規模なデータの前処理が可能に

Slide 33

Slide 33 text

Azure Synapse Analytics でコピー コマンドサポート - GA • Azure Synapse Analytics の COPY コマンド機能 (T-SQL) を使用し、外部 ストレージアカウントから、SQL ワークロードの高スループットで Synapse ワークス ペースの SQL プールにデータの読み込みを実現します。 • ファイル分割によるパフォーマンスの向上 • Parquet の自動スキーマ検出 • 複雑なデータ型サポート • データ統合パートナー(Databricks, Informatica, Streamsets, Panoply, and Talend)での COPY コマンドのサポート

Slide 34

Slide 34 text

Azure Synapse Analytics の列レベルの暗号化 - Preview • SQL Server 2019 でサポートされている、 T-SQL を使用して列レベル暗号化 (CLE : Cell Level Encryption, Column-Level Encryption) する機能が、 Azure Synapse Analytics の SQL プールに適用されます。 • テーブル内の機密データに対して、きめ細かい保護 (サーバー側の暗号化) を実装するのに 有効です。 • CLE を使用すると、テーブルの列に異なる保護キーを使用することができ、各キーには独自 のアクセス許可を持ちます。 CLE が適用される列のデータは、DECRYPTBYKEY 関数を 使用して復号化するまで、ディスク上で暗号化されます。(しかし、メモリ内データは複合 化されません)