Slide 1

Slide 1 text

Azure Synapse Analytics 入門 2021.9.25 Japan Azure User Group 11周年イベント

Slide 2

Slide 2 text

自己紹介 名前 原 敏之 個人 Twitter : @TonyTonyKun ROMANCE DAWN for the new world • https://gooner.hateblo.jp/ Microsoft MVP for Microsoft Azure 2017 〜 仕事 株式会社ネクストスケープ Copyright© 2021, JAZUG All Rights Reserved. 2

Slide 3

Slide 3 text

Goal Azure Synapse Analytics の概要を知る データ分析プラットフォームの作り方が分かる 3 Copyright© 2021, JAZUG All Rights Reserved.

Slide 4

Slide 4 text

Azure Synapse Analytics Overview 概要と特徴 4 Copyright© 2021, JAZUG All Rights Reserved.

Slide 5

Slide 5 text

Azure Synapse Analytics とは? Azure Synapse Analytics は、データのインジェスト → 分析 → 可視化のための開発やモニタリングを、統合して管理できる データ分析プラットフォームです。 5 Copyright© 2021, JAZUG All Rights Reserved. 従来の Azure Data Platform Azure Synapse Analytics

Slide 6

Slide 6 text

Synapse Studio Azure Synapse Analytics を構成するリソース群をまとめて管理 できるポータルサイトです。 Copyright© 2021, JAZUG All Rights Reserved. 6 Hub Description Data ・Synapse Analytics 内のデータベースや外部データソースにアクセスする。 Develop ・SQL Script、Notebook、Data flow を管理する。 Integrate ・Data Factory ライクなデータ統合パイプラインを管理する。 Monitor ・パイプラインやトリガーの実行状況を監視する。 Manage ・SQL Pool と Spark Pool のスペックやインスタンスを管理する。 ・権限の付与や閉域ネットワークなどのセキュリティを管理する。 ・Synapse Analytics のアーティファクトを Git Repository で管理する。

Slide 7

Slide 7 text

SQL Pool – Dedicated SQL Pool Massively Parallel Processing(MPP)による並列処理が可能な データウェアハウスです。(旧称 SQL Data Warehouse) Copyright© 2021, JAZUG All Rights Reserved. 7 SQL Server がベースのデータウェアハウス T-SQL クエリを実行でき、SSMS など使い慣れた ツールで管理できる スター スキーマと呼ばれる構造化されたリレー ショナル形式でモデリング コンピューティングとストレージを分離したス ケールアウト アーキテクチャ Compute Node は最大 60 個 データは Azure Storage に配置され、容量は無制限 パフォーマンスレベルは、DWU で指定する データのパーティションやインデックスをチュー ニングして、効率的に並列処理させる

Slide 8

Slide 8 text

SQL Pool – Serverless SQL Pool Azure Data Lake Storage に格納したファイルに対して、T-SQL クエリを実行できる論理的なデータウェアハウスです。 Copyright© 2021, JAZUG All Rights Reserved. 8 T-SQL クエリを実行可能なエンドポイント OPENROWSET 関数でファイルを読み取り、スキー マの自動検出も可能 対応ファイル形式は、CSV / JSON / Parquet クエリを最適化する Materialized View などはない 事前に Compute Node がプロビジョニングさ れていないサーバーレス アーキテクチャ DQP が空いている Compute Node を探して、クエ リを分割して実行する 専用のローカルストレージをもたない クエリで返されるデータ量に基づいた課金(1日、 1週間、1か月で利用上限を設定可能)

Slide 9

Slide 9 text

Apache Spark Pool Spark を使ってデータをメモリにキャッシュし、並列分散処理 によるパフォーマンスに優れた分析エンジンです。 Copyright© 2021, JAZUG All Rights Reserved. 9 ✓ Synapse Studio に Notebook が統合されており、Apache Spark クラスタを 立ち上げてジョブを実行できる。 ✓ PySpark (Python) ✓ Spark (Scala) ✓ SparkSQL ✓ .NET for Apache Spark (C#) 。 ✓ DataFrame を Spark テーブルに格納すれば、T-SQL クエリを実行できる

Slide 10

Slide 10 text

Synapse Pipeline Azure Data Factory と同様に、データの移動や変換のステップ を含んだパイプラインを作成し、トリガーでスケジューリング できる ETL ツールです。 Copyright© 2021, JAZUG All Rights Reserved. 10 Object Description Pipeline ・Activity が複数集まったもの ・ワークフローを構築し、トリガー実行する Activity ・データ移動、データ変換、フロー制御の3種類 ・統合ランタイム(VM)で実行される Linked Service ・Activity から利用するデータストアの接続情報 Data Set ・接続先データストアのテーブルやファイル ・Activity から Data Set に書き込みや読み取りする

Slide 11

Slide 11 text

Azure Synapse Link for Azure Cosmos DB Azure Cosmos DB と Azure Synapse Analytics をシームレスに 統合できるサービスです。 業務トランザクションデータに対して、システムのパフォーマンスに影響を与えず、 リアルタイムに分析できる 完全に分離された列指向な Azure Cosmos DB 分析ストア Copyright© 2021, JAZUG All Rights Reserved. 11

Slide 12

Slide 12 text

Case Study 売上分析プラットフォームを構築する 12 Copyright© 2021, JAZUG All Rights Reserved.

Slide 13

Slide 13 text

売上分析プラットフォーム 各店舗の POS システムから売上データを収集し、全店舗の データをまとめた横断的な売上分析を行う想定シナリオです。 Copyright© 2021, JAZUG All Rights Reserved. 13 各店舗の売上データは、日次単位で XML 形式のファイルがアップロードされる 各店舗の顧客マスターは、バラバラのロー カルコードが使われているため、標準顧客 マスターのコードをマッピングする 全店舗の売上データを集めて、顧客ごとの 売上状況を分析する

Slide 14

Slide 14 text

売上データの準備 Blob Storage にアップロードする XML のデータは、mockaroo というサイトを使って、売上データを作ります。 Copyright© 2021, JAZUG All Rights Reserved. 14 https://www.mockaroo.com/ 作成した売上データの XML

Slide 15

Slide 15 text

Ingest Layer Ingest Layer は、収集したデータから Data Lake を作る責務を 持ちます。 Copyright© 2021, JAZUG All Rights Reserved. 15 Copy Data で Blob Storage の XML を Parquet に変換し、 Data Lake Storage Gen2 にコピーするパイプラインを作 成します。

Slide 16

Slide 16 text

Ingest Layer Data Lake には、XML の階層データがフラット化された形式で 蓄積されます。 Copyright© 2021, JAZUG All Rights Reserved. 16

Slide 17

Slide 17 text

Batch Layer Batch Layer は、Data Lake から DWH を作る責務を持ちます。 Copyright© 2021, JAZUG All Rights Reserved. 17 ✓ Mapping Data Flow で Data Lake Storage Gen2 の Parquet か ら Dedicated SQL Pool に売上データを取り込むパイプラインを作 成します。 ✓ 売上データを取り込む過程で、SQL Database の顧客マスターと突 き合わせて、各店舗のローカルコードを標準コードに変換します。

Slide 18

Slide 18 text

Batch Layer DWH には、標準顧客コードをマッピングした売上データが Dedicated SQL Pool の Sales テーブルに蓄積されます。 Copyright© 2021, JAZUG All Rights Reserved. 18

Slide 19

Slide 19 text

Serving Layer Serving Layer は、DWH から Data Mart を作る責務を持ちます。 Copyright© 2021, JAZUG All Rights Reserved. 19 Mapping Data Flow を使って、Dedicated SQL Pool の売上データから SQL Database に顧客別売上データを取り込むパイプラインを作成します。 Data Mart には、顧客別売上データが SQL Database の SalesByCustomer テーブルに蓄積されます。

Slide 20

Slide 20 text

Conclusion まとめ 20 Copyright© 2021, JAZUG All Rights Reserved.

Slide 21

Slide 21 text

まとめ Azure Synapse Analytics は、使い慣れた T-SQL や GUI だけでな く、Spark を組み合わせることもできる統合分析サービスです。 データは構造化・非構造化を問わず一元管理 データの収集・加工・蓄積をパイプラインで統合 モニタリングでパイプラインの実行を監視 Azure Active Directory 認証によるセキュリティ強化 21 Copyright© 2021, JAZUG All Rights Reserved.

Slide 22

Slide 22 text

参考資料 Azure Synapse Analytics の公式ドキュメント https://docs.microsoft.com/ja-jp/azure/synapse-analytics/ Azure Synapse Analytics で分析ソリューションの統合を実現する https://docs.microsoft.com/ja-jp/learn/paths/realize-integrated- analytical-solutions-with-azure-synapse-analytics/ Azure Synapse Analytics を使って売上分析プラットフォームを 作ってみた https://gooner.hateblo.jp/entry/2021/01/12/092320 22 Copyright© 2021, JAZUG All Rights Reserved.