Slide 1

Slide 1 text

データ基盤とSynapseの全体像ざっくり解説 Hirosato Gamo ※解釈しやすいようにかなりシンプル化してます。正確な解説は公式ドキュメント参照

Slide 2

Slide 2 text

データ基盤の基本構成 ストリーミングデータ (センサー, IoT) 構造化データ (RDB, CSV) 半構造化データ (XML, JSON, YAML) 非構造化データ (画像, 音声, 自然言語) 生データ ⚫フィルタ済み ⚫Parquet変換 ⚫クレンジング etc… 半生データ データレイク 変換・フィルタ 探索的な分析・開発 固定化された用途 アドホック分析 AI開発 ダッシュボード 集計・加工 MAなど ビジネスツール データマート DWH オブジェクトストレージ RDB 集計・加工 ロード データ基盤 データソース ストリーム 処理 ➢ サーバレスSpark ➢ サーバレスDWH ➢ ETLツール ➢ サーバレス関数 etc. ➢ Spark ➢ ETLツール ➢ サーバレス関数 etc. ➢ MQTTブローカー ➢ 分散キュー ➢ ストリーム処理ツール etc. ➢ ETLツール etc. ➢ Spark ➢ DWH ➢ ETLツール etc. ➢ オブジェクトストレージ (オンプレではHDFSなど) ➢青字はSynapse の提供される範囲(イメージ) ※解釈しやすいようにかなりシンプル化してます。正確な範囲は公式ドキュメント参照。

Slide 3

Slide 3 text

Azure Synapse 提供範囲のイメージ # ツール 役割 Synapseで対応する機能 1 ETLツール データソース間のデータ連携や、データ加工、 それらの処理のオーケストレーションを実行する。 パイプライン 2 Spark あらかじめプロビジョニングされたリソースを使って Sparkジョブを実行する。 Sparkプール 3 サーバレスSpark サーバレス(実行時だけ一時的に建てられるリソース)で Sparkジョブを実行する。 サーバレスSparkプール 4 DWH あらかじめプロビジョニングされたリソースを使って DWH処理を実行する。 専用SQLプール (Dedicated SQL pool) 5 サーバレスDWH サーバレス(実行時だけ一時的に建てられるリソース)で DWH処理を実行する。 サーバレスSQLプール 6 ストリーム処理ツール IoTやセンサデータからオンラインで収集されるデータを加工・ 集計する。 データエクスプローラープール (プレビュー) 7 オブジェクトストレージ 分散ストレージの一種。エンドポイントを介してファイル形式 でデータを格納する。 Azure Data Lake Storage Gen2(厳密にはSynapse外) ※解釈しやすいようにかなりシンプル化してます。正確な範囲は公式ドキュメント参照。

Slide 4

Slide 4 text

Azure Synapseでデータ基盤を組むときにいいなと思うところ ➢ データ基盤のツールが纏まっているため アーキテクチャ知識が無くても構成しやすい (自分でツール選定をしなくていい) ➢ GUIベースのマネージドなETLがありオーケストレーションも容易 ➢ 高額になりがちなETLツールのライセンス課金が無く従量ベース ➢ Purviewと連携してデータマネジメントができる ➢ Power BIとの連携が簡単 ➢ テンプレがたくさんあって便利 ➢ Azure ADによるアクセス制御