Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20220310_7th_AzureDataAndAITechLunch

 20220310_7th_AzureDataAndAITechLunch

20220310に実施された7th_Azure Data And AI Tech Lunchの資料です。
https://sqlserver.connpass.com/event/240462/

Azure Synapseのコンポーネントを知るためにシンプルな解説を書きました。
分かりやすさのため、一部正確な情報になっていない部分がありますので、詳細の情報を知りたい場合は公式ドキュメントを参照ください。
https://azure.microsoft.com/ja-jp/services/synapse-analytics/

Ef1d867d677f30f96b475da995618bb1?s=128

Hirosato Gamo

March 10, 2022
Tweet

Other Decks in Technology

Transcript

  1. データ基盤とSynapseの全体像ざっくり解説 Hirosato Gamo ※解釈しやすいようにかなりシンプル化してます。正確な解説は公式ドキュメント参照

  2. データ基盤の基本構成 ストリーミングデータ (センサー, IoT) 構造化データ (RDB, CSV) 半構造化データ (XML, JSON,

    YAML) 非構造化データ (画像, 音声, 自然言語) 生データ ⚫フィルタ済み ⚫Parquet変換 ⚫クレンジング etc… 半生データ データレイク 変換・フィルタ 探索的な分析・開発 固定化された用途 アドホック分析 AI開発 ダッシュボード 集計・加工 MAなど ビジネスツール データマート DWH オブジェクトストレージ RDB 集計・加工 ロード データ基盤 データソース ストリーム 処理 ➢ サーバレスSpark ➢ サーバレスDWH ➢ ETLツール ➢ サーバレス関数 etc. ➢ Spark ➢ ETLツール ➢ サーバレス関数 etc. ➢ MQTTブローカー ➢ 分散キュー ➢ ストリーム処理ツール etc. ➢ ETLツール etc. ➢ Spark ➢ DWH ➢ ETLツール etc. ➢ オブジェクトストレージ (オンプレではHDFSなど) ➢青字はSynapse の提供される範囲(イメージ) ※解釈しやすいようにかなりシンプル化してます。正確な範囲は公式ドキュメント参照。
  3. Azure Synapse 提供範囲のイメージ # ツール 役割 Synapseで対応する機能 1 ETLツール データソース間のデータ連携や、データ加工、

    それらの処理のオーケストレーションを実行する。 パイプライン 2 Spark あらかじめプロビジョニングされたリソースを使って Sparkジョブを実行する。 Sparkプール 3 サーバレスSpark サーバレス(実行時だけ一時的に建てられるリソース)で Sparkジョブを実行する。 サーバレスSparkプール 4 DWH あらかじめプロビジョニングされたリソースを使って DWH処理を実行する。 専用SQLプール (Dedicated SQL pool) 5 サーバレスDWH サーバレス(実行時だけ一時的に建てられるリソース)で DWH処理を実行する。 サーバレスSQLプール 6 ストリーム処理ツール IoTやセンサデータからオンラインで収集されるデータを加工・ 集計する。 データエクスプローラープール (プレビュー) 7 オブジェクトストレージ 分散ストレージの一種。エンドポイントを介してファイル形式 でデータを格納する。 Azure Data Lake Storage Gen2(厳密にはSynapse外) ※解釈しやすいようにかなりシンプル化してます。正確な範囲は公式ドキュメント参照。
  4. Azure Synapseでデータ基盤を組むときにいいなと思うところ ➢ データ基盤のツールが纏まっているため アーキテクチャ知識が無くても構成しやすい (自分でツール選定をしなくていい) ➢ GUIベースのマネージドなETLがありオーケストレーションも容易 ➢ 高額になりがちなETLツールのライセンス課金が無く従量ベース

    ➢ Purviewと連携してデータマネジメントができる ➢ Power BIとの連携が簡単 ➢ テンプレがたくさんあって便利 ➢ Azure ADによるアクセス制御