Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure Purview Linage for Dataflow/Spark

Ryoma Nagata
December 18, 2021

Azure Purview Linage for Dataflow/Spark

https://sqlserver.connpass.com/event/216911/
【初級、中級者向け】Azure Purview Linage for Synapse Dataflow/Spark
登壇資料

Ryoma Nagata

December 18, 2021
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. 【初級、中級者向け】 Azure Purview Linage for Synapse Dataflow/Spark Microsoft MVP for

    Data Platform 2021 永田 亮磨 Twitter:@ryomaru0825 Linkedin:ryoma-nagata-0825 Qiita:qiita.com/ryoma-nagata
  2. 1. Azure Purviewリネージ概要 2. デモ① 3. Purview Machine Learning Solution

    Accelerator 4. デモ② AGENDA
  3. • データ資産(Asset)の生成から利用に至る経路を示すメタデータ • データ品質分析や影響分析、パイプラインのトレースに利用 概念の確認:リネージ(Lineage)とは 生データ 変換されたデータ 利用先 データソース 分析基盤での例

    BIレポート MLモデル 追加の変換
  4. • Azure内外のデータ処理システム、ストレージシステム、分析システムと接続し、リネージ情報を抽出 • Synapse / Data Factory:コピー、データフロー、SSIS(Data Factroy のみ) •

    Azure Data Share:スナップショットの共有 • Power BI Service:データセット、データフロー、レポートとダッシュボード Azure Purviewのリネージ(系列)概要 • データ カタログ系列のユーザー ガイド
  5. • Copy Activity • SQL DB->Data lake Storage Gen2 (n

    : n) • Dataflow • Data lake Storage Gen2->Synapse 専用 SQL Pool (n:1) デモ
  6. データ処理ツールはいろいろ • GUIデータ処理の対応はOK • →SparkやML処理は系列に記録できない? Power BI Service Data Factory/

    Synapse Pipelines Databricks Synapse Spark / OSS Spark Azure ML ※Python Purview ? ? ?
  7. • ML処理など、現在統合されていない処理を Purviewに登録する体験が可能なリポジトリ • Pyapacheatlas(wjohnson/pyapacheatlas)を利 用してカスタムエンティティ、プロセスを登録 ※Azure PurviewはOSS であるApache Atlasをベー

    スとしており、AtlasAPIを利用可能 • 英語版本家を日本語化しました。 • 【10分で環境構築】Purview Machine Learning Lineage Solution AcceleratorによるMLリネージ – Qiita • 非常におすすめ: • Azure Purview を遊びながら開発しよう(基本編) - Qiita • Azure Purview を遊びながら開発しよう(応用編) - Qiita Purview Machine Learning Solution Accelerator
  8. • Synapse Sparkによる簡単な変換 • 備考: • Entityは完全名(Qualified Name)が完全一致することで系列がつながるため、つながらないと きは検索して完全名を確認しましょう •

    補足: • 01_Authenticate_to_Purview_AML・・・認証用ノートブック • 02_Create_ML_Lineage_Types・・・ユーザー定義のPurviewのアセット(Entity)の種類 を登録 • 03_Create_ML_Lineage_Functions・・・Purview用の関数を定義 • 04_Create_CreditRisk_Experiment・・・ML処理~推論ノートブック デモ
  9. • [Part 1] Azure Purview と Microsoft Solution によるデータ活用&ガバ ナンス

    | 日本マイクロソフト – YouTube • [Part 2] Azure Purview と Microsoft Solution によるデータ活用&ガバ ナンス | 日本マイクロソフト – YouTube • [Part 3] Azure Purview と Microsoft Solution によるデータ活用&ガバ ナンス | 日本マイクロソフト – YouTube • [Part 4] Azure Purview と Microsoft Solution によるデータ活用&ガバ ナンス | 日本マイクロソフト - YouTube 参考リンク