$30 off During Our Annual Pro Sale. View Details »

Azure Purview Linage for Dataflow/Spark

Ryoma Nagata
December 18, 2021

Azure Purview Linage for Dataflow/Spark

https://sqlserver.connpass.com/event/216911/
【初級、中級者向け】Azure Purview Linage for Synapse Dataflow/Spark
登壇資料

Ryoma Nagata

December 18, 2021
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. 【初級、中級者向け】
    Azure Purview Linage
    for Synapse Dataflow/Spark
    Microsoft MVP for Data Platform 2021
    永田 亮磨
    Twitter:@ryomaru0825
    Linkedin:ryoma-nagata-0825
    Qiita:qiita.com/ryoma-nagata

    View Slide

  2. 1. Azure Purviewリネージ概要
    2. デモ①
    3. Purview Machine Learning Solution Accelerator
    4. デモ②
    AGENDA

    View Slide

  3. • データ資産(Asset)の生成から利用に至る経路を示すメタデータ
    • データ品質分析や影響分析、パイプラインのトレースに利用
    概念の確認:リネージ(Lineage)とは
    生データ 変換されたデータ 利用先
    データソース
    分析基盤での例
    BIレポート
    MLモデル
    追加の変換

    View Slide

  4. • Azure内外のデータ処理システム、ストレージシステム、分析システムと接続し、リネージ情報を抽出
    • Synapse / Data Factory:コピー、データフロー、SSIS(Data Factroy のみ)
    • Azure Data Share:スナップショットの共有
    • Power BI Service:データセット、データフロー、レポートとダッシュボード
    Azure Purviewのリネージ(系列)概要
    • データ カタログ系列のユーザー ガイド

    View Slide

  5. • Copy Activity
    • SQL DB->Data lake Storage Gen2 (n : n)
    • Dataflow
    • Data lake Storage Gen2->Synapse 専用 SQL Pool (n:1)
    デモ

    View Slide

  6. データ処理ツールはいろいろ
    • GUIデータ処理の対応はOK
    • →SparkやML処理は系列に記録できない?
    Power BI Service
    Data Factory/
    Synapse Pipelines
    Databricks
    Synapse Spark /
    OSS Spark
    Azure ML
    ※Python
    Purview



    View Slide

  7. • ML処理など、現在統合されていない処理を
    Purviewに登録する体験が可能なリポジトリ
    • Pyapacheatlas(wjohnson/pyapacheatlas)を利
    用してカスタムエンティティ、プロセスを登録
    ※Azure PurviewはOSS であるApache Atlasをベー
    スとしており、AtlasAPIを利用可能
    • 英語版本家を日本語化しました。
    • 【10分で環境構築】Purview Machine Learning
    Lineage Solution AcceleratorによるMLリネージ –
    Qiita
    • 非常におすすめ:
    • Azure Purview を遊びながら開発しよう(基本編) - Qiita
    • Azure Purview を遊びながら開発しよう(応用編) - Qiita
    Purview Machine Learning
    Solution Accelerator

    View Slide

  8. • Synapse Sparkによる簡単な変換
    • 備考:
    • Entityは完全名(Qualified Name)が完全一致することで系列がつながるため、つながらないと
    きは検索して完全名を確認しましょう
    • 補足:
    • 01_Authenticate_to_Purview_AML・・・認証用ノートブック
    • 02_Create_ML_Lineage_Types・・・ユーザー定義のPurviewのアセット(Entity)の種類
    を登録
    • 03_Create_ML_Lineage_Functions・・・Purview用の関数を定義
    • 04_Create_CreditRisk_Experiment・・・ML処理~推論ノートブック
    デモ

    View Slide

  9. • [Part 1] Azure Purview と Microsoft Solution によるデータ活用&ガバ
    ナンス | 日本マイクロソフト – YouTube
    • [Part 2] Azure Purview と Microsoft Solution によるデータ活用&ガバ
    ナンス | 日本マイクロソフト – YouTube
    • [Part 3] Azure Purview と Microsoft Solution によるデータ活用&ガバ
    ナンス | 日本マイクロソフト – YouTube
    • [Part 4] Azure Purview と Microsoft Solution によるデータ活用&ガバ
    ナンス | 日本マイクロソフト - YouTube
    参考リンク

    View Slide