$30 off During Our Annual Pro Sale. View Details »

Microsoft Fabric におけるデータ統合を考える

Microsoft Fabric におけるデータ統合を考える

Ryoma Nagata

July 22, 2023
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Microsoft Fabric のデータ統合機能について
    Microsoft MVP for Data Platform
    永田 亮磨
    Twitter: @ryomaru0825
    Linkedin: ryoma-nagata-0825
    Qiita: ryoma-nagata

    View Slide

  2. 自己紹介
    永田 亮磨(Ryoma Nagata)
    • Microsoft MVP for Data Platform
    • Databricks Solutions Architect Champion
    • 株式会社ジール
    • Microsoft Data Analytics Solution の導入など
    • 主な活動場所
    • Qiita : @ryoma-nagata
    • Twitter : @ryomaru0825
    • connpass :
    • JSSUG (Japan SQL Server User Group)
    • JEDAI - The Data & AI Meetup
    MVP Profile
    推しサービス
    Synapse / Power BI / Databricks / Purview
    Fabric (New!)

    View Slide

  3. • データ統合について
    • Microsoft Fabric のデータ統合
    • デモ
    • オンプレミスデータゲートウェイとデータフローによる SQL Server データの物理統合
    • OneLake による仮想統合 with Azure Databricks
    Agenda

    View Slide

  4. データ統合と相互運用性
    データ統合と相互運用性の目標
    1. 人とシステムそれぞれが必要とするフォーマットと時間枠でデータを提供できるようにする
    2. データを物理的および仮想的にデータハブに集約する
    3. モデルとインターフェースを開発し共有することでソリューションを管理するコストと複雑さを
    削減する
    4. 重要なイベント(機械と脅威)を特定し、アラートとアクションを起動する
    5. ビジネスインテリジェンス、アナリティクス、マスターデータ管理、業務効率化の取り組みを
    サポートする
    DAMA International.『データマネジメント知識体系ガイド 第二版』.日経BP社.2018年,96p

    View Slide

  5. • 中心となる技術は ETL(抽出、変換、取り込み):
    • データは物理的であれ仮想的であれETLプロセスにより、利用可能となる
    • 抽出:
    • 必要なデータをソースデータストアから抽出し、ディスクやメモリにステージングされる
    • 変換:
    • フォーマット変換/構造化変換/データモデルの変換/重複排除などのプロセスにより、ターゲットデータストアに
    互換性のある形に変換する
    • 取り込み:
    • 変換結果がターゲットシステムで物理的に保存するか、提供される
    どのように実現されるか

    View Slide

  6. • Data Factory の豊富なコネクタとパイプライン(EL) および、
    データフローGen2(ETL) が OneLake にデータを取り込みます。
    Synapse Data Engineering の提供する Spark は複雑なETLを実行します。
    Microsoft Fabric のデータ統合キーワード
    DMBOK キーワード Fabric 機能
    • クラウドベース統合:
    豊富なコネクタとサーバレス環境でのETLプロセス実行
    • オーケストレーションとプロセスコントロール
    ETLプロセスの順序ならびにその整合性を保証する
    • Data Factory のパイプライン には フォールトトレランス、ログ、監視機能を備えた
    オーケストレーション機能があり、 ノーコードで複雑な依存関係を簡単にキャンバス上に作成で
    きます。
    • データフェデレーションと仮想化
    異なるデータストアにデータ存在する場合でも物理的
    な統合以外の手段でデータを統合する
    • OneLake のショートカット は、
    Azure / AWS / GCP といった主要なクラウドサービスにおけるオブジェクトストレージから
    データを移動をすることなく、データアクセスを提供します。
    • データ交換標準
    データの形式を標準化し、データ相互運用性を高め
    てデータの交換運用を統制する
    • OneLake 上にあるデータは一貫したURLでアクセスが可能です。
    変換したデータは Delta Parquet に標準化されますが、
    オープンスタンダードなフォーマット特性から Fabric に限らずさまざまな分析環境で再利用が
    可能です。

    View Slide

  7. • Docs の記載にあるように、完全な機能マッピングはできないものになっている。
    • Fabric と Azure の Data Factory の違い - Microsoft Fabric | Microsoft Learn
    • 主要な差異
    • マッピングデータフローは Fabric では提供されず、データフローGen2が移行先となる
    • 統合ランタイム、データセットに類似する概念はない
    • セルフホステッド統合ランタイムについては現在ではオンプレミスデータゲートウェイがマッピングされるが、デザイン
    中である
    • アクティビティの種類は追加中の状況だが、Teams , OutlookアクティビティなどAzureではlogic
    apps などを組み合わせて行うような処理がビルトインされた
    Azure Data Factory ≠ Fabric Data Factory ?

    View Slide

  8. Fabric データ統合手法選定 2023/07版
    オンプレミスデータストア オンプレミスデータゲートウェイとデータフロー Gen2
    *パイプラインによるオンプレミスデータ統合を含めて設計中
    One Lake ショートカットによる仮想統合
    クラウドデータストア
    Synapse Link による、No-ETLによる物理統合
    *一部計画中
    オブジェクトストレージ
    Synapse SQL Pool /
    Dataverse /
    Cosmos DB
    データフロー Gen2 or パイプライン による物理統合
    RDBMS/クラウドサービス
    その他
    要件により選択可能
    要件により選択可能
    ソース ソリューション

    View Slide

  9. オンプレミスデータゲートウェイとデータフローによる
    SQL Server データの物理統合
    SQL Server
    ローカルラップトップ
    オンプレミスデータゲートウェイ
    Microsoft Fabric
    Data Factory
    データフロー Gen2 レイクハウス
    Synapse Data Engineering
    OneLake
    Delta Parquet
    (データの実体)
    テーブル
    (メタデータ)
    参照

    View Slide

  10. OneLake による仮想統合 with Azure Databricks
    Microsoft Fabric
    Data Factory
    データフロー Gen2 レイクハウス
    Synapse Data Engineering
    OneLake
    Delta Parquet
    (データの実体)
    テーブル
    (メタデータ)
    Azure Databricks
    Spark
    Cluster
    SQL
    Warehouse
    Databricks Computing
    ML SQL・BI
    参照

    View Slide