Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Microsoft Fabric におけるデータ統合を考える

Microsoft Fabric におけるデータ統合を考える

Ryoma Nagata

July 22, 2023
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Microsoft Fabric のデータ統合機能について Microsoft MVP for Data Platform 永田 亮磨

    Twitter: @ryomaru0825 Linkedin: ryoma-nagata-0825 Qiita: ryoma-nagata
  2. 自己紹介 永田 亮磨(Ryoma Nagata) • Microsoft MVP for Data Platform

    • Databricks Solutions Architect Champion • 株式会社ジール • Microsoft Data Analytics Solution の導入など • 主な活動場所 • Qiita : @ryoma-nagata • Twitter : @ryomaru0825 • connpass : • JSSUG (Japan SQL Server User Group) • JEDAI - The Data & AI Meetup MVP Profile 推しサービス Synapse / Power BI / Databricks / Purview Fabric (New!)
  3. データ統合と相互運用性 データ統合と相互運用性の目標 1. 人とシステムそれぞれが必要とするフォーマットと時間枠でデータを提供できるようにする 2. データを物理的および仮想的にデータハブに集約する 3. モデルとインターフェースを開発し共有することでソリューションを管理するコストと複雑さを 削減する 4.

    重要なイベント(機械と脅威)を特定し、アラートとアクションを起動する 5. ビジネスインテリジェンス、アナリティクス、マスターデータ管理、業務効率化の取り組みを サポートする DAMA International.『データマネジメント知識体系ガイド 第二版』.日経BP社.2018年,96p
  4. • 中心となる技術は ETL(抽出、変換、取り込み): • データは物理的であれ仮想的であれETLプロセスにより、利用可能となる • 抽出: • 必要なデータをソースデータストアから抽出し、ディスクやメモリにステージングされる •

    変換: • フォーマット変換/構造化変換/データモデルの変換/重複排除などのプロセスにより、ターゲットデータストアに 互換性のある形に変換する • 取り込み: • 変換結果がターゲットシステムで物理的に保存するか、提供される どのように実現されるか
  5. • Data Factory の豊富なコネクタとパイプライン(EL) および、 データフローGen2(ETL) が OneLake にデータを取り込みます。 Synapse

    Data Engineering の提供する Spark は複雑なETLを実行します。 Microsoft Fabric のデータ統合キーワード DMBOK キーワード Fabric 機能 • クラウドベース統合: 豊富なコネクタとサーバレス環境でのETLプロセス実行 • オーケストレーションとプロセスコントロール ETLプロセスの順序ならびにその整合性を保証する • Data Factory のパイプライン には フォールトトレランス、ログ、監視機能を備えた オーケストレーション機能があり、 ノーコードで複雑な依存関係を簡単にキャンバス上に作成で きます。 • データフェデレーションと仮想化 異なるデータストアにデータ存在する場合でも物理的 な統合以外の手段でデータを統合する • OneLake のショートカット は、 Azure / AWS / GCP といった主要なクラウドサービスにおけるオブジェクトストレージから データを移動をすることなく、データアクセスを提供します。 • データ交換標準 データの形式を標準化し、データ相互運用性を高め てデータの交換運用を統制する • OneLake 上にあるデータは一貫したURLでアクセスが可能です。 変換したデータは Delta Parquet に標準化されますが、 オープンスタンダードなフォーマット特性から Fabric に限らずさまざまな分析環境で再利用が 可能です。
  6. • Docs の記載にあるように、完全な機能マッピングはできないものになっている。 • Fabric と Azure の Data Factory

    の違い - Microsoft Fabric | Microsoft Learn • 主要な差異 • マッピングデータフローは Fabric では提供されず、データフローGen2が移行先となる • 統合ランタイム、データセットに類似する概念はない • セルフホステッド統合ランタイムについては現在ではオンプレミスデータゲートウェイがマッピングされるが、デザイン 中である • アクティビティの種類は追加中の状況だが、Teams , OutlookアクティビティなどAzureではlogic apps などを組み合わせて行うような処理がビルトインされた Azure Data Factory ≠ Fabric Data Factory ?
  7. Fabric データ統合手法選定 2023/07版 オンプレミスデータストア オンプレミスデータゲートウェイとデータフロー Gen2 *パイプラインによるオンプレミスデータ統合を含めて設計中 One Lake ショートカットによる仮想統合

    クラウドデータストア Synapse Link による、No-ETLによる物理統合 *一部計画中 オブジェクトストレージ Synapse SQL Pool / Dataverse / Cosmos DB データフロー Gen2 or パイプライン による物理統合 RDBMS/クラウドサービス その他 要件により選択可能 要件により選択可能 ソース ソリューション
  8. オンプレミスデータゲートウェイとデータフローによる SQL Server データの物理統合 SQL Server ローカルラップトップ オンプレミスデータゲートウェイ Microsoft Fabric

    Data Factory データフロー Gen2 レイクハウス Synapse Data Engineering OneLake Delta Parquet (データの実体) テーブル (メタデータ) 参照
  9. OneLake による仮想統合 with Azure Databricks Microsoft Fabric Data Factory データフロー

    Gen2 レイクハウス Synapse Data Engineering OneLake Delta Parquet (データの実体) テーブル (メタデータ) Azure Databricks Spark Cluster SQL Warehouse Databricks Computing ML SQL・BI 参照