$30 off During Our Annual Pro Sale. View Details »

Microsoft Fabric OneLake の実体について

Ryoma Nagata
November 07, 2024

Microsoft Fabric OneLake の実体について

Ryoma Nagata

November 07, 2024
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Microsoft MVP for Data Platform 永田 亮磨 (ZEAL CORPORATION) X:

    @ryomaru0825 Linkedin: ryoma-nagata-0825 Qiita: ryoma-nagata OneLake の実体について
  2. OneLake 概要  組織全体に対する 1 つのデータ レイク  課題)システム構築のたびにデータレイク作成 →

    Microsoft Fabric テナント に備え付けられており、フォルダ(ワークスぺース)を切るだけ OneLake、データ用の OneDrive - Microsoft Fabric | Microsoft Learn
  3. OneLake 特徴① - OneCopy  複数の分析エンジン間で使用できる、一度きりのデータコピー  課題)データを再利用するにはコピーが必要 →内部外部のショートカットにより、データをコピーせずに再利用 カスタマー

    360 オンプレミス クラウド データソース コピー T-SQL エンジン 変換 Data Factory エンジン Microsoft Fabric Power BI エンジン 可視化 (No コピー) Python(Pyspark) エンジン ファイナンス 解析 ショートカット (Noコピー) 既存のデータレイク ショートカット (Noコピー)
  4. 補足)コンピューティングとストレージの分離  従来のデータベースエンジンの世界=ストレージとコンピューティングが一体化  変換処理の性能限界=データベースエンジンの限界  データにアクセスするためにはデータベースエンジンを介する必要がある→共有や多目的利用の難しいデータ  レイクセントリックな世界=ストレージとコンピューティングが分離 

    単なるストレージのため拡張性に優れる。多用なエンジンを使用可能  データにアクセスする製品やエンジンは誰が所有していてもいい→共有や多目的しやすいデータ エンジン ストレージ ストレージ エンジン エンジン 製品A 製品B データレイク データベース ユーザーとツール ユーザーとツール ユーザーとツール エンジンを通さずに アクセス不可
  5. OneLake 特徴② -オープンアクセス  ツールを問わずデータの利用が可能にするデータレイク互換 API  課題)ストレージにアクセスするためにはベンダーロックインなツールが必要 →あらゆるツールでサポートされる Azure

    Data Lake 用 API を通してファイルにアクセス Azure Databricks Azure AI Studio ADLS Gen2 対応サービスの例 Snowflake Azure Data Factory DFS API DFS API クライアントツール Azure Storage Explorer PowerShell SDK OneLake File Explorer
  6. OneLake 特徴③ -オープンフォーマット  オープンフォーマット Delta Lake の採用  課題)データフォーマットがバラバラでは新しいサイロが発生する

    → OSS を採用し、データのフォーマットを標準化 ファイナンス 非構造化データ 構造化データ (Delta Parquet) Home | Delta Lake OneLake は単なるストレージであり、 データは2種のフォルダで管理されている - Tables : Delta Lake 形式専用のフォルダ - Files:あらゆるデータのためのフォルダ Fabric では独自のエンコーディング技術(V-Order) を使用してクエ リ性能が最適化されており、 Delta Parquet と呼称される
  7. 補足)Apache X Table 変換による相互運用性の向上 SnowflakeとMicrosoft:Apache Icebergによる相互運用性の向上  OneLake 上で異なる ストレージ

    OSS を翻訳するための技術が統合予定  データ分析基盤の二大巨頭とのデータのやりとりがよりスムーズに
  8. 3つの ”ハウス” のデータ構造 レイクハウス イベントハウスでのデータ管理単位: コンピューティングを共有したデータベース群 および配下のテーブルなどのオブジェクト ・・・ KQL データベース

    イベントハウス テーブルなどのオブジェクト ・・・ テーブル フォルダ スキーマ(プレビュー) ・・・ ・・・ ・・・ レイクハウスでのデータ管理単位: 構造化領域としてのスキーマとテーブル、 非構造化領域内のフォルダ、ファイル ウェアハウス スキーマ ・・・ ・・・ ウェアハウスのデータ管理単位: スキーマ群および配下のテーブルなどのオブジェクト テーブルなどのオブジェクト
  9. OneLake File Explorer を使ってのぞいてみる  OneLake をOneDrive のようにのぞいてみると、 ワークスペースはたしかにファイルフォルダであることがわかる 

    OneLake ファイル エクスプローラーを使用して Fabric データにローカルでアクセスする - Microsoft Fabric | Microsoft Learn
  10. ウェアハウス Fabric UI OneLake file Explorer  Tables が Delta

    Lake 形式のフォルダとなっている 実態のparquetファイル
  11.  イベントハウスはストリーム書き込み(小さいデータ断片が細かいタイミングで書き込まれる特性がある)に最適化するため 特殊な構成となっている イベントハウスの OneLake への反映について Delta Lake フォルダへの反映 -

    プロパティをオンにすると、書き込みで発生した小さくて多数のファイルを 最適なファイルサイズにまとめてDelta Lake 形式出力する - イベントハウス OneLake の可用性 - Microsoft Fabric | Microsoft Learn OneLake Cache Storage (Premium ADLS) OneLake Standard Storage (Standard ADLS) イベントハウス専用ストレージ領域 OneLake データ保持ポリシー - 最速クエリのための”キャッシュ層”と、 標準速度でのクエリ可能な ”保持層” の二つにより、 リアルタイムデータの保持コスト最適化をはかっている - イベントハウスと KQL データベース使用量 - Microsoft Fabric | Microsoft Learn Delta Parquet
  12. Power BI エンジンと OneLake の関係  従来から Power BI は

    SaaS で提供される BI サービスだったが、 Fabric のファ ミリーとなってからはどのような関係となったのか OneLake Power BI ?
  13. Power BI のモードから見たエンジン、データの関係性  従来の「Direct Query」、「Import」からデータベースに接続する際には常にデータベースエンジンを介していたが、 Fabric の「Direct Lake 」モードは直接Delta

    Parquetファイルにアクセスしている  ※ ウェアハウス上の Viewを介すると DirectLake でなくなるのは、ウェアハウスのエンジンを介してしまうため。 データベースエンジン データベースエンジン専用の データフォーマット OneLake Delta Parquet Power BI エンジン Power BI エンジン データベース セマンティックモデル Vertipaq (Power BI専用のデータフォーマット) Import セマンティックモデル クエリのための論理定義のみ Direct Lake Power BI エンジン データベースエンジン データベースエンジン専用の データフォーマット Power BI エンジン データベース セマンティックモデル クエリのための論理定義のみ Direct Query Vertipaq生成のぶん 時間がかかる データベースエンジンの処理のぶんだけ 時間がかる 直接 Delta Parquet にクエリ (v-order により Vertipaqにクエリしているのと似た状態に) 高速 高速 Direct Lake の概要 - Microsoft Fabric | Microsoft Learn 低速
  14. Delta Parquet OneLake Delta Parquet Power BI と OneLake 

    エンジンとデータの関係がわかっていると、 各モードは Fabric でどのように動作するのかがわかる! OneLake Delta Parquet Power BI エンジン Power BI エンジン セマンティックモデル Vertipaq (Power BI専用のデータフォーマット) Import セマンティックモデル クエリのための論理定義のみ Direct Lake Power BI エンジン Power BI エンジン セマンティックモデル クエリのための論理定義のみ Direct Query Vertipaq生成のぶん 時間がかかる データベースエンジンの処理のぶんだけ 時間がかる 直接 Delta Parquet にクエリ (v-order により Vertipaqにクエリしているのと似た状態に) 高速 高速 OneLake ウェアハウスエンジン(T-SQL) ウェアハウスエンジン(T-SQL) 低速