Slide 1

Slide 1 text

Microsoft MVP for Data Platform 永田 亮磨 (ZEAL CORPORATION) X: @ryomaru0825 Linkedin: ryoma-nagata-0825 Qiita: ryoma-nagata OneLake の実体について

Slide 2

Slide 2 text

本日のお品書き  OneLake 概要と特徴  Fabric の機能との関係性について

Slide 3

Slide 3 text

OneLake 概要  組織全体に対する 1 つのデータ レイク  課題)システム構築のたびにデータレイク作成 → Microsoft Fabric テナント に備え付けられており、フォルダ(ワークスぺース)を切るだけ OneLake、データ用の OneDrive - Microsoft Fabric | Microsoft Learn

Slide 4

Slide 4 text

OneLake 特徴① - OneCopy  複数の分析エンジン間で使用できる、一度きりのデータコピー  課題)データを書き込んだエンジンでしか読みとれない →書き込みと読みとりで異なるエンジンが同じデータにアクセスし用途に応じた技術を利用 カスタマー 360 オンプレミス クラウド データソース コピー T-SQL エンジン 変換 Data Factory エンジン Microsoft Fabric Power BI エンジン 可視化 (No コピー)

Slide 5

Slide 5 text

OneLake 特徴① - OneCopy  複数の分析エンジン間で使用できる、一度きりのデータコピー  課題)データを再利用するにはコピーが必要 →内部外部のショートカットにより、データをコピーせずに再利用 カスタマー 360 オンプレミス クラウド データソース コピー T-SQL エンジン 変換 Data Factory エンジン Microsoft Fabric Power BI エンジン 可視化 (No コピー) Python(Pyspark) エンジン ファイナンス 解析 ショートカット (Noコピー) 既存のデータレイク ショートカット (Noコピー)

Slide 6

Slide 6 text

補足)コンピューティングとストレージの分離  従来のデータベースエンジンの世界=ストレージとコンピューティングが一体化  変換処理の性能限界=データベースエンジンの限界  データにアクセスするためにはデータベースエンジンを介する必要がある→共有や多目的利用の難しいデータ  レイクセントリックな世界=ストレージとコンピューティングが分離  単なるストレージのため拡張性に優れる。多用なエンジンを使用可能  データにアクセスする製品やエンジンは誰が所有していてもいい→共有や多目的しやすいデータ エンジン ストレージ ストレージ エンジン エンジン 製品A 製品B データレイク データベース ユーザーとツール ユーザーとツール ユーザーとツール エンジンを通さずに アクセス不可

Slide 7

Slide 7 text

OneLake 特徴② -オープンアクセス  ツールを問わずデータの利用が可能にするデータレイク互換 API  課題)ストレージにアクセスするためにはベンダーロックインなツールが必要 →あらゆるツールでサポートされる Azure Data Lake 用 API を通してファイルにアクセス Azure Databricks Azure AI Studio ADLS Gen2 対応サービスの例 Snowflake Azure Data Factory DFS API DFS API クライアントツール Azure Storage Explorer PowerShell SDK OneLake File Explorer

Slide 8

Slide 8 text

OneLake 特徴③ -オープンフォーマット  オープンフォーマット Delta Lake の採用  課題)データフォーマットがバラバラでは新しいサイロが発生する → OSS を採用し、データのフォーマットを標準化 ファイナンス 非構造化データ 構造化データ (Delta Parquet) Home | Delta Lake OneLake は単なるストレージであり、 データは2種のフォルダで管理されている - Tables : Delta Lake 形式専用のフォルダ - Files:あらゆるデータのためのフォルダ Fabric では独自のエンコーディング技術(V-Order) を使用してクエ リ性能が最適化されており、 Delta Parquet と呼称される

Slide 9

Slide 9 text

補足)Apache X Table 変換による相互運用性の向上 SnowflakeとMicrosoft:Apache Icebergによる相互運用性の向上  OneLake 上で異なる ストレージ OSS を翻訳するための技術が統合予定  データ分析基盤の二大巨頭とのデータのやりとりがよりスムーズに

Slide 10

Slide 10 text

Fabric の機能との関係性について  OneLake は 組織に 1 つのデータレイクであり、 ワークスペースや、その中のアイテムはフォルダ構造で表現されている OneLake のセキュリティの概要 - Microsoft Fabric | Microsoft Learn Eventhouse Warehouse Warehouse Lakehouse

Slide 11

Slide 11 text

3つの ”ハウス” のデータ構造 レイクハウス イベントハウスでのデータ管理単位: コンピューティングを共有したデータベース群 および配下のテーブルなどのオブジェクト ・・・ KQL データベース イベントハウス テーブルなどのオブジェクト ・・・ テーブル フォルダ スキーマ(プレビュー) ・・・ ・・・ ・・・ レイクハウスでのデータ管理単位: 構造化領域としてのスキーマとテーブル、 非構造化領域内のフォルダ、ファイル ウェアハウス スキーマ ・・・ ・・・ ウェアハウスのデータ管理単位: スキーマ群および配下のテーブルなどのオブジェクト テーブルなどのオブジェクト

Slide 12

Slide 12 text

OneLake File Explorer を使ってのぞいてみる  OneLake をOneDrive のようにのぞいてみると、 ワークスペースはたしかにファイルフォルダであることがわかる  OneLake ファイル エクスプローラーを使用して Fabric データにローカルでアクセスする - Microsoft Fabric | Microsoft Learn

Slide 13

Slide 13 text

レイクハウス  Tables が Delta Lake 形式のフォルダとなっており、Filesはそのまま Fabric UI OneLake file Explorer DeltaLake は一連のファイルのセットで形成される

Slide 14

Slide 14 text

補足)DeltaLake の基本構造  Delta Lake は2種類のデータで形成される  _delta_log ・・・トランザクションログファイルが格納され、トランザクションログは操作内容と、 操作で生まれたテーブルのバージョンごとのParquet ファイルを指示している  Parquet・・・データの実体ファイル

Slide 15

Slide 15 text

補足)レイクハウスのファイルビュー  なお、ファイルの表示から Fabric UI 上で Tables フォルダの内容を表示可能

Slide 16

Slide 16 text

ウェアハウス Fabric UI OneLake file Explorer  Tables が Delta Lake 形式のフォルダとなっている 実態のparquetファイル

Slide 17

Slide 17 text

イベントハウス Fabric UI OneLake file Explorer  Tables が Delta Lake 形式のフォルダとなっている

Slide 18

Slide 18 text

 イベントハウスはストリーム書き込み(小さいデータ断片が細かいタイミングで書き込まれる特性がある)に最適化するため 特殊な構成となっている イベントハウスの OneLake への反映について Delta Lake フォルダへの反映 - プロパティをオンにすると、書き込みで発生した小さくて多数のファイルを 最適なファイルサイズにまとめてDelta Lake 形式出力する - イベントハウス OneLake の可用性 - Microsoft Fabric | Microsoft Learn OneLake Cache Storage (Premium ADLS) OneLake Standard Storage (Standard ADLS) イベントハウス専用ストレージ領域 OneLake データ保持ポリシー - 最速クエリのための”キャッシュ層”と、 標準速度でのクエリ可能な ”保持層” の二つにより、 リアルタイムデータの保持コスト最適化をはかっている - イベントハウスと KQL データベース使用量 - Microsoft Fabric | Microsoft Learn Delta Parquet

Slide 19

Slide 19 text

それぞれのデータのURL から ADLSとの互換性を確認 ADLS:https://アカウント名.dfs.core.windows.net/コンテナ名/・・・ OneLake : https://onelake.dfs.fabric.microsoft.com/ワークスペースコンテナ名(GUID)/・・・ dfsエンドポイントが使用されている ※ツールによってはdfs.core.windows.netとなっていないこ とで、ブロックされる場合があることに注意

Slide 20

Slide 20 text

Power BI エンジンと OneLake の関係  従来から Power BI は SaaS で提供される BI サービスだったが、 Fabric のファ ミリーとなってからはどのような関係となったのか OneLake Power BI ?

Slide 21

Slide 21 text

Power BI のモードから見たエンジン、データの関係性  従来の「Direct Query」、「Import」からデータベースに接続する際には常にデータベースエンジンを介していたが、 Fabric の「Direct Lake 」モードは直接Delta Parquetファイルにアクセスしている  ※ ウェアハウス上の Viewを介すると DirectLake でなくなるのは、ウェアハウスのエンジンを介してしまうため。 データベースエンジン データベースエンジン専用の データフォーマット OneLake Delta Parquet Power BI エンジン Power BI エンジン データベース セマンティックモデル Vertipaq (Power BI専用のデータフォーマット) Import セマンティックモデル クエリのための論理定義のみ Direct Lake Power BI エンジン データベースエンジン データベースエンジン専用の データフォーマット Power BI エンジン データベース セマンティックモデル クエリのための論理定義のみ Direct Query Vertipaq生成のぶん 時間がかかる データベースエンジンの処理のぶんだけ 時間がかる 直接 Delta Parquet にクエリ (v-order により Vertipaqにクエリしているのと似た状態に) 高速 高速 Direct Lake の概要 - Microsoft Fabric | Microsoft Learn 低速

Slide 22

Slide 22 text

Delta Parquet OneLake Delta Parquet Power BI と OneLake  エンジンとデータの関係がわかっていると、 各モードは Fabric でどのように動作するのかがわかる! OneLake Delta Parquet Power BI エンジン Power BI エンジン セマンティックモデル Vertipaq (Power BI専用のデータフォーマット) Import セマンティックモデル クエリのための論理定義のみ Direct Lake Power BI エンジン Power BI エンジン セマンティックモデル クエリのための論理定義のみ Direct Query Vertipaq生成のぶん 時間がかかる データベースエンジンの処理のぶんだけ 時間がかる 直接 Delta Parquet にクエリ (v-order により Vertipaqにクエリしているのと似た状態に) 高速 高速 OneLake ウェアハウスエンジン(T-SQL) ウェアハウスエンジン(T-SQL) 低速

Slide 23

Slide 23 text

Thank you !