Slide 1

Slide 1 text

©2024 Databricks Inc. — All rights reserved レイクハウス とはなんだったの か? クラウドストレージとデータ分析基盤 の良い関係 Akihiro Kuwano

Slide 2

Slide 2 text

©2024 Databricks Inc. — All rights reserved 今日のアジェンダ ▪ 結局レイクハウスってなんなの? ▪ なぜ ”みんなが” レイクハウスっていい出したんだろう? ▪ レイクハウスって全部同じ? ▪ そしてOTF 〜クラウドストレージとデータ基盤の良い関係〜 ▪ レイクハウスの実現すること ▪ まとめ

Slide 3

Slide 3 text

©2024 Databricks Inc. — All rights reserved 結局レイクハウスってなん なの?

Slide 4

Slide 4 text

©2024 Databricks Inc. — All rights reserved 結局レイクハウスってなんなの? レイクハウス最 近聞くけどよく わからん Delta Lake? Iceberg?Hudi? 何が違うの? どれがいいの? 各社レイクハウ スっていってるけ ど違いはあるの? 真のレイクハウ スってなにw レイクハウスは 何がいいの?

Slide 5

Slide 5 text

©2024 Databricks Inc. — All rights reserved 結局レイクハウスってなんなの? レイクハウス最 近聞くけどよく わからん Delta Lake? Iceberg?Hudi? 何が違うの? どれがいいの? 各社レイクハウ スっていってるけ ど違いはあるの? 真のレイクハウ スってなにw レイクハウスは 何がいいの? 今日はこれらに (ゆるく) お答えしていきましょう

Slide 6

Slide 6 text

©2024 Databricks Inc. — All rights reserved レイクハウスの基本概念 レイクハウスには論文もあり、基本的な概念につ いてはここに詳しくある なのでここから抜粋しまずはレイクハウスとはな んなのかを紐解く

Slide 7

Slide 7 text

©2024 Databricks Inc. — All rights reserved レイクハウスの基本概念 レイクハウスとは端的に言うと以下の様なものであると言える ▪ データウェアハウスとデータレイクの利点を組み合わせたデータ管理アーキ テクチャ ▪ Apache Parquetなどのオープンなファイル形式を基盤とし、ACIDトランザク ション、バージョニング、インデックスなどを提供 ▪ BI分析からAI/MLまで、複数ワークロードを単一のプラットフォームで効率的 に処理可能 ▪ 複雑なETLは不要、データの鮮度を保ちコストを削減可能 ▪ 直接アクセス可能、オープンな形式を採用し、ベンダーロックインを極小化、 柔軟なデータ活用を実現

Slide 8

Slide 8 text

©2024 Databricks Inc. — All rights reserved レイクハウスの基本概念 レイクハウスとは端的に言うと以下の様なものであると言える ▪ データウェアハウスとデータレイクの利点を組み合わせたデータ管理アーキ テクチャ ▪ Apache Parquetなどのオープンなファイル形式を基盤とし、ACIDトランザク ション、バージョニング、インデックスなどを提供 ▪ BI分析からAI/MLまで、複数ワークロードを単一のプラットフォームで効率的 に処理可能 ▪ 複雑なETLは不要、データの鮮度を保ちコストを削減可能 ▪ 直接アクセス可能、オープンな形式を採用し、ベンダーロックインを極小化、 柔軟なデータ活用を実現 なるほどわからん?

Slide 9

Slide 9 text

©2024 Databricks Inc. — All rights reserved レイクハウスの基本概念 レイクハウスとは端的に言うと以下の様なものであると言える ▪ データウェアハウスとデータレイクの利点を組み合わせたデータ管理アーキ テクチャ ▪ Apache Parquetなどのオープンなファイル形式を基盤とし、ACIDトランザク ション、バージョニング、インデックスなどを提供 ▪ BI分析からAI/MLまで、複数ワークロードを単一のプラットフォームで効率的 に処理可能 ▪ 複雑なETLは不要、データの鮮度を保ちコストを削減可能 ▪ 直接アクセス可能、オープンな形式を採用し、ベンダーロックインを極小化、 柔軟なデータ活用を実現 じゃあ詳しく 説明していきます

Slide 10

Slide 10 text

©2024 Databricks Inc. — All rights reserved データ基盤アーキテクチャの変遷 データ基盤のアーキテクチャは以下のような流れで今に至っています: ▪ データウェアハウス ▪ データウェアハウス+データレイク ▪ レイクハウス 何故この様な流れを組むことになったのでしょうか?

Slide 11

Slide 11 text

©2024 Databricks Inc. — All rights reserved データウェアハウス 大量の分析データを扱うために生まれたのがデータ ウェアハウス ▪ データウェアハウスはデータベース等の構造化 データを取得してそこから分析を行うために生まれ た ▪ 通常のデータベースでは返せない量のデータを扱 えるような特別な構成のデータベースをデータウェ アハウスとして定義 ▪ 書き込み時にスキーマを決定するスキーマ・オン・ ライトが基本 ETL 構造化 データ データウェア ハウス BI/User

Slide 12

Slide 12 text

©2024 Databricks Inc. — All rights reserved データウェアハウスの利点 ▪ 大量データを扱うデータウェアハウスでは一例だが MPP (Massive Parallel Processing)や、列指向スト レージ等を採用 ▪ MPP ▪ 複数のノードで分散処理を行い、複数ノードで分散処理した 結果をPrimaryノードで集計することで大量のデータの処理 を実現 ▪ 列指向ストレージ ▪ ストレージを行ではなく、列で持つことで特定列に対して大 量のアクセスを行うDWHワークロードに最適化 ▪ オンプレミス、クラウドの各ストレージに連携 ▪ これらにより大量データのアクセスを高速に返すこ とが可能 ▪ BIなどからクエリを集計分析することができる Worker Worker Worker MPP Cluster Primary 行指向 列指向

Slide 13

Slide 13 text

©2024 Databricks Inc. — All rights reserved データウェアハウスの課題 ▪ コンピュートとストレージの非分離 ▪ コンピュートとストレージが分離できておらず適切なス ケールがしづらい ▪ スケールがどちらかによってしまうために、不要なコスト が掛かってしまう ▪ 非構造化データの管理 ▪ 音声、画像、動画など非構造化データを扱う手段が限 られており、スキーマ定義が綺麗にできるものしか扱え なかった ▪ 機械学習などのワークロードは限定的、もしくは別シス テムとの連携 ▪ コスト ▪ 前述のコスト最適化の難しさ ▪ プロプライエタリなストレージ、コンピュートはコストが高 い、そもそもデータ量も多い用途なのでストレージ、コン ピュートのコストは高価 ETL 構造化 データ BI/User DWH ストレージ、コンピュー ト多い方でスケール する必要がある $$$ コスト 最適化の 難しさ 非構造化 データ

Slide 14

Slide 14 text

©2024 Databricks Inc. — All rights reserved データレイクの登場 これらの問題を解決するためにデータレイクが誕生: ▪ 低コストの統一されたストレージに構造化、非構造化 データ全てのデータを格納 ▪ ParquetやORCなどのオープンフォーマットでデータを保 持 ▪ 当初はHDFS等のストレージも使われていたが、以下の ようなメリットから段々とS3などのクラウドストレージへ ▪ 優れた耐久性(イレブン9) ▪ 低いコスト ▪ 各システムとの連携のしやすさ ▪ 様々な機能(リージョナルレプリケーション、様々なストレージティ アなどなど) Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ ETL DWH BI/User Data Science

Slide 15

Slide 15 text

©2024 Databricks Inc. — All rights reserved データレイクの利点 ▪ ストレージとコンピュートの分離 ▪ 構造化、非構造化データどちらも扱う事が可能 ▪ 大量のデータでも問題なくスケーラブル ▪ クラウドサービスではサービス間連携が可能でDWHと もデータコピーし連携できる ▪ コストも従量課金で最適化可能 Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ ETL DWH BI/User Data Science ストレージと、コン ピュートが独自にス ケール可能 データをコピーして 必要なサービスを活 用 $

Slide 16

Slide 16 text

©2024 Databricks Inc. — All rights reserved データレイクの課題 ▪ データスワンプ問題 ▪ ファイル管理が煩雑、ACIDトランザクションがなくデータ品質を正 しく保つのが難しい、データに重複や矛盾が発生しやすい ▪ パフォーマンスの問題 ▪ ブロックデバイスと比べるとオブジェクトストレージは APIアクセス であり、インデックス、キャッシュの不足などから大規模になるほ どオーバーヘッドがあった ▪ ガバナンスの課題 ▪ メタデータ管理や、バージョン管理を行う事ができず適切なデー タ管理ができない ▪ アクセス制御の粒度が粗い Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ ETL DWH BI/User Data Science データの管理に 課題 メタデータ管理やバージョ ン管理は限定的 速度面の課題

Slide 17

Slide 17 text

©2024 Databricks Inc. — All rights reserved データウェアハウス+データレイクの課題 DLとDWHを連携させた場合の問題点: ▪ データの信頼性 ▪ データレイクとウェアハウスの一貫性 ▪ データの鮮度 ▪ データウェアハウスのデータはデータレイクから生成する必要が あり古くなりがち ▪ ワークロードの分離 ▪ MLやDSのワークロードはDWHでは限定的、つまりDLとDWHで データがサイロ化 ▪ ETL処理の複雑化(ソース>DL>DWH>DL>ML>...) ▪ コスト最適化 ▪ ETL時、そしてウェアハウスへコピーされた二重、三重のストレー ジコスト Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ ETL DWH BI/User Data Science DWHとDL 間のデータ 一貫性 DWHとDL間の データ一貫性 & データの鮮度 & データのサイロ化 DWHとDL間の データ一貫性 & データの鮮度 & データのサイロ化 DWHとDL間の データ一貫性 & データの鮮度 & データのサイロ化 DWHとDL間の データ一貫性 & データの鮮度 & データのサイロ化

Slide 18

Slide 18 text

©2024 Databricks Inc. — All rights reserved ブレイクスルーとしてのレイクハウス ▪ Databricksはこれらデータウェアハウスとデータ レイクについてこれまで出てきた課題を解決する ためにレイクハウスアーキテクチャというものを 定義した ▪ そしてDatabricksというプラットフォームはレイク ハウスアーキテクチャを実装したデータ分析基盤 として進化してきた

Slide 19

Slide 19 text

©2024 Databricks Inc. — All rights reserved そしてレイクハウスへ Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ ETL DWH BI/User Data Science Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ BI/User Data Science メタデータ & ガバナンスレイヤ コンピュートレイヤ ETL

Slide 20

Slide 20 text

©2024 Databricks Inc. — All rights reserved レイクハウスの利点 レイクハウスはデータレイクとデータウェアハウスの利点の組み合わせ: ▪ DL上で従来の分析DBMSの管理機能、パフォーマンスを提供 ▪ ACIDトランザクション ▪ データのバージョニング ▪ 監査機能 ▪ インデックス作成 ▪ キャッシング ▪ クエリ最適化 ▪ 低コストで直接アクセス可能なストレージをベースにする ▪ Databricksではクラウドストレージをベースとしている

Slide 21

Slide 21 text

©2024 Databricks Inc. — All rights reserved レイクハウスの技術的要素 レイクハウスの設計についての主な3つの技術的要素: ▪ メタデータレイヤー ▪ SQLパフォーマンスの最適化 ▪ 高度な分析のためのアクセス方法の提供

Slide 22

Slide 22 text

©2024 Databricks Inc. — All rights reserved メタデータレイヤー ▪ 低コストのオブジェクトストアに Parquetなどの標準フォーマットで データを保存 ▪ オブジェクトストア上にトランザクショ ナルなメタデータレイヤーを実装 ▪ Delta Lake、Apache Icebergなどのア プリケーション(Open Table Format)が そのために実装される Machine Learning データレイク  (S3、ADLS、GCS) BI/User Data Science メタデータ & ガバナンスレイヤ データレイク上の Parquetファイルに対 してトランザクションを 行うためのメタデータを 付与する コンピュートレイヤ ETL

Slide 23

Slide 23 text

©2024 Databricks Inc. — All rights reserved          コンピュートレイヤ SQLパフォーマンスの最適化 レイクハウスでは、SQLクエリのパフォーマンスの最適 化が必要、データセットに対して高速なクエリ処理を行 う機構を持つ ▪ インデックス作成 ▪ データの検索速度を向上のため適切なインデックスを作 成、クエリ実行時間を短縮 ▪ パーティショニング ▪ データを論理的なパーティションに分割し、クエリの対象 範囲を限定、処理速度を向上させる ▪ 例えば、日付や地域に基づいてデータをパーティション化 など ▪ キャッシング ▪ 頻繁にアクセスされるデータをキャッシュし、 I/Oを減らす ことで、クエリの応答時間を短縮 データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ=OTF ETL キャッシュ インデックスで 必要なデータだけを 取得 パーティショニング でデータの取得量を 減らす 2023-02-05 2023-02-06 Customer A Customer B Customer C Machine Learning BI/User Data Science

Slide 24

Slide 24 text

©2024 Databricks Inc. — All rights reserved 高度な分析のためのアクセス方法の提供 レイクハウスは、高度な分析を行うためのプラット フォームとして利用を想定 ▪ 機械学習などで直接アクセスするためのインター フェースとしてのDataframeAPIの用意 ▪ MLライブラリからParquetなどの読み取りサポー ト ▪ データの一貫性、品質等の管理機能の提供 ソースデータ (Parquetファイル) DataFrame Machine Learning Data Science Dataframeで必要 な処理を行いMLや DS、ETLの実行を行 う

Slide 25

Slide 25 text

©2024 Databricks Inc. — All rights reserved 要するにレイクハウスとは ▪ クラウドストレージを活用したデータレイク層を持 つ ▪ データレイク層の上にメタデータとデータガバナ ンスを管理するアプリケーション層を持つ(これが OTF) ▪ データウェアハウスの機能、データサイエンスの 機能、機械学習の機能を同一インターフェースか ら利用可能 ▪ このストレージレイヤへアクセスするためのオー プンな方法を提供している Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ BI/User Data Science メタデータ & ガバナンスレイヤ=OTF コンピュートレイヤ ETL

Slide 26

Slide 26 text

©2024 Databricks Inc. — All rights reserved レイクハウスを シンプルに言うと

Slide 27

Slide 27 text

©2024 Databricks Inc. — All rights reserved 置くだけじゃない 管理できる データレイク

Slide 28

Slide 28 text

©2024 Databricks Inc. — All rights reserved DWH/AI/ML 幅広いワークロード をサポート

Slide 29

Slide 29 text

©2024 Databricks Inc. — All rights reserved パフォーマンスは 従来のDWHと同等以上

Slide 30

Slide 30 text

©2024 Databricks Inc. — All rights reserved な、わけです

Slide 31

Slide 31 text

©2024 Databricks Inc. — All rights reserved が、

Slide 32

Slide 32 text

©2024 Databricks Inc. — All rights reserved もう少しレイクハウスを 他の角度からも 見てみましょう!

Slide 33

Slide 33 text

©2024 Databricks Inc. — All rights reserved その前に クイズです

Slide 34

Slide 34 text

©2024 Databricks Inc. — All rights reserved レイクハウスあるあるクイズその1 レイクハウスアーキテクチャは大容量データにフィットするアーキテクチャであ る? 1. Yes 2. No 3. 場合による

Slide 35

Slide 35 text

©2024 Databricks Inc. — All rights reserved レイクハウスあるあるクイズその1 レイクハウスアーキテクチャは大容量データにフィットするアーキテクチャであ る? 1. Yes 2. No 3. 場合による レイクハウスは大容量のデータに対して正しくスケールできるアーキテクチャに なっています! ただしデータ量が少ないから使えないというわけではないですよ!

Slide 36

Slide 36 text

©2024 Databricks Inc. — All rights reserved なぜ ”みんなが” レイクハ ウスっていい出したんだろ う?

Slide 37

Slide 37 text

©2024 Databricks Inc. — All rights reserved そのDatabricksが作った レイクハウスですが

Slide 38

Slide 38 text

©2024 Databricks Inc. — All rights reserved 最近よく聞きます

Slide 39

Slide 39 text

©2024 Databricks Inc. — All rights reserved なぜ ”みんなが” レイクハウスっていい出したの?

Slide 40

Slide 40 text

©2024 Databricks Inc. — All rights reserved レイクハウスだけでレポートされる時代

Slide 41

Slide 41 text

©2024 Databricks Inc. — All rights reserved レイクハウスだけでレポートされる時代 なんで???

Slide 42

Slide 42 text

©2024 Databricks Inc. — All rights reserved レイクハウスというアーキテクチャの妥当性 前の話を踏まえてざっとまとめてみるとこんなところ? ▪ 様々なワークロードへの対応 ▪ BI、AI、MLなど様々なワークロードに対応する必要がでてきた ▪ クラウドストレージの有効活用というアプローチが認められた ▪ ストレージとコンピュートの分離(パフォーマンス、コスト) ▪ スタートアップから大企業まで使いやすい ▪ エコシステムの充実

Slide 43

Slide 43 text

©2024 Databricks Inc. — All rights reserved コンピュートレイヤ 様々なワークロードへの対応 ▪ DWHだけじゃなく、AI/機械学習ワーク ロードへの広範な対応 ▪ 扱うデータが増え、構造化データだけでな く、非構造化データや半構造化データも重 要に ▪ レイクハウスは、データレイクとデータウェ アハウスの両方の利点を活かし、多様な データを統合的に管理・分析できるため、 ニーズに適していた Machine Learning データレイク  (S3、ADLS、GCS) 構造化 データ BI/User Data Science メタデータ & ガバナンスレイヤ ETL BI/AI/ML等、 様々なユースケースを 実行可能

Slide 44

Slide 44 text

©2024 Databricks Inc. — All rights reserved コンピュートレイヤ ストレージとコンピュートの分離 ▪ ストレージとコンピュートを分離することで個 別のスケールが可能になった ▪ これによりコストの最適化、スケールの最適 化が実現された ▪ 前述したが正確に言うとこれはデータレイク の特性となるが、それを更に汎化させている データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ=OTF ETL Machine Learning BI/User Data Science コンピュートレイヤ は必要な処理の数だけ スケール ストレージレイヤ は必要な容量や、I/Oだ けスケール

Slide 45

Slide 45 text

©2024 Databricks Inc. — All rights reserved スタートアップから大企業まで使いやすい ▪ 先程のクイズでもあったが、小規模のスタートアップ から、大規模のエンタープライズまで構成を変えずに スモールスタートが可能な点 ▪ レイクハウスアーキテクチャは必ずしも大規模じゃな いと使えないとかではなく、むしろ最初に選択するこ とで長くその構成を維持できる データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ データレイク メタデータ & ガバナンスレイヤ スケール

Slide 46

Slide 46 text

©2024 Databricks Inc. — All rights reserved エコシステムの充実 ▪ Delta Lake、IcebergといったOTFの充実 ▪ 各OTFに対応したプロダクトも順調に増えて おり、各クラウドベンダもそれに協調している ▪ Delta Lakeのエコシステムだけでも右の様な 数多くのプロダクトが存在している ▪ これらのエコシステムを必要に応じて使い分 けることができるのもレイクハウスアーキテク チャの良い点 データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ

Slide 47

Slide 47 text

©2024 Databricks Inc. — All rights reserved ここでクイズ

Slide 48

Slide 48 text

©2024 Databricks Inc. — All rights reserved レイクハウスあるあるクイズその2 OTFとクラウドストレージを使っていれば全てレイクハウスアーキテクチャといえ る? 1. Yes 2. No 3. 場合による

Slide 49

Slide 49 text

©2024 Databricks Inc. — All rights reserved レイクハウスあるあるクイズその2 OTFとクラウドストレージを使っていれば全てレイクハウスアーキテクチャといえ る? 1. Yes 2. No 3. 場合による OTFを使っていれば全てレイクハウスアーキテクチャではない 実際にはSSOTが保たれている、オープンなアクセスが実現できている、などレイ クハウスであるためには色々な考え方があります

Slide 50

Slide 50 text

©2024 Databricks Inc. — All rights reserved レイクハウスって 全部同じ?

Slide 51

Slide 51 text

©2024 Databricks Inc. — All rights reserved レイクハウスって全部同じ? レイクハウスってどうなってたらレイクハウスでしょうか? 大事なポイントを列挙 ▪ オープンでロックインを避ける構成である事 ▪ 統一されたプラットフォームである事 ▪ 複数サービスの組み合わせではなく統一されたガバナンスが実現されている事 ▪ 複数プラットフォーム間でデータのコピーが発生しない事

Slide 52

Slide 52 text

©2024 Databricks Inc. — All rights reserved ロックイン? ▪ Delta LakeなどOTFへのアクセスは非常に オープンに管理されている ▪ オープンでなければそれは結局そのプロダク トにロックインされることになる ▪ 例えば、ストレージとコンピュートの分離はで きていて、SSOTも保たれているが、ストレー ジがそのプロダクト独自のプロプライエタリな ものであったりすればそこからの変更は難し くなる データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ 自社プロダクトA 他社プロダクトB これでは出ていくことが できないし、適材適所 なプロダクト選択もでき ない クローズド/プ ロプライエタリ なAPI クローズドな エンジン ガバナンス 認証機構

Slide 53

Slide 53 text

©2024 Databricks Inc. — All rights reserved ロックイン? ▪ Delta LakeなどOTFへのアクセスは非常に オープンに管理されている ▪ オープンでなければそれは結局そのプロダク トにロックインされることになる ▪ 例えば、ストレージとコンピュートの分離はで きていて、SSOTも保たれているが、ストレー ジがそのプロダクト独自のプロプライエタリな ものであったりすればそこからの変更は難し くなる データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ 自社プロダクトA 他社プロダクトB 必要なプロダクトも使 え、切り替えや併用す る事が可能 オープンなAPI オープンな エンジン オープンな 認証機構、 ガバナンス

Slide 54

Slide 54 text

©2024 Databricks Inc. — All rights reserved 統一されたプラットフォーム? ▪ 実際には複数のサービスを組み合わせて実現 されているサービスもある ▪ それは実際には少しずつ運用負荷を生んだり、 ガバナンスの問題を生む ▪ レイクハウスで統一されたプラットフォームであ ることが大事 データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ DWH IAMなどの 認証・認可 プロダクト間や、OTFの ガバナンスレイヤで個 別のガバナンスが存在 する プロダクト間や、OTFの ガバナンスレイヤで個 別のガバナンスが存在 する プロダクト間や、OTFの ガバナンスレイヤで個 別のガバナンスが存在 する

Slide 55

Slide 55 text

©2024 Databricks Inc. — All rights reserved 統一されたプラットフォーム? ▪ 実際には複数のサービスを組み合わせて実現 されているサービスもある ▪ それは実際には少しずつ運用負荷を生んだり、 ガバナンスの問題を生む ▪ レイクハウスで統一されたプラットフォームであ ることが大事 ▪ Databricksの場合はUnity Catalogがその役割 を果たしている データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ プロダクトA プロダクトB 統一された ガバナンスを提供

Slide 56

Slide 56 text

©2024 Databricks Inc. — All rights reserved サービス間のデータコピー? ▪ 先程の話にちょっと関わるが、この場合に複数 サービスのデータコピーが発生する場合がある ▪ データウェアハウスにデータが有る、BIツール側 にデータがある、ETLサービス側にデータがあ る、など ▪ 前述した通り、データのコピーが存在することは データの信頼性や鮮度に関わる ▪ データがOTFにあればいいわけではなく、クラウ ドストレージに統一してデータを持つことでSSOT を実現することが重要 BI DWH ETL データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ データ データ データ 各プロダクトに コピーが存在する 各プロダクトに コピーが存在する 各プロダクトに コピーが存在

Slide 57

Slide 57 text

©2024 Databricks Inc. — All rights reserved サービス間のデータコピー? ▪ 先程の話にちょっと関わるが、この場合に複数 サービスのデータコピーが発生する場合がある ▪ データウェアハウスにデータが有る、BIツール側 にデータがある、ETLサービス側にデータがあ る、など ▪ 前述した通り、データのコピーが存在することは データの信頼性や鮮度に関わる ▪ データがOTFにあればいいわけではなく、クラウ ドストレージに統一してデータを持つことでSSOT を実現することが重要 BI DWH ETL データレイク  (S3、ADLS、GCS) 構造化 データ メタデータ & ガバナンスレイヤ 各プロダクトに コピーは存在せず データレイク側に 統一して管理する

Slide 58

Slide 58 text

©2024 Databricks Inc. — All rights reserved レイクハウス ? にも色々あるので事前の 調査が大事!

Slide 59

Slide 59 text

©2024 Databricks Inc. — All rights reserved そしてOTF 〜クラウドストレージとデータ 基盤の良い関係〜

Slide 60

Slide 60 text

©2024 Databricks Inc. — All rights reserved OTF!OTF!OTF! OTF(Open Table Format)は、先程までのお話 でいうと、データレイク層の上にあるメタデータ やガバナンスを司るレイヤーを実現するための ソフトウェア シンプルに言うとクラウドストレージに付加価値 をつけるもので、メタデータ管理やバージョン管 理などを行う 3つのOTFで基本的に実現したい事に変わりは ありませんが、今回はDelta Lakeをベースに説 明

Slide 61

Slide 61 text

©2024 Databricks Inc. — All rights reserved OTFが実現するもの Delta Lakeで実現される機能群 ▪ メタデータ管理 ▪ パフォーマンス最適化 ▪ トランザクション管理 ▪ オープンなインターフェース データレイク  (S3、ADLS、GCS) メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science OTFはこ こ

Slide 62

Slide 62 text

©2024 Databricks Inc. — All rights reserved Delta Lakeの実体

Slide 63

Slide 63 text

©2024 Databricks Inc. — All rights reserved メタデータ管理 ▪ Delta Lakeは、Delta Logというメタデータと データファイルを一緒にデータレイク上に 格納、スケーラブルなメタデータ管理を可 能としている ▪ Delta Logとはユーザーがテーブルに加え たすべての変更を順序付きで自動で記録 したログ ▪ これにより以下の事を実現する ▪ ACIDトランザクションの担保 ▪ テーブルのバージョン管理(スナップショット、タイ ムトラベル含) ▪ 同時実行制御 トランザクショ ンログ(Delta Log) (OPTION) パーティション ディレクトリ データファイル

Slide 64

Slide 64 text

©2024 Databricks Inc. — All rights reserved パフォーマンス最適化 ▪ Delta Lakeはクラウドストレージ内の データレイアウトを最適化しクエリパ フォーマンスを向上させる ▪ データサイズの偏り、サイズが適切で はないファイルが多く存在するとパ フォーマンスが低下 ▪ 様々なパフォーマンス改善機能 ▪ パーティション ▪ Z-Order ▪ リキッドクラスタリング ▪ Delta キャッシュ ▪ この辺見ていきましょう

Slide 65

Slide 65 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F パーティショニング(Hive Style)

Slide 66

Slide 66 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F パーティショニング(Hive Style) 小規模ファイルがで きる データサイズの偏り (Skew)の発生

Slide 67

Slide 67 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F パーティショニング+Z-Order ファイルサイズは均 一となりデータサイ ズの偏りはなくなる 新規ファイルがすぐ適用 されず、新しく取り込ま れたデータはクラスタ化 されていない 動的にファイルをマージ できない

Slide 68

Slide 68 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1: date Col 2: customer_id Liquid Clustering

Slide 69

Slide 69 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Col 1: date Col 2: customer_id Liquid Clustering

Slide 70

Slide 70 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Col 1: date Col 2: customer_id Liquid Clustering

Slide 71

Slide 71 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Col 1 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Col 1 > 2023-02-05 Col 1 <= 2023-02-05 Col 1: date Col 2: customer_id Liquid Clustering

Slide 72

Slide 72 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Col 1 Col 2 Col 2 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Col 1 > 2023-02-05 Col 1 <= 2023-02-05 Col 2 > D Col 2 <= D Col 2 > C Col 2 <= C Col 1: date Col 2: customer_id Liquid Clustering

Slide 73

Slide 73 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Leaf1 Col 1 Col 2 Col 2 Leaf6 Leaf7 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Leaf2 Leaf3 Leaf4 Leaf5 Col 1 > 2023-02-05 Col 1 <= 2023-02-05 Col 2 > D Col 2 <= D Col 2 > C Col 2 <= C Col 1: date Col 2: customer_id Liquid Clustering

Slide 74

Slide 74 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Leaf1 Col 1 Col 2 Col 2 Leaf6 Leaf7 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Leaf2 Leaf3 Leaf4 Leaf5 Col 1 > 2023-02-05 Col 1 <= 2023-02-05 Col 2 > D Col 2 <= D Col 2 > C Col 2 <= C Col 1: date Col 2: customer_id Liquid Clustering

Slide 75

Slide 75 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F ターゲットファイルサイズに応 じて最適化します。 Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Leaf1 Col 1 Col 2 Col 2 Leaf6 Leaf7 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Leaf2 Leaf3 Leaf4 Leaf5 Col 1 > 2023-02-05 Col 1 <= 2023-02-05 Col 2 > D Col 2 <= D Col 2 > C Col 2 <= C Col 1: date Col 2: customer_id Liquid Clustering

Slide 76

Slide 76 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Leaf1 Col 1 Col 2 Col 2 Leaf6 Leaf7 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Leaf2 Leaf3 Leaf4 Leaf5 Col 1 > 2023-02-05 Col 1 <= 2023-02-05 Col 2 > D Col 2 <= D Col 2 > C Col 2 <= C ターゲットファイルサイズ Col 1: date Col 2: customer_id Liquid Clustering

Slide 77

Slide 77 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Leaf1 Col 1 Col 2 Col 2 Leaf6 Leaf7 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Leaf2 Leaf3 Leaf4 Leaf5 Col 1 > 2023-02-05 Col 1 <= 2023-02-05 Col 2 > D Col 2 <= D Col 2 > C Col 2 <= C Col 1: date Col 2: customer_id Liquid Clustering

Slide 78

Slide 78 text

2023-02-05 2023-02-06 2023-02-07 Customer A Customer B Customer C Customer D Customer E Customer F Col 1 Col 1 > 2023-02-06 Col 1 <= 2023-02-06 Leaf1 Col 1 Col 2 Col 2 Leaf6 Leaf7 Col 2 Col 2 Col 2 > C Col 2 <= C Col 2 > B Col 2 <= B Leaf2 Leaf3 Leaf4 Leaf5 Col 1 > 2023-02-05 Col 1 <= 2023-02-05 Col 2 > D Col 2 <= D Col 2 > C Col 2 <= C Col 1: date Col 2: customer_id Liquid Clustering ファイルサイズは均 一となりデータサイ ズの偏りはなくなる データファイルも木構 造により動的に分散さ れる(=運用負荷の軽 減)

Slide 79

Slide 79 text

©2024 Databricks Inc. — All rights reserved オープンなインターフェース ▪ 様々なユースケースに対応するためにオープ ンなインターフェースを用意する必要がある ▪ ベンダーが対応するまで使えない、ではロッ クインに ▪ 前述した通りDelta Lake等のOTFはオープン な規格になっているため各サービスの相互運 用性が高い ▪ Delta ProtocolやDelta Kernelは、各プロダク トからDelta Tableを読むためのオープンなラ イブラリセット

Slide 80

Slide 80 text

©2024 Databricks Inc. — All rights reserved OTFの意義をまとめていくと ▪ オープンなデータエコシステムの促進 ▪ データレイクとデータウェアハウスの統合 ▪ ACIDトランザクションのサポート ▪ スキーマ管理と進化 ▪ データのバージョン管理とタイムトラベル ▪ パフォーマンス最適化 ▪ コスト効率の向上 ▪ コミュニティとイノベーションの推進

Slide 81

Slide 81 text

©2024 Databricks Inc. — All rights reserved OTFの意義をまとめていくと ▪ オープンなデータエコシステムの促進 ▪ データレイクとデータウェアハウスの統合 ▪ ACIDトランザクションのサポート ▪ スキーマ管理と進化 ▪ データのバージョン管理とタイムトラベル ▪ パフォーマンス最適化 ▪ コスト効率の向上 ▪ コミュニティとイノベーションの推進 まさに、いい関係!

Slide 82

Slide 82 text

©2024 Databricks Inc. — All rights reserved そして、、、クイズです

Slide 83

Slide 83 text

©2024 Databricks Inc. — All rights reserved レイクハウスあるあるクイズその2 このグラフ、Delta LakeとIcebergどっち? from https://dataengineeringcentral.substack.com/p/delta-lake-vs-apache-iceberg-the

Slide 84

Slide 84 text

©2024 Databricks Inc. — All rights reserved レイクハウスあるあるクイズその2 このグラフ、Delta LakeとIcebergどっち? from https://dataengineeringcentral.substack.com/p/delta-lake-vs-apache-iceberg-the

Slide 85

Slide 85 text

©2024 Databricks Inc. — All rights reserved レイクハウスが実現 すること(あるいはここま でのまとめ)

Slide 86

Slide 86 text

©2024 Databricks Inc. — All rights reserved (再掲)レイクハウスの基本概念 レイクハウスとは端的に言うと以下の様なものであると言える ▪ データウェアハウスとデータレイクの利点を組み合わせたデータ管理アーキ テクチャ ▪ Apache Parquetなどのオープンなファイル形式を基盤とし、ACIDトランザク ション、バージョニング、インデックスなどを提供 ▪ BI分析からAI/MLまで、複数ワークロードを単一のプラットフォームで効率的 に処理可能 ▪ 複雑なETLは不要、データの鮮度を保ちコストを削減可能 ▪ 直接アクセス可能、オープンな形式を採用し、ベンダーロックインを極小化、 柔軟なデータ活用を実現

Slide 87

Slide 87 text

©2024 Databricks Inc. — All rights reserved (再掲)レイクハウスの基本概念 レイクハウスとは端的に言うと以下の様なものであると言える ▪ データウェアハウスとデータレイクの利点を組み合わせたデータ管理アーキ テクチャ ▪ Apache Parquetなどのオープンなファイル形式を基盤とし、ACIDトランザク ション、バージョニング、インデックスなどを提供 ▪ BI分析からAI/MLまで、複数ワークロードを単一のプラットフォームで効率的 に処理可能 ▪ 複雑なETLは不要、データの鮮度を保ちコストを削減可能 ▪ 直接アクセス可能、オープンな形式を採用し、ベンダーロックインを極小化、 柔軟なデータ活用を実現 わかってきましたよね?

Slide 88

Slide 88 text

©2024 Databricks Inc. — All rights reserved レイクハウスが実現すること ここまでレイクハウスについてまとめたので、最後は ここまで説明してきたレイクハウスが何を実現したの かを簡単にまとめる

Slide 89

Slide 89 text

©2024 Databricks Inc. — All rights reserved コンピュートレイヤ データの一元管理 データレイク  (S3、ADLS、GCS) メタデータ & ガバナンスレイヤ ETL Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用

Slide 90

Slide 90 text

©2024 Databricks Inc. — All rights reserved コストパフォーマンス最適化 データレイク  (S3、ADLS、GCS) メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 ETL

Slide 91

Slide 91 text

©2024 Databricks Inc. — All rights reserved BI〜AIまで、高度な分析/機械学習のサポート データレイク  (S3、ADLS、GCS) メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 BI〜AIまで 必要な処理を 実行可能 ETL

Slide 92

Slide 92 text

©2024 Databricks Inc. — All rights reserved データガバナンスの強化 データレイク  (S3、ADLS、GCS) メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 BI〜AIまで 必要な処理を 実行可能 統一された データ ガバナンス ETL

Slide 93

Slide 93 text

©2024 Databricks Inc. — All rights reserved スケーラビリティ データレイク  (S3、ADLS、GCS) メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 BI〜AIまで 必要な処理を 実行可能 統一された データ ガバナンス 必要な処理分 スケール可能 必要な処理分 スケール可能 パフォーマン スの最適化 ETL

Slide 94

Slide 94 text

©2024 Databricks Inc. — All rights reserved 柔軟性 データレイク  (S3、ADLS、GCS) メタデータ & ガバナンスレイヤ コンピュートレイヤ Machine Learning BI/User Data Science すべてのデータ をデータレイクへ と保存 サイロの排 除 構造化、非構造 化ファイルの同 一I/Fでの扱い クラウドスト レージの有 効活用 コンピュートとスト レージの 分離 安価なクラウドス トレージの 活用 BI〜AIまで 必要な処理を 実行可能 統一された データ ガバナンス 必要な処理分 スケール可能 必要な処理分 スケール可能 パフォーマン スの最適化 ETL

Slide 95

Slide 95 text

©2024 Databricks Inc. — All rights reserved まとめ

Slide 96

Slide 96 text

©2024 Databricks Inc. — All rights reserved まとめ ▪ レイクハウスは、データウェアハウスとデータレイクが実現できなかった事を 実現するためDatabricksが考案 ▪ レイクハウスを構成する要素はいくつかあるが、柔軟なスケール、コストパ フォーマンス、オープンなアクセスが実現される ▪ OTFはクラウドストレージ上でメタデータ管理や、パフォーマンス管理、オー プンアクセスレイヤなどの重要な役割を果たしている ▪ レイクハウスを選定する場合、実際にそのプロダクトがレイクハウスで実現 したいことができているかを確認して選定するのが大事 ▪ うまくレイクハウスと付き合うことでデータ基盤を上手く、そして長く使えるも のにできる

Slide 97

Slide 97 text

©2024 Databricks Inc. — All rights reserved まとめ ▪ 言いたいことがありすぎてまとめが長くなりましたw ▪ ご清聴ありがとうございました!!!

Slide 98

Slide 98 text

©2024 Databricks Inc. — All rights reserved