Databricks Auto Loader & Delta Live TablesによるETL

©2024 Databricks Inc. — All rights reserved Databricks Auto Loader
& Delta Live Tables によるETL Databricks Japan

クラウドストレージのランディングゾーンシルバー (クレンジング拡張) ゴールド (ビジネスレディ) Databricks
SQL, BIツールブロンズ (生データバージョン管理) ノートブック, IDE, (Auto)ML Databricksランタイム Databricks SQLウェアハウスエンドユーザー Azure Data Lake Storage Gen2やAmazon S3 外部システム (ERP, オペレーショナルDB, メッセージブローカーなど) 例 Kafka Connect, Event Hubs Capture, CDC, CSVダンプ Deltaフォーマットで整理され信頼できるテーブル典型的なデータレイク連携

クラウドストレージのランディングゾーンシルバー (クレンジング拡張) ゴールド (ビジネスレディ) Databricks
SQL, BIツールブロンズ (生データバージョン管理) ノートブック, IDE, (Auto)ML Databricksランタイム Databricks SQLウェアハウスエンドユーザー Azure Data Lake Storage Gen2やAmazon S3 外部システム (ERP, オペレーショナルDB, メッセージブローカーなど) 例 Kafka Connect, Event Hubs Capture, CDC, CSVダンプ Deltaフォーマットで整理され信頼できるテーブル典型的なデータレイク連携このステップで何が問題に？

クラウドストレージのランディングゾーンブロンズ (生データバージョン管理) このステップで何が問題に？外部システム (ERP,
オペレーショナルDB, メッセージブローカーなど) 例 Kafka Connect, Event Hubs Capture, CDC, CSVダンプ詳しく見てみましょう • 間違っていくつかのファイルをスキップ → データの欠損 • 間違って以前のファイルを取り込み → 重複し、エラーを含むBIやレポート • DIYのファイル追跡 / 一覧はスケールせず、コスト効率が悪い • スキーマの変更 / 問題 → ジョブの失敗 • スキーマの変更 / 問題 → ファイルの損失、破損 (有害!) Azure Data Lake Storage Gen2やAmazon S3

Auto Loaderによるスケーラブルなexactly-onceのデータ取り込み JSON CSV ✅ ✅ AVRO PARQUET スキーマ進化
• 新規データファイルがクラウドストレージに到着するとインクリメンタルかつ効率的に処理 ◦ ファイル通知モードによってイベント駆動の取り込みを実現(あなたの代わりに自動でEvent Grid / Amazon SNS + Azure Queue Storage / Amazon SQSをセットアップ) • 到着ファイルのスキーマを自動で推定、あるいはスキーマヒントで既知の情報を提示 • 自動のスキーマ進化 • レスキューデータ列 - 決してデータを失いません ✅ ✅

Auto Loaderによるスケーラブルなexactly-onceのデータ取り込み • 新規データファイルがクラウドストレージに到着するとインクリメンタルかつ効率的に処理 ◦ ファイル通知モードによってイベント駆動の取り込みを実現(あなたの代わりに自動でEvent Grid /
Amazon SNS + Azure Queue Storage / Amazon SQSをセットアップ) • 到着ファイルのスキーマを自動で推定、あるいはスキーマヒントで既知の情報を提示 • 自動のスキーマ進化 • レスキューデータ列 - 決してデータを失いません JSON CSV ✅ ✅ AVRO PARQUET スキーマ進化 df = spark .readStream .format("cloudFiles") .option("cloudFiles.format", "json") .load("abfss://…" or "s3://") .<apply your transformations> .writeStream .option("checkpointLocation","/chk/path") .start("/out/path") ✅ ✅

データソース / トピックバケット、コンテナ、ディレクトリで分離ブロンズテーブル Group 1 外部システム (ERP,
オペレーショナルDB, メッセージブローカーなど) 例 Kafka Connect, Event Hubs Capture, CDC, CSVダンプ (スキーマの異なる)数百のデータソース / トピックがある場合には？ブロンズテーブル Group 2 ブロンズテーブル Group 3 … Databricks ジョブ 1 k 個のAuto Loader ストリーム Databricks ジョブ 2 m 個のAuto Loader ストリーム Databricks ジョブ 3 n 個のAuto Loader ストリームストリームはブロックしないので、いくつかのストリーム(最大 ~20)をジョブにグルーピングすることができます (これはいくつかのアプローチのうちの一つに過ぎません) …

©2024 Databricks Inc. — All rights reserved 次のステップデータエンジニアリングとオーケストレーションの
民主化

Databricksによる生産性の最大化とリスクの最小化 Auto Loader, Delta Live Tablesなど連続あるいはスケジュールによるデータ取り込み
宣言型ETL パイプラインデータ品質検証およびモニタリングデータパイプラインの観測可能性オートスケーリングおよび耐障害性自動デプロイオペレーションパイプライン& ワークフローのオーケストレーションチェンジデータキャプチャー

• 「どのように」を抽象化し「何を」解くのかを定義する、意図に基づく宣言型開発を使用 • 高品質なリネージを自動で作成し、データパイプラインのテーブルの依存関係を管理 • エラー、依存関係の欠如、文法エラーを自動でチェックし、パイプラインのリカバリーを管理 •
(Python UDFを含む)PythonとSQLをサポート ◦ カスタムライブラリやモデルと連携 /* アカウントテーブルの一時ビューを作成 */ CREATE INCREMENTAL LIVE VIEW account_raw AS SELECT * FROM cloud_files(“/data”, “csv”); /* ステージ 1: ブロンズテーブルで不適切な行を削除 */ CREATE INCREMENTAL LIVE TABLE account_bronze AS COMMENT "Bronze table with valid account ids" SELECT * FROM account_raw ... /* ステージ 2:シルバーに行を送信し、妥当性チェックを適用 */ CREATE INCREMENTAL LIVE TABLE account_silver AS COMMENT "Silver Accounts table with validation checks" SELECT * FROM account_bronze ... ブロンズシルバーゴールドソースセルフサービス: Delta Live Tablesによる宣言型ETLパイプライン

ブロンズシルバー CDC経由 UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミングソース
クラウドオブジェクトストレージ構造化データ非構造化データ準構造化データデータ移行サービスデータソース • DBR、クラウドストレージ、DBFSでサポートされている任意のデータの行レベルの変更をキャプチャー • よりシンプルなアーキテクチャ: シンプルかつインクリメンタルなパイプラインの構築 • 順序が守られていないイベントのハンドリング • スキーマ進化 • シンプルかつ宣言型の「APPLY CHANGES INTO」APIを用いた変更レコード(insert、 update、delete)のインクリメンタルな処理 Delta Live Tablesによるチェンジデータキャプチャー(CDC)

Delta Live Tablesによるデータ品質検証およびモニタリング ▪ データエクスペクテーションでパイプラインにおけるデータ品質、完全性を定義 ▪ 柔軟なポリシーによるデータ品質エラーへの対応 (失敗、削除、警告、検疫) ▪
全てのデータパイプライン実行と品質メトリクスを記録、追跡、レポート /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウント IDを含むブロンズテーブル " SELECT * FROM fire_account_raw ...

Delta Live Tablesによるデータ品質検証およびモニタリング • データエクスペクテーションでパイプラインにおけるデータ品質、完全性を定義 • 柔軟なポリシーによるデータ品質エラーへの対応(失敗、削除、警告、検疫) •
行レベルのオペレーション、ガバナンス、品質、ステータスのきめ細かいロギング /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウント IDを含むブロンズテーブル " SELECT * FROM fire_account_raw ...

• バックログ認知のスケーリング意思決定によるストリーミングSLOの達成 - スケールアップ、スケールダウンするために、バックログメトリクスとクラスター利用率の両方をモニタリング • 自動エラーハンドリングと容易な際実行によるダウンタイムの削減
• すべてのDelta Liveテーブルの自動最適化によるメンテナンスの排除 • ジョブを並列化しデータ移動を最小化する弾力性のある Apache Spark™ベースの計算クラスターを自動で配備し、データパイプラインワークロードを処理 Streaming source Spark executors No/Small backlog & low utilization Backlog monitoring Utilization monitoring Scale down Delta Live Tablesによるオートスケーリング、耐障害性

まとめ • Auto Loaderによってデータ取り込みを堅牢かつスケーラブルに • Delta Live Tables はエンドツー
エンドでデータパイプラインを管理し、可視性を提供 • 基盤としてのDelta Lakeが、データのバージョン管理、信頼性、パフォーマンスを充当

Additional Resources • Auto Loader • Getting Started with Delta
Live Tables • 5 Steps to Implementing Intelligent Data Pipelines With Delta Live Tables • Product Page • Documentation

Databricks Auto Loader & Delta Live TablesによるETL

Databricks Auto Loader & Delta Live TablesによるETL

Databricks Japan

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript

©2024 Databricks Inc. — All rights reserved Databricks Auto Loader

クラウドストレージのランディングゾーンシルバー (クレンジング拡張) ゴールド (ビジネスレディ) Databricks

クラウドストレージのランディングゾーンシルバー (クレンジング拡張) ゴールド (ビジネスレディ) Databricks

クラウドストレージのランディングゾーンブロンズ (生データバージョン管理) このステップで何が問題に？外部システム (ERP,

©2024 Databricks Inc. — All rights reserved Auto Loaderで取り込みを解決

Auto Loaderによるスケーラブルなexactly-onceのデータ取り込み JSON CSV ✅ ✅ AVRO PARQUET スキーマ進化

データソース / トピックバケット、コンテナ、ディレクトリで分離ブロンズテーブル Group 1 外部システム (ERP,

©2024 Databricks Inc. — All rights reserved 次のステップデータエンジニアリングとオーケストレーションの

Databricksによる生産性の最大化とリスクの最小化 Auto Loader, Delta Live Tablesなど連続あるいはスケジュールによるデータ取り込み

ブロンズシルバー CDC経由 UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミングソース

Delta Live Tablesによるデータ品質検証およびモニタリング ▪ データエクスペクテーションでパイプラインにおけるデータ品質、完全性を定義 ▪ 柔軟なポリシーによるデータ品質エラーへの対応 (失敗、削除、警告、検疫) ▪

Delta Live Tablesによるデータ品質検証およびモニタリング • データエクスペクテーションでパイプラインにおけるデータ品質、完全性を定義 • 柔軟なポリシーによるデータ品質エラーへの対応(失敗、削除、警告、検疫) •

まとめ • Auto Loaderによってデータ取り込みを堅牢かつスケーラブルに • Delta Live Tables はエンドツー

Additional Resources • Auto Loader • Getting Started with Delta