Databricks Auto Loader & Delta Live TablesによるETL

Slide 1

Slide 1 text

Slide 2

Slide 2 text

クラウドストレージのランディングゾーンシルバー (クレンジング拡張) ゴールド (ビジネスレディ) Databricks SQL, BIツールブロンズ (生データバージョン管理) ノートブック, IDE, (Auto)ML Databricksランタイム Databricks SQLウェアハウスエンドユーザー Azure Data Lake Storage Gen2やAmazon S3 外部システム (ERP, オペレーショナルDB, メッセージブローカーなど) 例 Kafka Connect, Event Hubs Capture, CDC, CSVダンプ Deltaフォーマットで整理され信頼できるテーブル典型的なデータレイク連携

Slide 3

Slide 3 text

Slide 4

Slide 4 text

クラウドストレージのランディングゾーンブロンズ (生データバージョン管理) このステップで何が問題に？外部システム (ERP, オペレーショナルDB, メッセージブローカーなど) 例 Kafka Connect, Event Hubs Capture, CDC, CSVダンプ詳しく見てみましょう ● 間違っていくつかのファイルをスキップ → データの欠損 ● 間違って以前のファイルを取り込み → 重複し、エラーを含むBIやレポート ● DIYのファイル追跡 / 一覧はスケールせず、コスト効率が悪い ● スキーマの変更 / 問題 → ジョブの失敗 ● スキーマの変更 / 問題 → ファイルの損失、破損 (有害!) Azure Data Lake Storage Gen2やAmazon S3

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Auto Loaderによるスケーラブルなexactly-onceのデータ取り込み JSON CSV ✅ ✅ AVRO PARQUET スキーマ進化 ● 新規データファイルがクラウドストレージに到着するとインクリメンタルかつ効率的に処理 ○ ファイル通知モードによってイベント駆動の取り込みを実現(あなたの代わりに自動でEvent Grid / Amazon SNS + Azure Queue Storage / Amazon SQSをセットアップ) ● 到着ファイルのスキーマを自動で推定、あるいはスキーマヒントで既知の情報を提示 ● 自動のスキーマ進化 ● レスキューデータ列 - 決してデータを失いません ✅ ✅

Slide 7

Slide 7 text

Auto Loaderによるスケーラブルなexactly-onceのデータ取り込み ● 新規データファイルがクラウドストレージに到着するとインクリメンタルかつ効率的に処理 ○ ファイル通知モードによってイベント駆動の取り込みを実現(あなたの代わりに自動でEvent Grid / Amazon SNS + Azure Queue Storage / Amazon SQSをセットアップ) ● 到着ファイルのスキーマを自動で推定、あるいはスキーマヒントで既知の情報を提示 ● 自動のスキーマ進化 ● レスキューデータ列 - 決してデータを失いません JSON CSV ✅ ✅ AVRO PARQUET スキーマ進化 df = spark .readStream .format("cloudFiles") .option("cloudFiles.format", "json") .load("abfss://…" or "s3://") . .writeStream .option("checkpointLocation","/chk/path") .start("/out/path") ✅ ✅

Slide 8

Slide 8 text

データソース / トピックバケット、コンテナ、ディレクトリで分離ブロンズテーブル Group 1 外部システム (ERP, オペレーショナルDB, メッセージブローカーなど) 例 Kafka Connect, Event Hubs Capture, CDC, CSVダンプ (スキーマの異なる)数百のデータソース / トピックがある場合には？ブロンズテーブル Group 2 ブロンズテーブル Group 3 … Databricks ジョブ 1 k 個のAuto Loader ストリーム Databricks ジョブ 2 m 個のAuto Loader ストリーム Databricks ジョブ 3 n 個のAuto Loader ストリームストリームはブロックしないので、いくつかのストリーム(最大 ~20)をジョブにグルーピングすることができます (これはいくつかのアプローチのうちの一つに過ぎません) …

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Databricksによる生産性の最大化とリスクの最小化 Auto Loader, Delta Live Tablesなど連続あるいはスケジュールによるデータ取り込み宣言型ETL パイプラインデータ品質検証およびモニタリングデータパイプラインの観測可能性オートスケーリングおよび耐障害性自動デプロイオペレーションパイプライン& ワークフローのオーケストレーションチェンジデータキャプチャー

Slide 11

Slide 11 text

● 「どのように」を抽象化し「何を」解くのかを定義する、意図に基づく宣言型開発を使用 ● 高品質なリネージを自動で作成し、データパイプラインのテーブルの依存関係を管理 ● エラー、依存関係の欠如、文法エラーを自動でチェックし、パイプラインのリカバリーを管理 ● (Python UDFを含む)PythonとSQLをサポート ○ カスタムライブラリやモデルと連携 /* アカウントテーブルの一時ビューを作成 */ CREATE INCREMENTAL LIVE VIEW account_raw AS SELECT * FROM cloud_files(“/data”, “csv”); /* ステージ 1: ブロンズテーブルで不適切な行を削除 */ CREATE INCREMENTAL LIVE TABLE account_bronze AS COMMENT "Bronze table with valid account ids" SELECT * FROM account_raw ... /* ステージ 2:シルバーに行を送信し、妥当性チェックを適用 */ CREATE INCREMENTAL LIVE TABLE account_silver AS COMMENT "Silver Accounts table with validation checks" SELECT * FROM account_bronze ... ブロンズシルバーゴールドソースセルフサービス: Delta Live Tablesによる宣言型ETLパイプライン

Slide 12

Slide 12 text

ブロンズシルバー CDC経由 UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミングソースクラウドオブジェクトストレージ構造化データ非構造化データ準構造化データデータ移行サービスデータソース ● DBR、クラウドストレージ、DBFSでサポートされている任意のデータの行レベルの変更をキャプチャー ● よりシンプルなアーキテクチャ: シンプルかつインクリメンタルなパイプラインの構築 ● 順序が守られていないイベントのハンドリング ● スキーマ進化 ● シンプルかつ宣言型の「APPLY CHANGES INTO」APIを用いた変更レコード(insert、 update、delete)のインクリメンタルな処理 Delta Live Tablesによるチェンジデータキャプチャー(CDC)

Slide 13

Slide 13 text

Delta Live Tablesによるデータ品質検証およびモニタリング ▪ データエクスペクテーションでパイプラインにおけるデータ品質、完全性を定義 ▪ 柔軟なポリシーによるデータ品質エラーへの対応 (失敗、削除、警告、検疫) ▪ 全てのデータパイプライン実行と品質メトリクスを記録、追跡、レポート /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウント IDを含むブロンズテーブル " SELECT * FROM fire_account_raw ...

Slide 14

Slide 14 text

Delta Live Tablesによるデータ品質検証およびモニタリング ● データエクスペクテーションでパイプラインにおけるデータ品質、完全性を定義 ● 柔軟なポリシーによるデータ品質エラーへの対応(失敗、削除、警告、検疫) ● 行レベルのオペレーション、ガバナンス、品質、ステータスのきめ細かいロギング /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウント IDを含むブロンズテーブル " SELECT * FROM fire_account_raw ...

Slide 15

Slide 15 text

● バックログ認知のスケーリング意思決定によるストリーミングSLOの達成 - スケールアップ、スケールダウンするために、バックログメトリクスとクラスター利用率の両方をモニタリング ● 自動エラーハンドリングと容易な際実行によるダウンタイムの削減 ● すべてのDelta Liveテーブルの自動最適化によるメンテナンスの排除 ● ジョブを並列化しデータ移動を最小化する弾力性のある Apache Spark™ベースの計算クラスターを自動で配備し、データパイプラインワークロードを処理 Streaming source Spark executors No/Small backlog & low utilization Backlog monitoring Utilization monitoring Scale down Delta Live Tablesによるオートスケーリング、耐障害性

Slide 16

Slide 16 text

まとめ • Auto Loaderによってデータ取り込みを堅牢かつスケーラブルに • Delta Live Tables はエンドツーエンドでデータパイプラインを管理し、可視性を提供 • 基盤としてのDelta Lakeが、データのバージョン管理、信頼性、パフォーマンスを充当

Slide 17

Slide 17 text

Additional Resources ● Auto Loader ● Getting Started with Delta Live Tables ● 5 Steps to Implementing Intelligent Data Pipelines With Delta Live Tables ● Product Page ● Documentation