Databricks Lakeflow クイックワークショップ / lakeflow-workshop

Lakeﬂow Spark Declarative Pipelines (SDP) ワークショップデータブリックス・ジャパン

• Lakeflow とは？ • Lakeflow SDP の開発環境 • Lakeflow SDP
の重要な構成要素このワークショップの旅路 Lakeflow Spark Declarative Pipelines (SDP) Workshop • Databricksとは？ • データガバナンスとUnity Catalog • データエンジニアリング入門 • ちょっとだけSpark ② データエンジニアリング入門 ① プロローグ ③ Lakeflow 基礎理解メダリオンアーキテクチャを意識しながら、販売履歴を加工するパイプラインを構築 ④ Lakeflow SDP ハンズオン • イベントログの活用 • CI/CD対応 • 外部へのデータ連携 ⑤ まだあるLakeflow SDPの強み

Databricks とは？

DATA+AI カンパニークリエーター 15,000+ グローバルのお客様 $4B+ YoY 50%+ 年間収益 $100B+
の企業価値レイクハウスの発明者生成AIのパイオニア LEADER 2023 Cloud Database Management Systems LEADER 2024 Data Science & Machine Learning Analytic Stream Processing 4

Databricksを用いることで 1つのプラットフォームでデータとAIに関するあらゆるユースケースを実現

データ変換ペタバイト級データ分析 SQL, BI 生成AI 活用〜カスタマイズモデル開発〜提供機械学習 Databricksの得意分野
活用／シンプル化

ディザスターリカバリコストコントロールエンタープライズセキュリティ 100% サーバレスレイクハウス AI/BI ビジネスインテリジェンス Databricks
SQL データウェアハウス Workﬂows/DLT 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricksデータインテリジェンスプラットフォーム

ディザスターリカバリコストコントロールエンタープライズセキュリティ 100% サーバレスレイクハウス AI/BI ビジネスインテリジェンス Databricks
SQL データウェアハウス Lakeﬂow 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricksデータインテリジェンスプラットフォーム本日のテーマ

データガバナンスと Unity Catalog

Q. データガバナンスとは？ A. データ資産について、ライフサイクル全体を通して管理するための、原則、プラクティス（実践的な手法）、ツールを組み合わせた総合的な管理手法 • デジタルビジネスを拡大しようとする組織の 80％は、不十分なガバナンスが原因で失敗している（Gartner）
• データガバナンスの不備により、ユーザーの時間の30％が付加価値のないタスクに費やされている（McKinsey） • データガバナンスの不備は、年間1,500万ドルもの財務的損失をもたらす可能性がある（investopedia）監査共有アクセス制御リネージディスカバリーデータの使用状況の把握（利用者、時期）社内外へのデータの安全な共有データ保護の仕組み・方法データの関連性とライフサイクルの追跡データの容易な検索・検出事実主要なテーマ

Unity Catalog データとAIを一元管理するガバナンス基盤従来のカタログ Delta Lake Parquet Iceberg
アクセス制御発見・検出リネージ監査安全なデータ共有品質モニタリングコスト制御ビジネス上の意味セキュリティコラボレーション品質管理テーブル AIモデルファイル Notebooks Dashboards あらゆる外部データソースと接続あらゆるツール、エンジン、プラットフォームとのオープンなアクセスと連携

データについての詳細を調べることができるポータルとして機能カタログエクスプローラーテーブル構造・説明列名、データ型、ビジネスメタデータ等その他基本情報作成/最終更新の日時、ユーザー、ストレージの場所、テーブルプロパティ
等履歴いつ、誰が、どのコードやジョブでどんな処理をしたか、等を一覧表示アクセス権限アクセスできるユーザーや権限の種類データリネージュ他のデータとの依存関係の可視化、ジョブやMLモデル、コードとの関連も表示利用状況このテーブルを使用している主なユーザー、クエリやコード、利用頻度等を可視化データプロファイルデータの中身に関する様々な統計、データ品質のダッシュボード

Unity Catalog のオブジェクト階層メタストア → カタログ → スキーマ → テーブル
メタストアカタログスキーマ (データベース）シェア Recipient ビューテーブル関数ストレージ資格情報外部ロケーションモデル Volumes 例えばテーブルへのアクセスは、以下のように行う。 SELECT * FROM <カタログ名>.<スキーマ名>.<テーブル名>

Unity Catalog のオブジェクト階層メタストア → カタログ → スキーマ → テーブル
メタストアカタログスキーマ (データベース）シェア Recipient ビューテーブル関数ストレージ資格情報外部ロケーションモデル Volumes ワークショップ参加者毎に作成予め管理者が用意したカタログを使用例えばテーブルへのアクセスは、以下のように行う。 SELECT * FROM <カタログ名>.<スキーマ名>.<テーブル名>

② 管理者から指定されているカタログを検索し、開くワークショップ用のスキーマを作成 ① ワークスペース左側のメニューから “Catalog” を開く ③
“Create schema” をクリック ④ 他参加者と重複しないスキーマ名 (自身の氏名を含むもの等 ) を決め、”Schema name”に入力して “Create” をクリック

データエンジニアリング入門

データエンジニアリング入門基本的なデータエンジニアリングアーキテクチャ取り込みデータソースデータストレージデータ処理データガバナンス、アクセス、セキュリティオーケストレーションデータウェアハウスと
BI データサイエンスと機械学習データ共有

データエンジニアリング入門データエンジニアの主な役割 • データパイプライン：多様なソースからストレージ、各種分析ツールにデータが流れる経路 • これらのパイプラインを作成、自動化、最適化
データパイプラインの設計、構築、保守 • 多様なソースからデータを抽出 • エラーや不整合を除去 • ユーザーが活用しやすいように構造化形式に変換して出力 • データの正確性、一貫性、信頼性を監視・維持するためのプロセスを開発 • 上記を実際に維持データの品質と整合性の確保生データをクリーンで信頼できるデータに変換

メダリオンアーキテクチャブロンズ、シルバー、ゴールドの3つのレイヤーで構成データ品質レベルデータの処理と変換活用シルバーブロンズデータ品質の向上データが各レイヤーを通過するにつれて、データの構造と品質を段階的に改善します
ゴールド取り込み機械学習と AI BI およびレポート作成ストリーミング分析バッチストリーミング

メダリオンアーキテクチャブロンズレイヤーデータの処理と変換活用ブロンズシルバーバッチストリーミングゴールド取り込み
機械学習とAI BI およびレポート作成ストリーミング分析 • 外部ソースシステムから取り込んだ生データの集積場所 • 生データのまま取り込み • 多くの場合長期保存 (年単位) 必要に応じて個人を特定できる情報 (PII) を削除

メダリオンアーキテクチャシルバーレイヤーデータの処理と変換シルバーブロンズバッチストリーミング取り込みゴールド •
ブロンズデータをフィルタ、クレンジング、結合、エンリッチ • スキーマの強制または進化を適用 • Single Source of Truth; SSoT = 信頼できる唯一の情報源活用機械学習とAI BI およびレポート作成ストリーミング分析

メダリオンアーキテクチャゴールドレイヤーデータの処理と変換活用ゴールド取り込み機械学習と AI BI および
レポート作成ストリーミング分析ブロンズシルバーバッチストリーミング • 活用の準備が完了したクリーンなデータ • ビジネスレベルの集計、BIや機械学習に使いやすいデータセット • 下流のユーザーやアプリケーションが活用

メダリオンアーキテクチャ Delta Lake ACIDサポートにより柔軟なデータ操作が可能データの処理と変換シルバーブロンズゴールド取り込みバッチ
ストリーミング活用機械学習とAI BI およびレポート作成ストリーミング分析 Delta Lake ACIDサポートデータ変換プロセス全体を通じて、挿入、削除、更新、統合を可能にする INSERT • DELETE • MERGE • OVERWRITE • AGGREGATE

メダリオンアーキテクチャ現実世界のメダリオンアーキテクチャはより複雑なのが一般的データストリームソースデータストリームソースデータレイクバッチソース機械学習と
AI BI およびレポート作成ストリーミング分析 (CSV、 JSON、TXT...)

ちょっとだけ Spark

• Lakeflow SDP は内部ではSparkを活用していますが、従来のようにSparkの詳細な仕組みを知らなくても容易にデータパイプラインを開発 /運用できるのが特徴です。 • 一方でLakeflow
SDPをPython APIで使用する場合、データの読み込みと変換の基本的なコードの書き方は Sparkと共通している部分が多いです。 • そのため、ここでは詳細を省きながらSparkの概要、基本的なコードのイメージのみにフォーカスして説明します。なぜここで Spark の説明をするのか？ Lakeflow SDP は Spark を基礎技術として活用している

Apache Spark とは？大規模データの分散処理に最適化されたフレームワーク • 統合計算エンジン • 複数のノードから構成される「クラスター」で並列データ処理 •
Sparkはデータの分散処理において最もアクティブに開発されているオープンソースエンジン • 広く使用されている複数のプログラミング言語をサポート(Python、Java、Scala、R) • SQLからストリーミング、機械学習に渡る様々なタスクのためのライブラリも提供構造化ストリーミング構造化API データセットデータフレーム SQL 高度分析、ML、グラフ解析、ディープラーニングエコシステム + パッケージ低レベルAPI 分散変数 RDD

Spark の分散処理機構ドライバが分散したタスクをエグゼキュータへ振り分けクラスタードライバ (司令塔) ワーカー (作業者) コアメモリ
ローカルストレージコアワーカー (作業者) コアメモリローカルストレージコア ③ワーカーへのタスクの振り分けクラスターマネージャー ②ワーカーのリソース割り当て &管理 ①ワーカーのリソースを要求 ③ワーカーへのタスクの振り分け実行するコード

PythonでSparkを使用する際には、例えば spark.read.format(“データソースのファイル形式 ”) のようにしてデータを読み込む等、様々な操作を行うために使用します。 Apache Spark とは？大規模データの分散処理に最適化されたフレームワーク •
SparkSessionはすべてのデータフレームAPIの機能に対する単一のエントリーポイント • Databricksでは、”spark”という変数名でSpark セッションが自動的に作成されます JVM Spark セッション Python プロセス Rプロセスエグゼキューターへ

Spark DataFrame Sparkで表形式のデータを格納するためのオブジェクト item_id name price M_PREM_Q Premium Queen Mattress
1795 M_STAN_F Standard Full Mattress 945 M_PREM_F Premium Full Mattress 1695 M_PREM_T Premium Twin Mattress 1095 qty 35 24 45 18 テーブルと同じように列(カラム)と行(レコード) の概念、カラム名、カラム毎のデータ型、といった情報が保持されている。以下の例では、データファイルを読み込んで出来たDataFrameが変数”df”に格納される df = spark.read.format(“データソースのファイル形式 ”).load(“データファイルのパス”)

DataFrame を起点に様々データ変換を行う列の選択、行のフィルタ、並べ替え、グループ化、集計、列追、etc. # データ変換例その1 df.select("item_id", "price") .where("price >
70") .orderBy("price") # データ変換例その2 df.withColumn("revenue", expr(“price * qty”)) .groupBy("item_id") .agg(sum(“revenue”).alias(“total_revenue”)) 1. dfに格納されているDataFrameから”id”列と”result”列のデータのみを取り出す (select) 2. “result”列の値が70より大きいレコードのみを抽出 (where) 3. “result”の値が小さい順に並べる (orderBy) 1. dfに新たな列"revenue"を追加し、price とqtyを掛けた値を格納する (withColumn) 2. “item_id”でレコードをグループ化 (groupBy) 3. “item_id”毎にrevenueの合計を計算 (agg と sum) 4. 計算した合計を入れる列名を ”total_revenue”にする (alias)

Spark は様々なデータソースに対応データソースからの読み込み & DataFrame の作成 # /path_of_files にある Parquet
ファイルから DataFrameを作成 df = spark.read.format(“parquet”).load(“/path_of_files”)  1 2 Parquetファイルから作成 # /path_of_files にある csv ファイルから DataFrameを作成 df = spark.read.format(“csv”).load(“/path_of_files”)  1 2 CSVファイルから作成同様の書き方で、JSON, Avro, ORC 等からも DataFrameを作成可能

直感的なコーディングでデータ加工 DataFrame を使ったデータ加工 # user_id毎の販売金額合計を算出 new_df = (df .select(“user_id”, “revenue”)
.groupBy(”user_id”) .sum(“revenue”))  1 2 3 4 5 SQLやPandas DataFrameのような感覚で処理を記述可能 Spark内部で最適な実行プランの作成や並列処理化等を行ってくれるちなみに・・・Spark は「遅延評価」の仕組みになっているため、上記のコードを実行しただけでは実際のデータ処理は(まだ)行われない

加工したデータを必要な形式で保存 DataFrame からの書き出し # new_df を Parquetファイルとして /path_to_save に書き出す (new_df
.write .format(“parquet”) .save(”/path_to_save”)) 1 2 3 4 5 Writeメソッドにフォーマットを指定し、必要な形式で加工したデータを保存「遅延評価」の仕組みにより、1つ前のスライドで記述した集計処理は上記のコードを実行した際に初めて行われる

Lakeﬂow とは？

データエンジニアには膨大な管理・運用工数が発生データ品質チェックガバナンスデータの発見性 (本当にやりたい、ビジネス側が求める ) データ加工ロジックの実装依存関係の管理パーティション
の最適化チェックポイントとリトライバックフィル対応バージョン管理インフラ管理データレイクオーケストレーション DWH ストリーミング BI データサイエンス生成AI 機械学習

©2025 Databricks Inc. — All rights reserved Lakeﬂow はあらゆるデータに対して、より信頼
性の高いデータパイプラインを、より早く構築するための統合ETLソリューション Data Engineers LAKEFLOW データ取り込みデータ加工オーケストレーション Connect Jobs Spark Declarative Pipelines

©2025 Databricks Inc. — All rights reserved 本ワークショップのメイン Lakeﬂow
はあらゆるデータに対して、より信頼性の高いデータパイプラインを、より早く構築するための統合ETLソリューション LAKEFLOW データ取り込みデータ加工オーケストレーション Connect Spark Declarative Pipelines Jobs 本ワークショップではほぼ含まない (ストレージからの標準的な取り込みが主体) 本ワークショップでは少し含む (1タスクのみの単純なジョブを作成 )

Spark Declarative Pipelines とは？ ETL のためのモダンソフトウェアエンジニアリング信頼性の高いデータパイプラインを、シンプルな宣言型アプローチで構築可能なETLフレームワーク。大規模なインフラを自動的に管理
するため、データアナリストやエンジニアはツールの操作に費やす時間を削減し、データから価値を引き出すことに集中できる。 ETLの開発を加速インフラを自動管理データの品質に自信を持つバッチもストリーミングもシンプルに実現 https://www.databricks.com/product/data-engineering/dlt

コードの記載順序やファイルの分け方等に関わらず、自動的に正しい実行順序を組み立て、並列で実行できる部分は並列化するといったオーケストレーションを行ってくれる。複雑な処理でもより少ない & 分かりやすいコードで実装できる。
パイプラインの品質を上げるために必要な詳細なロジックは、予め用意された関数やオプションに内包されている。 Declarative (宣言型) だと何が良いのか？開発スピードが向上！得たい結果を簡易なコードで表現すれば、面倒な部分は自動で最適化されるオーケストレーションが自動化される！開発者が意識しなくても、独自の増分処理エンジンによって、可能な限り差分データのみを処理するようプランを立てて実行してくれる。自動増分処理がコスパを最適化！

コードの記述が簡単になる例 1つ1つの処理ステップを記述するのではなく、得たい結果とその条件を記述 DLTによる宣言型のコード例 def upsertToDelta(microBatchOutputDF: DataFrame, batchId: Long) { microBatchOutputDF
.groupBy("key") .agg(max_by("ts", struct("*").alias("row")) .select("row.*") .createOrReplaceTempView("updates") microBatchOutputDF.sparkSession.sql(s""" MERGE INTO cdc_data_raw t USING updates s ON s.key = t.key WHEN MATCHED AND s.is_delete THEN UPDATE SET DELETED_AT=now() WHEN MATCHED THEN UPDATE SET A=CASE WHEN s.ts > t.ts THEN s.a ELSE t.a, B=CASE WHEN s.ts > t.ts THEN s.b ELSE t.b, … for every column … WHEN NOT MATCHED THEN INSERT * """) } cdcData.writeStream .foreachBatch(upsertToDelta _) .outputMode("append") .start() APPLY CHANGES INTO cdc_data FROM source_data KEYS (id) SEQUENCE BY ts APPLY AS DELETE WHEN is_deleted PySpark でのコード例本番向けの処理では様々なデータの到着パターンやエラーへの対応等を含めて、実装すべきコードが増える PySparkでは全て自身でコードを書いて実装していた部分が、書かなくても内部で自動的にハンドリングしてくれたり、簡単なキーワード指定のみで実現できるようになったりする同じ処理を DLTで書くと

Lakeﬂow SDPはどんな環境で開発する？〜 Lakeﬂow Pipelines Editor 〜

Lakeflow SDPのコード開発環境の選択肢 Lakeflow SDPのコード開発では、Lakeflow Pipelines Editor が推奨 Lakeflow Pipelines Editor
Databricks Notebook 任意のローカル IDE Lakeflow SDPのコード開発に最適化された環境。コードを編集しながら対話的に実行 /テストを行うことができ、グラフや様々なメトリクス、エラー、パイプライン設定等を 1つ画面で確認・操作することが可能。 Databricks上での汎用的なコード作成・実行環境。ただし、Lakeflow SDPでは Notebook本来のセル単位での対話的な実行ができない。パイプライン設定、グラフ、様々なメトリクスは別画面で確認する必要がある。推奨ローカルIDE上ではコードの編集のみが可能。動作確認/実行するには Databricksワークスペース上への同期 / デプロイを都度実行する必要があるため、インタラクティブな開発 /テストが困難。公式Doc : Lakeflow 宣言型パイプラインコードをローカル開発環境で開発する公式Doc : Lakeflow宣言型パイプラインのノートブックを使用した ETLパイプラインの開発とデバッグ Lakeflow Pipelines Editorを使用したパイプラインの開発とデバッグ

Lakeﬂow Pipelines Editor とは Lakeﬂowを使ったデータエンジニアリング専用の”IDE” 複数ファイルのタブ切替コードファイルの管理パイプラインの設定 & 実行
テーブルの自動可視化テーブルのプレビューパフォーマンス /メトリクスエラー調査効率的な開発 /デバッグのための部分的実行

Lakeﬂow Pipelines Editor とは Lakeﬂowを使ったデータエンジニアリング専用の”IDE” 複数ファイルのタブ切替コードファイルの管理パイプラインの設定 & 実行
テーブルの自動可視化テーブルのプレビューパフォーマンス /メトリクスエラー調査効率的な開発 /デバッグのための部分的実行ここの構造、考え方について説明

ルートフォルダとソースコードフォルダパイプラインの実行使うコードと、それ以外のコードを整理できるルートフォルダパイプラインに関連する全てのファイルを格納する場所ソースコードフォルダパイプラインを実行した時に実行されるソースコード
その他任意のフォルダその他任意のフォルダ・・・この2つのフォルダは設定で管理され、特別な意味を持つルートフォルダ直下にその他のフォルダを作ったり、ソースコードフォルダの配下をサブフォルダに分けたり等は自由に行える

ルートフォルダとソースコードフォルダ実際のディレクトリ構成と設定の例パイプラインアセットブラウザパイプライン設定ルートフォルダソースコードルートフォルダ、ソースコードフォルダをそれぞれどこにするかはパイプライン設定上で
管理されており、変更することも可能でパイプライン全体を実行した時、実行されるファイルはこの部分だけ

パイプラインソースコードからインポートした場合はLDP専用Compute で、(テスト等で) 単体実行の場合は汎用クラスターで実行ルートフォルダとソースコードフォルダ推奨 (およびデフォルトの)
ディレクトリ構成パイプラインを使うには最低限何らかのルートフォルダ、ソースコードフォルダが設定されていればOKであり、フォルダ名も任意。しかし以下の推奨構成があり、この構成がデフォルトになっている。ルートフォルダ (パイプライン名と同じ ) ソースコードフォルダ transformations explorations utilities パイプライン実行時に実行する Python / SQLのソースコードファイルパイプライン実行時には使用しない、ノートブック、クエリ、ダッシュボード等の各種アセット各フォルダに配置するアセット実行時のコンピュート LDP専用Computeで実行 (Serverless or Classic) LDP以外の、それぞれのアセットの種類に応じたComputeで実行パイプラインのソースコードからインポートして使う共通モジュール等

Lakeﬂow SDP の重要なコンポーネント

Lakeﬂow SDP の主な構成要素これ全体をLakeﬂow SDPのパイプラインと呼ぶこれらをコードの中でブロックのように組み合わせ、パイプラインを作成ストリーミングデータソースファイル、テーブル、
ストリーミングテーブル、メッセージバス、変更データフィード、 etc. ファイル、テーブル、ストリーミングテーブル、マテリアライズドビュー、 etc. バッチデータソースストリーミング処理 Append フロー Auto CDC フローストリーミングターゲットシンクストリーミングテーブルストリーミング処理マテリアライズドビューフローバッチターゲットマテリアライズドビュー上流にある様々なデータソース

ストリーミングテーブル (ST) 技術的な特徴 • Append-onlyなデータ取り込み / 変換専用のテーブル • 各入力レコードは1回だけ処理 (Exactly-Once)
• 上流データが既に取り込み済みのレコードの再処理は行われない（ただし、Full Refreshを行うと全レコードを再処理）留意事項 • データ変換のロジックが途中で変わっても、過去に処理されたデータの再処理は行われない • 既に取り込みのデータが上流のデータソース側が変更 /削除されても、ストリーミングテーブル上のレコードは変更 /削除されない Append-onlyなデータ取り込み / 変換基本的な作成方法 <SQLの場合> CREATE OR REFRESH STREAMING TABLE basic_st AS SELECT * FROM STREAM samples.nyctaxi.trips; <Pythonの場合> from pyspark import pipelines as dp @dp.table(name = "trips_st") def basic_st(): return spark.readStream .table("samples.nyctaxi.trips")

マテリアライズドビュー (MV) 技術的な特徴 • 結果を事前計算、キャッシュするビュー • 上流データの変更/削除に追随して結果が最新化される • 全データを再処理するのと同じ最新の結果を担保しつつ、内部では可能な限り増分的に処理する
• 指定した間隔で上流データと同期留意事項 • 最新の結果を計算するのに増分処理を適用できるかどうかは内部のエンジンの判断に依存し、判断の結果次第で全レコードの再計算となる場合がある変更や削除も含め、常に最新の結果を反映基本的な作成方法 <SQLの場合> CREATE OR REFRESH MATERIALIZED VIEW basic_mv AS SELECT * FROM samples.nyctaxi.trips; <Pythonの場合> from pyspark import pipelines as dp @dp.materialized_view(name = "trips_mv") def basic_mv(): return spark.read .table("samples.nyctaxi.trips")

STとMVの挙動の違い上流データに追加、変更があった場合の挙動を見てみようストリーミングテーブルマテリアライズドビューデータソース Step 1
初回のデータ取り込みストリーミングテーブルマテリアライズドビューデータソース Step 2 データソースにレコード追加ストリーミングテーブルマテリアライズドビューデータソース Step 3 2回目のデータ取り込みレコード数： 10 件レコード数： 12 件 INSERT レコード 2 件追加追加の 2件だけ取り込み 12 件全てを取り込みレコード数： 12 件 ※ 正確には、 12件全てのレコード

フローデータソースからST / MVへデータを取り込む流れを表し、上流のデータソースからデータを取得するクエリと、取得したデータの書き込み先となるターゲットを定義する。ストリーミングテーブルやマテリアライズドビューにデータを取り込むデータソースファイル、テーブル、メッ
セージバス等フローデータソースとターゲットを指定して、データを取得するクエリターゲットストリーミングテーブル、マテリアライズドビューフローには2つの種類があり、用途に応じて使い分ける。 Append フローデータソースに追加された新しいデータ(ファイル、レコード)のみを処理し、ターゲットに追記 (Append)する Auto CDC フローデータソースのChange Data Feed (CDF)を使用して、ターゲットテーブルを差分更新する。追記だけではく更新、削除を含む。

Append フローデータソースに追加された新しいデータ(ファイル、レコード)のみを処理し、ターゲットに追記(Append)するフローストリーミングテーブルやマテリアライズドビューにデータを取り込む基本的な作成方法 (明示的に作成する場合 ) <SQLの場合> CREATE
FLOW customers_silver AS INSERT INTO customers_silver BY NAME SELECT * FROM STREAM(customers_bronze); <Pythonの場合> from pyspark import pipelines as dp @dp.append_flow(target = "customers_silver") def customer_silver(): return spark.readStream.table("customers_bronze") ※ 上記の例では、customer_silverというストリーミングテーブルが予め作成されているものとする • マテリアライズドビューやストリーミングテーブルをデータ取得クエリを含める形で作成した場合、暗黙的にAppendフローが作成されている • 明示的に作成したフローは、ストリーミングテーブルまたはシンク(後述)のみをターゲットとすることができる • 複数のフローからターゲットを、同一のストリーミングテーブルに指定することもできる

Auto CDC フローデータソースのChange Data Feed (CDF)を使用して、ターゲットテーブルを差分更新する。追記だけではく更新、削除を含む。 Change Data
Feed (CDF)を使用した差分更新基本的な作成方法 <SQLの場合> CREATE FLOW target_flow AS AUTO CDC INTO target FROM stream(cdc_data.users) KEYS (userId) APPLY AS DELETE WHEN operation = "DELETE" SEQUENCE BY sequenceNum COLUMNS * EXCEPT (operation, sequenceNum) STORED AS SCD TYPE 2; <Pythonの場合> dp.create_auto_cdc_flow ( target = "target", source = "users", keys = ["userId"], sequence_by = col("sequenceNum"), apply_as_deletes = expr("operation = 'DELETE'"), except_column_list = ["operation", "sequenceNum"], stored_as_scd_type = "2" ) ※ 上記の例では、targetというストリーミングテーブルが予め作成されおり、usersにはソースのCDF情報が格納されているいるものとする。 • Append フローと異なり、Auto CDC フローは必ず明示的に作成する必要がある • Auto CDC フローのターゲットとして指定できるのは、ストリーミングテーブルのみ • Append フロー同様、複数のフローからのターゲットを同一のストリーミングテーブルに指定することもできる • 同一キーを持つレコードに対して上流から複数レコードが到着した場合の順序判断や、 SCD Type 1 / Type 2のどちらで更新するか等、差分更新の動作をコントロールするパラメータが用意されている

補足：SCD Type 2 とは？モチベーション：過去の任意の時点のデータを取得したい SCD Type 2 とは •
あるIDのレコードに対して更新があっても上書きはしない • 同一ID (PK) に対して、過去履歴を含む複数のレコードを保持 • 各レコードには、いつからいつまで有効であったかを示すカラムが保持されている userId name city __START_AT __END_AT 123 Isabel Monterrey 2025/1/10 5:00 2025/2/20 9:00 123 Isabel Chihuahua 2025/2/20 9:00 2025/3/1 2:00 124 Raul Oaxaca 2025/1/10 5:00 null 125 Mercedes Tijuana 2025/1/25 8:00 2025/2/20 9:00 125 Mercedes Mexicali 2025/2/20 9:00 2025/3/1 2:00 125 Mercedes Guadalajara 2025/3/1 2:00 null 126 Lily Cancun 2025/1/25 8:00 null 3/1 2:00で DELETE 現在も有効なレコードは ENDがNULL SCD Type 2のテーブル例 SCD Type 2 のデータモデルを採用することで、長期を跨いで任意の時点のデータが取得できるようになる

補足：SCD Type 2 の実装上の課題 SCD Type 2 は分析には便利な反面、様々なケースに対してロバストに実装しようとすると煩雑になる •
同じ(マイクロ)バッチの中で、同一IDに対する操作が複数含まれていたら？ • データの操作日時と、実際にデータが到着する日時で順不同になっていたら？ • DELETEが来たらどうハンドリングするか？ • 順不同問題とDELETE問題の混合パターン：先に DELETEが来たIDに対するUPDATE/INSERTが遅れて到着したら？ userId name city __START_AT __END_AT 123 Isabel Monterrey 2025/1/10 5:00 2025/2/20 9:00 123 Isabel Chihuahua 2025/2/20 9:00 2025/3/1 2:00 124 Raul Oaxaca 2025/1/10 5:00 null 125 Mercedes Tijuana 2025/1/25 8:00 2025/2/20 9:00 125 Mercedes Mexicali 2025/2/20 9:00 2025/3/1 2:00 125 Mercedes Guadalajara 2025/3/1 2:00 null 126 Lily Cancun 2025/1/25 8:00 null SCD Type 2のテーブル例想定しなければいけないケースの例上記への対処を全て実装しようとすると、コードの煩雑化や考慮漏れが発生する

Auto CDC による SCD Type 2 の容易な実現 SCD Type 2
の実装上の煩雑さを排除し、シンプルなAPIで実現可能にする userId name city operation sequence 123 Isabel Monterrey INSERT 2025/1/10 5:00 123 null null DELETE 2025/3/1 2:00 125 Mercedes Guadalajara UPDATE 2025/3/1 2:00 ・・・・・・・・・・・・・・・ SourceからのCDF (Change Data Feed) userId name city 123 Isabel Chihuahua 124 Raul Oaxaca 125 Mercedes Guadalajara 126 Lily Cancun Sourceからのスナップショット userId name city __START_AT __END_AT 123 Isabel Monterrey 2025/1/10 5:00 2025/2/20 9:00 123 Isabel Chihuahua 2025/2/20 9:00 2025/3/1 2:00 124 Raul Oaxaca 2025/1/10 5:00 null 125 Mercedes Tijuana 2025/1/25 8:00 2025/2/20 9:00 125 Mercedes Mexicali 2025/2/20 9:00 2025/3/1 2:00 125 Mercedes Guadalajara 2025/3/1 2:00 null 126 Lily Cancun 2025/1/25 8:00 null OR LDPが提供する Python/SQLのAPI create_auto_cdc_flow() または create_auto_cdc_from_sn apshot_flow() 前ページの例のような様々なケースに対応するための処理を実装済み • ソートキーの指定 • NULL列の扱い • DELETEの挙動指定 • TRUNCATEの挙動指定 • 追跡対象の列指定 • SCD Typeの指定

シンク ST/ MV以外の形式でデータを書き出す LDPで加工したデータをDatabricks外の様々なシステムで使用可能にするため、ST / MV以外の形式でデータを書き出す。シンクで対応可能な書き出し先 / 形式
• Delta テーブル • Apache Kafka • Azure Event Hubs • Python カスタムデータソース • 任意の書き込み先/形式をカスタム実装可能留意事項 • Pythonのみ対応 (SQLは非対応) • ストリーミングクエリのみ対応 • Append フローのみ • LDP側でクエリの変更や既存データの更新 /削除等を行った場合でも、シンク先に書き出し済みのデータは更新 /削除されない (新規データの書き出しのみ ) 基本的な作成方法 (Kafkaをシンクにする例) <Python> credential_name = "<service-credential>" eh_namespace_name = "dp-eventhub" bootstrap_servers = f"{eh_namespace_name}.servicebus.windows.net:9093" topic_name = "dp-sink" dp.create_sink ( name = "eh_sink", format = "kafka", options = { "databricks.serviceCredential": credential_name, "kafka.bootstrap.servers": bootstrap_servers, "topic": topic_name } ) @dp.append_flow(name = "kafka_sink_flow", target = "eh_sink") def kafka_sink_flow(): return ( spark.readStream .table("spark_referrers") .selectExpr("cast(current_page_id as string) as key", "to_json(struct(referrer, current_page_title, click_count)) AS value") )

リアルタイム性が必要な場合、MVではなく通常のビューも選択肢パイプラインの中での ST / MVの使い分け上流データソースの種類/更新の性質と、変換処理の内容によって選択 • クラウドストレージ：新規ファイル追加
のみ • メッセージバス (Kafka / Kinesis / Event Hubs / etc.) • Append-onlyのテーブル (Federation 接続した外部テーブル、 Databricksマネージドテーブル ) データソース Bronze Silver Gold • ストリーミングテーブル • CDFがあるデータソース • クラウドストレージ：テーブル全体のスナップショット or 既存ファイルの上書きあり • マテリアライズドビュー • 更新/削除があるテーブル (Federation接続した外部テーブル、 Databricksマネージドテーブル ) ストリーミングテーブルマテリアライズドビューマテリアライズドビューストリーミングテーブルマテリアライズドビュー Append フロー Auto CDC フロー Append フロー MV フロー(暗黙) MV フロー(暗黙) Append フロー(暗黙) MV フロー(暗黙) フィルタリング、カラム追加等レコード単位の変換のみの場合上流がMVの場合 Auto CDC フロー集計処理パイプライン外にある上流データ生データの保存整形、結合等を行ったデータ (集計無し) 個々の分析用途に合わせて集計された結果シンク外部システム向けに ST/MV以外の任意の形式で書き出したい場合

実際にパイプラインを開発してみよう販売履歴のデータパイプライン構築

ハンズオンのシナリオとデータセット販売履歴に顧客マスター、商品マスターを紐付けてデータマートまで作成商品マスターテーブル商品マスター (products) マテリアライズドビューパイプライン上流データソース
MVフロー顧客マスター CSVファイル (CDF) 顧客マスター (users) ストリーミングテーブル顧客マスター変更情報 Export AutoCDC フロー CSVファイル販売履歴 (transactions) 東エリア販売履歴 Appendフロー西エリア販売履歴 CSVファイル Appendフローストリーミングテーブル分析用販売履歴 (trafﬁc_log_enriched) ストリーミングテーブルユーザーセグメント別売上 (revenue_by_ user_segment) マテリアライズドビュー商品サブカテゴリ別売上 (revenue_by_ subcategory) マテリアライズドビュー Bronze Silver Gold

ワークショップ用コードのインポート ① ワークスペース左側のメニューから “Workspace” を開く ② 右上の方にある 3点リーダーの様な部分から、
“Import” を開く ③ インポート画面が開くので、配布されたワークショップ用コードの zipファイルをそのままドラッグ &ドロップする

③ 他参加者と重複しないパイプライン名 (自身の氏名を含むもの等 ) を決め、入力し、 ”Add existing assets” を選択
新規にパイプライン設定を作成する ① ワークスペース左側のメニューから “Jobs & Pipelines” を開く ② “Create”の右側にあるプルダウンを開き、 ”ETL pipeline” を選択自身のカタログとスキーマに変更パイプライン名を決める選択

④ “Pipeline root folder” はインポートしたワークショップ用コードのトップのフォルダを指定し、 ”Source code paths” に
はその配下にある ”transformations” を指定新規にパイプライン設定を作成する

新規作成したパイプラインの初期画面 Lakeﬂow Pipelines Editor

パイプラインの設定を開くコードとディレクトリ、カスタムパラメータ、ロギング等の様々な設定 Lakeﬂow Pipeline Editorの画面右上から設定画面を開く OR (画面サイズによって表示が変更される )

本ワークショップで行う設定変更 ① デフォルトのカタログをスキーマを変更コード内でテーブル名にアクセスする際、カタログ名をスキーマ名を省略できるよう、デフォルト設定を変更 ② パラメータ設定自身のカタログ名とスキーマ名をコード内で参照できるように Key-Value形式のパラメータとして設定しておく

本ワークショップで行う設定変更 ③ イベントログをテーブルに保存するよう設定 “Advanced settings” を編集し、Event Logs の “Publish event
to Unity Catalog” にチェックを入れる。 Event logを保存するテーブル名を新たに決め、テーブルを格納するカタログをスキーマも選択する。このワークショップでは、カタログとスキーマはパイプラインで設定したものと同じにする。

ワークショップ事前セットアップ “explorations”フォルダの配下にある以下のノートブックを使って、環境設定と初期サンプルデータの作成を行います。 • ノートブック「00_環境設定」にある変数”CATALOG_NAME” と”SCHEMA_NAME”を自身の環境に合わせて書き換える。 • ノートブック「01_初期データ生成」を “Run all”
ボタンで実行する。ここで使用するノートブックはワークショップ用の環境 (スキーマやファイル格納用のボリューム等)のセットアップ、サンプルデータの生成を行うためのものなので、中身のコードを確認/理解する必要はありません。サンプルデータの生成

ブロンズレイヤーの作成

まず最初に、商品マスターをパイプラインに取り込む。商品マスターは上流データソースにあるテーブルを直接参照して、そのデータをパイプラインに取り込むことになっている。商品マスターでは新規商品レコードの追加だけでなく、既存の商品レコードの更新や削除も発生する。 → ここでは商品マスターが比較的小さなテーブルであるという想定で、マテリアライズビューへ直接取り込む。マテリアライズドビューは「上流データの変更 /削除に追随して結果が最新化される」ため、既存の商品レコードの更新や削除も自動的に
パイプライン側に反映される。最初のコードを記述してみよう商品マスターの取り込み（ファイル名：ingest_products.py）商品マスターテーブル ※ ワークショップでは構成を簡単にするため、このテーブルもDatabricks上にありますが、本来は上流 (Databricks) にあると仮定します商品マスター (products) マテリアライズドビューパイプライン上流データソース MVフロー※ ※ MVのフローは明示的に作成するものではなく、 MVを作成すると暗黙的に (自動的に作成される)

簡単に使い始められるだけでなく、サーバーレスならではの以下のメリットがあるマテリアライズドビューの増分リフレッシュ可能な限り差分だけを部分的に更新し、コストパフォーマンスを最適化するストリームのパイプライニングマイクロバッチを同時並行で処理し、ストリーミング処理の効率や速度を向上させる垂直オートスケーリング最適でコスト効率のよいインスタンスタイプを自動選択
し、メモリ不足による失敗を防ぐサーバレスコンピュートに接続するインスタンスのサイズや台数、その他設定も一切気にせず、ただ接続するだけボタンを押すだけでサーバーレスコンピュートが割り当てられ、自動でスケール

Dry Run でコードチェックとグラフの可視化実際にパイプラインを実行する前に Dry Run を行うことで、実際のデータ更新や公開を行わず、安全にソースコードが正しいかを確認できる。
Dry Runの主な処理 • パイプラインで定義されたデータセットやフローの定義を解決。 • 誤ったテーブル名・カラム名などのエラーを検出して UI上に表示。 • 実際のデータの生成や公開は行わない。クイックで安全なコード検証方法

顧客マスターも新規顧客レコードの追加だけでなく、既存の顧客レコードの更新や削除も発生する。しかし顧客マスターは商品マスターと違って大きなテーブルであるため、マテリアライズドビューで毎回全レコードを見て取り込むのは処理時間、コスト面で懸念がある。 → Auto CDCフロー + ストリーミングテーブルを活用することで、差分更新を容易に実現可能。ここでは上流の顧客マスター
DBがレコードの変更履歴を記録した CSVファイルを一定間隔でクラウドストレージに出力し、 AutoCDCフローで取り込むことで、パイプライン側の顧客マスターで効率的な差分更新を実現する。 Auto CDC による差分更新のフローを作る顧客マスターの取り込み（ファイル名：ingest_users.py）顧客マスター CSVファイル形式の Change Data Feed (CDF) 顧客マスター (users) ストリーミングテーブルパイプライン上流データソース顧客マスター変更情報 Export AutoCDCフローで差分取り込み

販売履歴はマスターデータと違って、既存レコードの更新や削除が発生しない Append-onlyのデータである。ただし、それぞれ別々のクラウドストレージに出力される東エリアの販売履歴と西エリアの販売履歴 (データ構造は同じ) を1つのテーブルに取り込みたい。 → Appendフロー + ストリーミングテーブルの組み合わせで、処理効率の高めながら実現可能。取り込み先のテーブルが
1つの場合でも、異なるデータソースからの取り込みを並列で実行。非効率な Unionを回避。複数データソースから 1つのテーブルに取り込む販売履歴の取り込み（ファイル名：ingest_transactions.py） CSVファイル販売履歴 (transactions) ストリーミングテーブルパイプライン上流データソース東エリア販売履歴 Appendフロー西エリア販売履歴 CSVファイルクラウドストレージ B クラウドストレージ A Appendフロー並列で実行！

シルバーレイヤーの作成

Lakeﬂow SDPの重要な性質：オーケストレーションの自動化　記述したコードの中では、「最新の販売履歴を取り込み、顧客マスターと商品マスターも更新してから、結合して・・・」といった処理の実行順序を一切定義していない。 → Lakeﬂow SDPがテーブル間の関係性をコードか
ら認識し、以下のことを自動で実現している • 販売履歴、顧客マスター、商品マスターの 3テーブルは違いに依存していないので、更新処理は並列に行う（並列化） • 分析用販売履歴の更新は、上流の 3テーブルの更新が完了してから行う（正しい順序）販売履歴に対して、顧客マスターと商品マスターを結合する。実行順序の自動解決履歴とマスターの結合（ファイル名：enrich_transactions.py）販売履歴 (transactions) ストリーミングテーブルパイプライン商品マスター (products) 顧客マスター (users) ストリーミングテーブルマテリアライズドビュー分析用販売履歴 (transactions_enriched) Stream-Static 結合ストリーミングテーブル

ゴールドレイヤーの作成

分析用販売履歴に対して、集計処理を行って個々の分析に合わせたデータマート作成する。 → マテリアライズビューで作成する。 MVの重要な性質：増分処理エンジン (Enzyme) 　地域別平均スループットを算出するには、毎回分析用販売履歴の全レコードを見て平均を計算するロジックが必要となる。このような、通常であれば毎回全レコードの処理が必要なケースであっても、 MVの増分処理エンジン (Enzyme)
は追加/変更があったレコードのみを処理する等の最適化を図ることで大幅にコスパを改善。 (ただし保証はされず、処理内容 /データによって全件処理となる場合もある。) マテリアライズドビューの増分処理エンジンデータマートの作成（ファイル名：revenue_by_user_segment.py）ユーザーセグメント別売上 (revenue_by_user_segment) マテリアライズドビューパイプライン MVフロー分析用販売履歴 (transactions_enriched) ストリーミングテーブル

Enzyme とはデータマート(MV)の更新を最適化し、コストパフォーマンスを大幅に改善変更情報のトラッキングクエリプランの分析 Monotonic Append (追加レコードのみ処理
) Partition Recompute (影響するパーティションのみ再計算 ) MERGE Updates (キーのマッチングによる差分更新 ) Full Recompute (全レコードの再計算 ) Cost Model 最適な処理戦略を選択 + Catalyst Query Optimizer Enzymeが選択する処理戦略公式Doc : Enzyme による増分処理の条件、各処理戦略の詳細等

Lakeﬂow SDPでのデータ品質管理

パイプラインを破壊する “不正なデータ ” データ基盤が汚染され、分析結果に狂いが生じる Col1 Col2 Col3 1 null STARTED
2 True XWKQEDLQQ 1000000000 False FINISHED 1 False PAUSED • 値の欠落 (NULL, 空文字, etc.) • データフォーマットの逸脱 • エンコーディングの差異 • 外れ値、上限を上回る/下限を下回る値 • 未知のカテゴリ値の出現 • 数値の単位変更のズレ • ・・・

Lakeﬂow SDPでのデータ品質管理個々のデータに任意の条件を定義し、それに応じてアクションを取り、結果を記録することができる全てのDLTパイプラインの実行について品質メトリクスが可視化され、深掘り分析も可能なログも提供データの品質や整合性に関する条件を、 Expectations という機能
(SQL/Python内に記述) で定義する定義した条件をデータが満たさなかった場合、希望するアクションを実施させることができる /* Stage 1: Bronze Table drop invalid rows */ CREATE STREAMING TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "Bronze table with valid account ids" SELECT * FROM fire_account_raw ...

不正データに対する選択可能なアクション基本となる3つのアクションから、カスタム実装のより高度なアクションまで基本の3パターン 1. Fail : 処理全体を異常終了させる 2. Drop :
不正データのみドロップして、正常データの処理を継続する 3. Monitor : 不正データとして件数のカウントのみ行い、正常データと一緒に処理する応用パターンの例隔離：不正データを正常データは別のテーブルに隔離しておき、後で修正、再処理ができるようにしておく

データ品質ルール ①：購入数量と代金購入数量は購入代金はそれぞれ1以上、0より大きいものとし、違反したレコードは隔離。データ検証の条件式： quantity >= 1 transaction_price >
0 ワークショップ用不正データ混入のシナリオ追加ファイル名：expectation_rules.py 変更する既存ファイル名：ingest_transactions.py, enrich_transactions.py CSVファイル販売履歴 (transactions) ストリーミングテーブル上流データソース東エリア販売履歴西エリア販売履歴 CSVファイル販売履歴 (transactions) ストリーミングテーブル商品マスター (products) 顧客マスター (users) ストリーミングテーブルマテリアライズドビュー分析用販売履歴 (transactions_enriched) データ品質ルール ② AND ③：マスタ存在チェック顧客マスターや商品にマスタに含まれないuser_idや product_idを含む販売履歴が来た場合、深刻な不正データとして扱い、処理を異常終了させる <データ検証の条件式> products.product_id IS NOT NULL users.user_id IS NOT NULL ストリーミングテーブルここでチェックここでチェック正常データ (処理継続 ) 不正データ (隔離) 結合で紐付かないログがあったら、処理を異常終了

データ品質ルールを適用してから、不正データを発生させてみよう 1. 既存のコードを変更して、データ品質ルールを適用してください a. 「ingest_transactions.py」のコードは、「ingest_transactions_expectation.py」のコードに差し替えてください。 b. 「enrich_transactions.py」のコードは、「enrich_transactions_expectation.py」のコードに差し替えてください。
2. ノートブック「02_不正データ追加」を “Run all” ボタンで実行してください。 ※ 「02_不正データ追加」のノートブックはワークショップ用のサンプルデータの生成を行うためのものなので、中身のコードを確認/理解する必要はありません。

結果として発生するエラー例どのデータが、どのルールに違反したかが詳細に表示されるグラフ上でエラー発生箇所がハイライト User_idの NULLチェックルールでの違反を確認ルール違反が発生したレコードの具体的な値等も表示
この販売履歴との結合時に顧客マスター側のレコードが NULLとなっている。ここから、顧客マスターに無い user_idが販売履歴に含まれているのでは？と推測できる。

作成したパイプラインを本番化する Lakeﬂow Jobs

Serverless LAKEFLOW Jobs データとAIのための信頼性の高いオーケストレーション Scheduled Continuous File arrival
Table update Triggers Observability Control Flow ETL ML/AI Analytics/BI

Lakeﬂow Jobs のタスクタイプや制御フロータスクを選択し、制御フローを作成し、Jobsのデータトリガーを定義する Databricks Notebooks Python Scripts Python Wheels
SQL Files/ Queries DLT dbt Java JAR ﬁle Spark Submit ジョブは 1 つ以上のタスクをまとめて管理可能タスク間に柔軟な制御フローを構築可能ジョブは柔軟なトリガー設定をサポート AI/BI Dashboards Manual Trigger Scheduled (Cron) API Trigger File Arrival Triggers Table Triggers Continuous (Streaming) Power BI Sequential Parallel Conditionals (If/else) Run Job (Modular) For each

Lakeﬂow Jobs の統合オーケストレーション • コード再利用や子ワークフローによる柔軟な設計 • ジョブパラメータをタスクに渡すことで動的制御を実現 •
タスク間で値を共有し効率的に連携 • Slack などと統合可能な Webhook をサポート • 遅延ジョブを検知し、ステークホルダーに自動通知する仕組み

③ 他参加者と重複しないジョブ名 (自身の氏名を含むもの等 ) を決め、入力する新規ジョブの作成 ① ワークスペース左側のメニューから
“Jobs & Pipelines” を開く ② “Create”の右側にあるプルダウンを開き、 ”Job” を選択

作成済パイプラインをタスクとして定義 ① “Add another task type” を選択 ② タスクタイプとして “ETL
Pipeline” を選択 ② タスク設定で作成済みのパイプラインを指定し、　必要に応じてリトライ設定や通知設定を入れる

ジョブをスケジュールする ① ジョブ画面右側の設定の　中から、 Add trigger を選択 ② トリガータイプを選択し、トリガータイプ毎の各種設定 (スケジュールや監視ディレクトリ等
)

ワークショップでカバーできなかった Lakeﬂow SDPの発展的な内容

モニタリング

パイプラインに関連する全ての情報を提供 • パフォーマンスメトリクス • データ品質チェック結果 • パイプラインの実行状況 • データリネージ •
エラーの詳細イベントログはパイプラインのUI上だけでなく、テーブルとして蓄積されるので、複数のパイプライン横断での分析や過去のログを含めた時系列での分析等も容易イベントログパイプラインで起きたこと全てを自動で記録し、様々な分析に活用可能

ダッシュボードとの組み合わせイベントログから分かるパイプラインの重要なメトリクスをダッシュボード化 Lakeﬂow SDP イベントログ AI/BI ダッシュボード

イベントログの活用例多数のパイプラインのパフォーマンス情報を横断で収集し、処理時間やデータ量の統計を可視化。優先的にチューニングを行うべきパイプラインを特定。過去の実行も含めてパイプラインで発生したデータ品質ルール違反をルール別に時系列分析し、特に多いデータ品質問題のパターン、その推移を可視化する。
多数のパイプラインについてエラークラス毎のエラー発生件数等を集計、可視化、運用工数削減のために注力すべきエラーケースを特定する。パフォーマンス分析データ品質の時系列分析エラー発生件数パイプラインで起きたこと全てを自動で記録し、様々な分析に活用可能パイプライン 1 ・・・パイプライン 2 パイプライン 3

CI/CD対応

Databricks Asset Bundles と組み合わせる開発環境と本番環境の整合性を保ってCI/CDを回すためにはほぼ必須よくあるご要望： Declarative Pipelinesのコードも GitHub等のリポジトリで管理できるか？ A.
Gitフォルダをルートフォルダとして使用する等して、簡単にリモートリポジトリと連携可能。ただしDeclarative Pipelinesを構成しているのはソースコードのみではなく、様々な設定が存在

Databricks Asset Bundles と組み合わせる開発環境と本番環境の整合性を保ってCI/CDを回すためにはほぼ必須パイプライン設定ルートフォルダ以下のアセット (ソースコード含む) ＋パイプライン
開発環境 GitHub等のリモートリポジトリルートフォルダ以下のアセット (ソースコード含む) パイプライン設定ルートフォルダ以下のアセット (ソースコード含む) ＋パイプライン本番環境同期コード編集設定変更設定は変更前のまま同期設定差異

Databricks Asset Bundles と組み合わせる開発環境と本番環境の整合性を保ってCI/CDを回すためにはほぼ必須パイプライン設定 ( DABでコード化 ) ルートフォルダ以下のアセット
(ソースコード含む) ＋パイプライン開発環境 GitHub等のリモートリポジトリパイプライン設定 ( DABでコード化 ) ルートフォルダ以下のアセット (ソースコード含む) ＋パイプライン本番環境同期コード編集設定変更パイプライン設定 ( DABでコード化 ) ルートフォルダ以下のアセット (ソースコード含む) 設定も一致

LDP + DAB の標準ディレクトリ構成 LDPルートフォルダ以下のコードと、DABのコードを同じリポジトリで管理ルートフォルダ (パイプライン名と同じ ) ソースコードフォルダ transformations
explorations utilities my_pipeline.yml my_job.yml databricks.yml Gitフォルダ resources 開発/本番等の環境によって異なるパラメータを定義パイプライン設定を yamlコード化したものジョブ化する場合はこちらも作成 LDPルートフォルダ以下のコード (+ ジョブ化する場合はその DABファイル等も加える ) DABのファイル

外部システムへのデータ連携

外部の読み取りクライアントとの互換性 LakeFlowで加工したデータはDatabricks以外のツールからも読み取り可能外部のDelta/Icebergリーダー向けに、あらゆるLakeﬂow宣言型パイプラインのデータセットをクローンダウンストリームシステムとの互換性のための手動でのエクスポートが不要に Lakeﬂow Declarative
Pipelines

Appendix

ノートブックデータ分析、ETL、機械学習、アプリ開発まで行える万能インターフェイスマルチ言語対応 SQL / Python / R / Scala
リアルタイム共同編集柔軟なクラスター管理処理や負荷に応じたスペック選択サーバーレスオプション開発者フレンドリー生成AIアシスタントによる支援、自動履歴保存、Git連携、変数の表示、デバッグ etc. 機能紹介 1/6

ジョブノートブックをはじめとした様々な処理をジョブとして実行可能多様なタスクノートブック、SQL、Python、JAR、DLT、 dbt Core、ダッシュボード、Power BIなど機能紹介 2/6
多様なトリガースケジュール、ファイル到着、テーブル更新、手動 (GUI/CLI/API/SDK) 柔軟なジョブ定義パラメーター渡し、他のジョブ呼び出し、制御 (If-Else/For-Each) 低コストクラスター実行料金以外の追加料金なし

SQLウェアハウス高性能・低コストなSQLとBIの実行基盤 SQL & 組み込みの BI SQLエディタ、SQLノートブック、ダッシュボード、Genieの実行基盤主要BIツールからの接続性 Power
BI / Tableau / Looker etc. JDBC / ODBC接続をサポートアドバンスドな機能ユーザー定義関数 / AI (LLM) 関数フェデレーションクエリ(Snowﬂake / BigQuery / Redshift / 各種RDB etc.) 機能紹介 3/6

機械学習実験から本番運用まで MLOpsをワンストップで実現ライフサイクル管理実験管理、モデル管理、サービング、モニタリングまで一気通貫でサポートリアルタイム推論本番環境グレードのサーバーレスのリアルタイム推論エンドポイント LLM機能
カスタムLLMの構築・Fine Tuning AIエージェントの開発から評価まで機能紹介 4/6 AutoML ノーコードで迅速なモデル開発生成されたノートブックでさらに改善

Databricks Apps セキュアなデータ & AIアプリを迅速に構築機能紹介 5/6 シンプルにアプリを構築可能使いなれたPythonフレームワークを用いて
アプリを素早く構築、実行できる。用意されたPython テンプレートから選択も可能本番環境対応 Gitバージョン管理、CI/CDサポートにより本番環境対応のアプリケーションを実行可能セキュリティとガバナンス Unity Catalog、OIDC/OAuth 2.0とSSOによるセキュアなユーザー認証を提供

Agent Bricks (ベータ) ローコードでAIエージェントを構築 AIエージェント作成 Databricksの機能やLLMと連携し一般的な AIユースケース向けのドメイン固有の AIエージェントシステムを作成可能シンプルなローコードドメイン固有のAIエージェントシステムを
簡単に構築・最適化できる環境を提供技術的な実装の複雑を軽減機能紹介 6/6 Databricks上に構築セキュリティやガバナンス、データ取込、ベクトル検索、品質評価などDatabricksの各種機能とシームレスに連携

参考：ノートブック vs ファイル Declarative Pipelines のソースコードにはファイルの利用を推奨 Q. Declarative Pipelines のコードをノートブックに記述し、パイプラインとして実行することは
可能か？ A. 可能。ただし、Declarative Pipelinesではノートブック本来の利点であるセル毎の実行、インタラクティブな実行等ができないため、ノートブックを使用する意義が薄い。 Q. ファイルでしか出来ない操作、機能はあるか？ A. ファイル単位での実行はノートブックの場合は実行できない。また、ソースコードフォルダ内で新規ファイルを作成する際にはノートブックは直接作成できず、ソースコードフォルダ外で一度ノートブックを作成してからソースコードフォルダ内に移動するといった余計な操作が必要となってしまう。

参考：ノートブック vs ファイル Declarative Pipelines のソースコードにはファイルの利用を推奨新規ファイルの作成ソースコードフォルダ内では
Notebookが直接作成できないソースコードフォルダ外ではNotebookも作成できるが、パイプラインとして実行するにはソースコードフォルダを移動させる必要があるファイル単位での実行ファイルの場合、単体での実行が可能ノートブックの場合、セル単位や単一ノートブックのみでの実行はできない

Onceオプションによるバックフィルのメリット • 分離の原則：通常処理とバックフィル処理は取り込みや加工方法が異なる場合が多いため、明確に区別した方が管理しやすい。 • 監査証跡：パイプラインのグラフとコードにはバックフィルフローの明確な監査証跡が残る。
• 処理最適化：大規模なバックフィルフローを複数に分割し、並列化することが非常に容易。 Onceオプションとは？ • onceオプションを trueにしたフローは、「正確に 1度だけ実行される」 • パイプラインをフルリフレッシュ (全データの再処理 ) を行った場合も 1回だけ実行される “once” オプションでバックフィルを容易に通常の処理フローと異なるフローも統合管理バックフィルが必要になる典型的なケース • 上流データソースのデータ品質問題により、データの一部を再処理する • 今まで扱っていなかった過去データを一括で取り込みたい • データの加工 /分析要件が変更され、今後のデータだけでなく、これまで処理済みのデータも遡及的に再処理したい @dp.append_flow(once = true) def backfill_flow(): return ( spark.read….. )

不正データの修正 (顧客マスター欠落 ) 上流データベース担当との確認と、正しい変更履歴の入手顧客情報を管理している上流データベースの担当者に確認したところ、最新の顧客の変更履歴ファイルから欠落したデータがあったことが判明しました。欠落したデータを翌日の変更履歴ファイルにマージしてもらうこともできますが、分析者がいるビジネス部門からの要望で、それを待たずにすぐ正常なデータを提供することにしました。そこで欠落データだけが入った追加の変更履歴ファイルを
上流DBの担当者から受領し、以下のディレクトリに格納しました。 “/Volumes/{カタログ名 }/{スキーマ名 }/raw_data/users_backﬁll/”

顧客マスターを取り込む通常のフローには触らず、バックフィル専用のフローをonce=trueで追加する。 Auto CDC による差分更新のフローを作る顧客マスターの取り込み（ファイル名：backﬁll_users.py）顧客マスター (users) ストリーミングテーブルパイプライン
上流データソース顧客マスター変更情報顧客マスター変更情報 (追加) クラウドストレージ A クラウドストレージ B バックフィルフロー

顧客マスターのバックフィルを実行・結果確認バックフィルフローの高度を作成したら、　　　　　　で実行してください。今度は処理は成功し、追加のレコードが各テーブルに出力されます。

• ワークショップで使用可能なワークスペースの準備 (既存でもOK) • 使用するワークスペースのプレビュー機能管理画面から、以下のプレビュー機能を有効化。 ◦ Lakeﬂow Jobs UI ◦
Lakeﬂow Pipelines Editor • ワークショップ用のカタログを 1つ作成。参加者全員で1つのカタログを共有する想定。カタログ作成時は、 Storage Locationに対して参加者が使用して良い外部ロケーションを設定する。 (参加者個々でスキーマを作成する際、外部ロケーションの作成が必要となることを避けるため) • ワークショップ参加者のユーザー作成 • ワークショップ参加者を使用するワークスペースへ割り当て、以下のエンタイトルメントを付与 ◦ Workspace access ◦ Databricks SQL access ◦ Unrestricted cluster creation • ワークショップ参加者に対し、以下の権限を付与 ◦ カタログ： CREATE SCHEMA, USE CATALOG • ワークショップ参加者自身によるワークスペースへのログイン確認管理者様で必要な事前準備

Databricks Lakeflow クイックワークショップ / lakeflow-work...

Databricks Lakeflow クイックワークショップ / lakeflow-workshop

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript