Lakeflow - Spark Declarative Pipelines って知ってますか？

Lakeﬂow Spark Declarative Pipelines って知ってますか？ Japan Lakeﬂow Task Force Team
2026年 2月版

スピーカー Akihiro Kuwano / 桑野章弘経歴 ▪ 道玄坂緑
会社B2C企業でインフラエンジニアとしてキャリアや、目黒オレンジ会社パブリッククラウドベンダーでソリューションアーキテクトとしてキャリアを重、現在京橋ブロック会社でソリューションアーキテクトをしています！ ▪ B2C企業担当ソリューションアーキテクトとして様々な案件において技術支援を実施しております！ Databricks Japan 株式会社 Solutions Architect

アジェンダ • データエンジニアリング課題 • これってもっと簡単にならんでしたっけ？ • Lakeﬂow Spark
Declarative Pipeline「できらぁ！」 • でなにが、できらぁ！なんだ？ • 今日から始めるSDP

データエンジニアリング課題

データエンジニアリングって楽しい！ • 元なんだかわからなかったデータをどんどん価値あるデータにできる • 定義したパイプラインが動いてまるでパズルみたいに理路整然と動くをみるが嬉しい気がする • 会社
意思決定ため部品作るということ • 様々なテクノロジーを使ってそれを実現する事ができる

そう、楽しいんすよ

でも、、、

データエンジニアリングって辛い！ • 動いて当たり前、止まったら、、、 • 上流気まぐれに振り回される辛さ • 秘伝タレ状態 •
本質的じゃない作業をし続けないといけないこともある

そう、辛いんすよ！

何がつらい？ • 依存関係 • Aテーブルが更新されたらBを動かす、という設定をワークフローや、Jobスケジュールで手動管理するが辛い • バッチ？ストリーミング？ •
結局同じ様な処理をバッチとストリーミングで分けて書かないといけないが辛い • やりたい事までが遠い • リトライ処理、チェックポイント管理、スキーマ進化対応など、本来やりたいデータ変換以外（でも大事）コードが大半を占めているが辛い

これってもっと簡単にならんでしたっけ？

これってもっと簡単にならんでしたっけ？ • いつも、決まったコード何度も書く大変 • 依存関係を紐解いて綺麗なデータにしていく大変
• 作るも大変、後片付けも大変 • 環境ごとに処理を変えるも大変

私、、、贅沢言ってますか？

Lakeﬂow Spark Declarative Pipeline 「できらぁ！」

そんな世界が、、、あるんです

クエリから本番環境まで苦労 SQLクエリを信頼性高いETLパイプラインに変換するために必要な作業 CREATE TABLE raw_data as SELECT
* FROM json.`…` CREATE TABLE clean_data as SELECT … FROM raw_data 依存性管理日々パーテション計算チェックポイント＆再試行クオリティチェックガバナンスデータディスカバリバックフィルハンドリングバージョン管理インフラ環境デプロイ

運用複雑さが支配的時間が変換でなくツール作りに費やされている CREATE TABLE raw_data as SELECT
* FROM json.`…` CREATE TABLE clean_data as SELECT … FROM raw_data 依存性管理日々パーテション計算チェックポイント＆再試行クオリティチェックガバナンスデータディスカバリバックフィルハンドリングバージョン管理インフラ環境デプロイ

どこに時間を集中させるべき？データから価値を引き出すにどうしたらいい？ Dependency Management Daily Partition Computation Checkpointin
g & Retries Quality Checks Governance Data Discovery Backﬁll Handling Version Control Deployment Infrastructure CREATE TABLE raw_data as SELECT * FROM json.`…` CREATE TABLE clean_data as SELECT … FROM raw_data

Unity Catalog Repos Databricks Workﬂows Spark Declarative Pipelines 紹介 SDPを使用するだけで、クエリから本番パイプラインまでを一気通貫に処理が可能になる
CREATE STREAMING TABLE raw_data as SELECT * FROM cloud_files(…) CREATE MATERIALIZED VIEW clean_data as SELECT … FROM LIVE.raw_data 依存性管理インクリメンタル計算チェックポイント＆再試行 Expectations フル更新 Lakeflow Spark Declarative Pipelines

Lakeflow Spark宣言型パイプラインと ? ETL処理ため「手順」を書くをやめ、「理想」を定義する Lakeflow SDP 、シンプルな宣言型アプローチ
で信頼性高いデータパイプラインを構築する、ETLフレームワークです。Lakeflow SDP インフラストラクチャを自動管理し、データアナリストやエンジニアツールに費やす時間を削減、データから価値を引き出すことに集中できらぁ！ ETL開発を加インフラストラクチャを自動管理データへ信頼を確保バッチとストリーミングを簡素化 https://www.databricks.com/jp/product/data-engineering/spark-declarative-pipelines

できらぁ！

Declarative Pipelines 主な構成要素これらをコード中でブロックように組み合わせ、パイプラインを作成

ストリーミングテーブル (ST) 技術的な特徴 • Append-onlyなデータ取り込み / 変換専用テーブル • 各入力レコード
1回だけ処理 (Exactly-Once) • 上流データが既に取り込み済みレコード再処理行われない（ただし、Full Refreshを行うと全レコードを再処理） Append-onlyなデータ取り込み / 変換基本的な作成方法 <SQL 場合> CREATE OR REFRESH STREAMING TABLE basic_st AS SELECT * FROM STREAM samples.nyctaxi.trips; <Python 場合> from pyspark import pipelines as dp @dp.table(name = "trips_st") def basic_st(): return spark.readStream .table("samples.nyctaxi.trips")

マテリアライズドビュー (MV) 技術的な特徴 • 結果を事前計算、キャッシュするビュー • 上流データ変更/削除に追随して結果が最新化される • 全データを再処理する
と同じ最新結果を担保しつつ、内部で可能な限り増分的に処理する • 指定した間隔で上流データと同期変更や削除も含め、常に最新結果を反映基本的な作成方法 <SQL 場合> CREATE OR REFRESH MATERIALIZED VIEW basic_mv AS SELECT * FROM samples.nyctaxi.trips; <Python 場合> from pyspark import pipelines as dp @dp.materialized_view(name = "trips_mv") def basic_mv(): return spark.read .table("samples.nyctaxi.trips")

Append フローデータソースに追加された新しいデータ(ファイル、レコード) みを処理し、ターゲットに追記(Append)するフローストリーミングテーブルやマテリアライズドビューにデータを取り込む基本的な作成方法 (明示的に作成する場合 ) <SQL
場合> CREATE FLOW customers_silver AS INSERT INTO customers_silver BY NAME SELECT * FROM STREAM(customers_bronze); <Python 場合> from pyspark import pipelines as dp @dp.append_flow(target = "customers_silver") def customer_silver(): return spark.readStream.table("customers_bronze") ※ 上記例で、customer_silverというストリーミングテーブルが予め作成されているもとする • マテリアライズドビューやストリーミングテーブルをデータ取得クエリを含める形で作成した場合、暗黙的にAppendフローが作成されている • 明示的に作成したフロー、ストリーミングテーブルまたシンク(後述) みをターゲットとすることができる • 複数フローからターゲットを、同一ストリーミングテーブルに指定することもできる

Auto CDC フローデータソース Change Data Feed (CDF)を使用して、ターゲットテーブルを差分更新する。追記だけでく更新、削除を含む。
Change Data Feed (CDF)を使用した差分更新基本的な作成方法 <SQL 場合> CREATE FLOW target_flow AS AUTO CDC INTO target FROM stream(cdc_data.users) KEYS (userId) APPLY AS DELETE WHEN operation = "DELETE" SEQUENCE BY sequenceNum COLUMNS * EXCEPT (operation, sequenceNum) STORED AS SCD TYPE 2; <Python 場合> dp.create_auto_cdc_flow ( target = "target", source = "users", keys = ["userId"], sequence_by = col("sequenceNum"), apply_as_deletes = expr("operation = 'DELETE'"), except_column_list = ["operation", "sequenceNum"], stored_as_scd_type = "2" ) ※ 上記例で、targetというストリーミングテーブルが予め作成されおり、usersにソース CDF情報が格納されているいるもとする。 • Append フローと異なり、Auto CDC フロー必ず明示的に作成する必要がある • Auto CDC フローターゲットとして指定できる、ストリーミングテーブルみ • Append フロー同様、複数フローからターゲットを同一ストリーミングテーブルに指定することもできる • 同一キーを持つレコードに対して上流から複数レコードが到着した場合順序判断や、 SCD Type 1 / Type 2 どちらで更新するか等、差分更新動作をコントロールするパラメータが用意されている

Auto CDC による SCD Type 2 容易な実現 SCD Type 2
実装上煩雑さを排除し、シンプルなAPIで実現 userId name city operation sequence 123 Isabel Monterrey INSERT 2025/1/10 5:00 123 null null DELETE 2025/3/1 2:00 125 Mercedes Guadalajara UPDATE 2025/3/1 2:00 ・・・・・・・・・・・・・・・ Sourceから CDF (Change Data Feed) userId name city 123 Isabel Chihuahua 124 Raul Oaxaca 125 Mercedes Guadalajara 126 Lily Cancun Sourceからスナップショット userId name city __START_AT __END_AT 123 Isabel Monterrey 2025/1/10 5:00 2025/2/20 9:00 123 Isabel Chihuahua 2025/2/20 9:00 2025/3/1 2:00 124 Raul Oaxaca 2025/1/10 5:00 null 125 Mercedes Tijuana 2025/1/25 8:00 2025/2/20 9:00 125 Mercedes Mexicali 2025/2/20 9:00 2025/3/1 2:00 125 Mercedes Guadalajara 2025/3/1 2:00 null 126 Lily Cancun 2025/1/25 8:00 null OR SDPが提供する Python/SQL API create_auto_cdc_flow() また create_auto_cdc_from_sn apshot_flow() 前ページの例のような様々なケースに対応するための処理を実装済み • ソートキーの指定 • NULL列の扱い • DELETEの挙動指定 • TRUNCATEの挙動指定 • 追跡対象の列指定 • SCD Typeの指定

シンク ST/ MV以外形式でデータを書き出す LDPで加工したデータをDatabricks外様々なシステムで使用可能にするため、ST / MV以外形式でデータを書き出す。
シンクで対応可能な書き出し先 / 形式 • Delta テーブル • Apache Kafka • Azure Event Hubs • Python カスタムデータソース • 任意書き込み先/形式をカスタム実装可能基本的な作成方法 (Kafkaをシンクにする例) <Python> credential_name = "<service-credential>" eh_namespace_name = "dp-eventhub" bootstrap_servers = f"{eh_namespace_name}.servicebus.windows.net:9093" topic_name = "dp-sink" dp.create_sink ( name = "eh_sink", format = "kafka", options = { "databricks.serviceCredential": credential_name, "kafka.bootstrap.servers": bootstrap_servers, "topic": topic_name } ) @dp.append_flow(name = "kafka_sink_flow", target = "eh_sink") def kafka_sink_flow(): return ( spark.readStream .table("spark_referrers") .selectExpr("cast(current_page_id as string) as key", "to_json(struct(referrer, current_page_title, click_count)) AS value") )

リアルタイム性が必要な場合、MVでなく通常ビューも選択肢パイプライン中で ST / MV
使い分け上流データソース種類/更新性質と、変換処理内容によって選択 • クラウドストレージ：新規ファイル追加み • メッセージバス (Kafka / Kinesis / Event Hubs / etc.) • Append-only テーブル (Federation 接続した外部テーブル、 Databricksマネージドテーブル ) データソース Bronze Silver Gold • ストリーミングテーブル • CDFがあるデータソース • クラウドストレージ：既存ファイル上書きあり • マテリアライズドビュー • 更新/削除があるテーブル (Federation接続した外部テーブル、 Databricksマネージドテーブル ) ストリーミングテーブルマテリアライズドビューマテリアライズドビューストリーミングテーブルマテリアライズドビュー Append フロー Auto CDC フロー Append フロー Append フロー(暗黙) Append フロー(暗黙) Append フロー(暗黙) Append フロー(暗黙) フィルタリング、カラム追加等レコード単位変換み場合上流がMV 場合 Auto CDC フロー集計処理パイプライン外にある上流データ生データ保存整形、結合等を行ったデータ (集計無し) 個々分析用途に合わせて集計された結果シンク外部システム向けに ST/MV以外任意形式で書き出したい場合

で何が、できらぁ！なんだ？

実現できること • バッチとストリーミングを同じ構文で統一的に記述 • CDC（Change Data Capture）順序保証つきUPSERT・DELETEを宣言的に処理 • データ品質チェック（NULLチェック・バリデーション）をコードに宣言として埋め込む
• 1つソースから複数テーブルへ分岐（ファンアウト）をチェックポイント手動管理なしに実現 • 遅延データウォーターマーク処理とウィンドウ集計を1つ定義で書ける • パス・リソース設定など環境依存部分をConﬁgurationとして外出しし、コードを環境非依存に • パイプライン全体依存関係を自動解決・管理 • 障害時リカバリやリトライを自動で処理

いっいある

よくある？パターン • バッチとストリーミングを同じ構文で • データ品質チェックを宣言的に • CDCで順序保証つきUPSERTを行いたい • ファンアウト(1ソースから複数テーブルへ分岐)
• 遅延データウォーターマーク処理

バッチとストリーミングを同じ構文で • SDP で、spark.read（バッチ）か spark.readStream（ストリーミング）かを切り替えるだけで、デコレータ同じ @dp.table() /
@dp.materialized_view() を使う • 「どこに書くか」「どう管理するか」自動 readかreadStreamか選ぶだけ # ストリーミング取り込み（ Streaming Table） @dp.table() def bronze_events(): return spark.readStream.format("cloudFiles") \ .option("cloudFiles.format", "json") \ .load(spark.conf.get("source_path")) # バッチ集計（ Materialized View） @dp.materialized_view() def silver_summary(): return spark.read.table("bronze_events") \ .groupBy("user_id") \ .sum("amount")

データ品質チェックを宣言的に amount がNullじゃないか 0 以上データだけを対象にしたい # 手動バリデーション df =
spark.read.table("bronze_events") invalid = df.ﬁlter("amount IS NULL OR amount < 0") if invalid.count() > 0: raise Exception(f"Invalid records found: {invalid.count()}") df.ﬁlter("amount IS NOT NULL AND amount >= 0").write.saveAsTable("silver_events") # expectで宣言的に書ける (Python) @dp.table() @dp.expect_or_drop("valid_amount", "amount IS NOT NULL AND amount >= 0") def silver_events(): return spark.readStream.table("bronze_events") SDPだと? # expectで宣言的に書ける (SQL) CREATE OR REFRESH STREAMING TABLE silver_events CONSTRAINT valid_amount EXPECT (amount IS NOT NULL AND amount >= 0) ON VIOLATION DROP ROW AS SELECT * FROM STREAM(bronze_events);

ファンアウト (1ソースから複数テーブルへ分岐 ) 細かいストリームごと管理など必要なし／もちろん細かくもできる # ソースを複数回読む or
キャッシュして分岐 df = spark.readStream.format("cloudFiles") \ .option("cloudFiles.format", "json") \ .load("s3://bucket/events/") df.cache() # 各テーブルごとに個別 writeStreamを管理 df.filter("event_type = 'purchase'") \ .writeStream \ .option("checkpointLocation", "/checkpoints/purchases") \ .toTable("silver_purchases") df.filter("event_type = 'click'") \ .writeStream \ .option("checkpointLocation", "/checkpoints/clicks") \ .toTable("silver_clicks") df.filter("event_type = 'error'") \ .writeStream \ .option("checkpointLocation", "/checkpoints/errors") \ .toTable("silver_errors") @dp.table() def silver_purchases(): return spark.readStream.table("bronze_events").filter("event_type = 'purchase'") @dp.table() def silver_clicks(): return spark.readStream.table("bronze_events").filter("event_type = 'click'") @dp.table() def silver_errors(): return spark.readStream.table("bronze_events").filter("event_type = 'error'") SDPだと?

遅延データウォーターマーク処理めんどくさいウォーターマーク処理もシンプルに # ウォーターマーク設定 df = spark.readStream \
.table("bronze_events") \ .withWatermark("event_time", "30 minutes") # ウィンドウ集計 windowed = df.groupBy( window(col("event_time"), "10 minutes"), col("user_id") ).agg(sum("amount").alias("total")) def write_with_merge(batch_df, batch_id): batch_df.createOrReplaceTempView("updates") spark.sql(""" MERGE INTO gold_summary t USING updates s ON t.user_id = s.user_id AND t.window = s.window WHEN MATCHED THEN UPDATE SET total = s.total WHEN NOT MATCHED THEN INSERT * """) windowed.writeStream \ .foreachBatch(write_with_merge) \ .option("checkpointLocation", "/checkpoints/windowed") \ .outputMode("update") \ .start() CREATE OR REFRESH MATERIALIZED VIEW gold_summary AS SELECT window(event_time, '10 minutes') AS window, user_id, SUM(amount) AS total FROM STREAM(bronze_events) WITH WATERMARK ON event_time DELAY OF 30 MINUTES GROUP BY window(event_time, '10 minutes'), user_id; SDPだと?

CDCで順序保証つき UPSERTを行いたい CDC用関数が用意されています def upsertToDelta(microBatchOutputDF: DataFrame, batchId: Long) {
microBatchOutputDF .groupBy("key") .agg(max_by("ts", struct("*")).alias("row")) .select("row.*") .createOrReplaceTempView("updates") microBatchOutputDF.sparkSession.sql(s""" MERGE INTO cdc_data_raw t USING updates s ON s.key = t.key WHEN MATCHED AND s.is_delete THEN UPDATE SET DELETED_AT=now() WHEN MATCHED THEN UPDATE SET A=CASE WHEN s.ts > t.ts THEN s.a ELSE t.a, B=CASE WHEN s.ts > t.ts THEN s.b ELSE t.b, ... for every column ... WHEN NOT MATCHED THEN INSERT * """) } cdcData.writeStream \ .foreachBatch(upsertToDelta) \ .outputMode("update") \ .start() CREATE OR REFRESH STREAMING TABLE cdc_data; CREATE FLOW cdc_ﬂow AS AUTO CDC INTO cdc_data FROM STREAM(source_data) KEYS (id) SEQUENCE BY ts APPLY AS DELETE WHEN is_deleted; SDPだと?

めちゃくちゃ便利じゃないです？

今日から始める SDP

Lakeﬂow Pipelines Editor Lakeﬂowを使ったデータエンジニアリング専用 ”IDE” 複数ファイルタブ切替コードファイル管理パイプライン
設定 & 実行テーブル自動可視化テーブルプレビューパフォーマンス /メトリクスエラー調査効率的な開発 /デバッグため部分的実行

今日から試してみましょう！ • こんなパイプラインエディタもあります！ • パイプライン（ETLパイプライン）を作成をすれすぐじめられる！ • ワークフロー 1タスクとしてパイプラインを設定することもできます！

まず 1処理、SDP にしてみませんか？

Lakeflow - Spark Declarative Pipelines って知ってますか？

Lakeflow - Spark Declarative Pipelines って知ってますか？

More Decks by Akihiro Kuwano

Other Decks in Technology

Featured

Transcript