Databricks Free Editionで始めるLakeflow SDP

©2026 Databricks Inc. — All rights reserved Lakeﬂow Spark 宣言型パイプライン
1 初めてのLakeﬂow SDP 2026/2/3 Taka Yayoi

ご参加いただきありがとうございます。まもなくセッションを開始します。 #jedai #databricksでつぶやこう！ 2

©2026 Databricks Inc. — All rights reserved 自己紹介弥生隆明
(やよいたかあき) シニアスペシャリストソリューションアーキテクト ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事 ▪ 生成AI、データエンジニアリング、アプリが専門領域です。 ▪ 前職はコンサル、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ Databricks Certiﬁed (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 3 @taka_aki

はじめる前に • もくもく会なので基本的には皆様に「もくもく」とDatabricksに触っていただきます。途中退出、途中入場は自由です。 • 途中の質問はZoomのチャットにお願いします。 • 会の様子を録画させていただきます。後ほど参照できるようにYoutubeにアップロードする予定です。 •
もくもく会の後の質問はDiscordでお願いします。 ◦ https://discord.gg/WHk2Nssq 4

アジェンダ • Lakeflow Spark宣言型パイプライン(SDP)の概要 • SDPのコアコンセプト • もくもく会 5

データエンジニアリングとはデータエンジニアリングとは、様々なソースやフォーマットで提供される生のデータを収集、分析できるようにするシステムの設計、構築に関するプロセスを意味します。このようなシステムによって、ユーザーはビジネスの成長につながる実践的なデータアプリケーションを作り出すことが可能となります。 6
What Is Data Engineering? 分析などでデータを活用できるようにするための営みです

ETLとは Extract(抽出)、Transform(変換)、Load(ロード)から構成される処理です 7 ソースシステムターゲット ETLプロセス

ETL処理の実装アプローチ 8 ETL処理を実装する方法は大きく2つあります命令型（PySpark）「どうやって処理するか」をステップバイステップで記述 df = spark.read.csv(...) df =
df.filter(...) df.write.saveAsTable(...) ✓ 柔軟性が高い ✓ デバッグしやすい △ コード量が多い △ 運用が大変宣言型（Lakeflow SDP）「何が欲しいか」を宣言し、実行方法はシステムにお任せ @dp.table def silver_data(): return dp.read("bronze") ✓ 簡潔 ✓ 自動で依存関係解決 △ 細かい制御が難しい今回は宣言型にフォーカスします

Lakeﬂow Spark 宣言型パイプライン Spark Declarative Pipelines(SDP) 9

すべては良いデータから生成AI データサイエンスビジネスインテリジェンス分析アプリ 10

断片化されたスタックでは、質の高いデータを提供することが困難になりますガバナンスの欠如複雑性貧弱な信頼性コンプライアンス、セ
キュリティ、品質のリスクボトルネック化したチーム本番環境でのパイプラインの問題 11

Lakeﬂow はデータエンジニアリングを統合します 12

統合されたアプローチにより、データチームは信頼性の高いデータを提供できるようになります統合ガバナンスシンプルさ高い信頼性リスクの低減
価値実現を迅速に本番運用レベルのパイプライン 13

データインテリジェンスプラットフォーム Lakeﬂow データインテリジェンスプラットフォームに組み込まれたE2Eのデータエンジニアリング 14

統合単一のソリューション合理化シンプルなETL開発効率的インクリメンタルバッチ、ストリーム Lakeﬂow 取り込み変換オーケストレート
クラウドストレージメッセージキューデータベース企業アプリケーションデータインテリジェンスプラットフォームデータウェアハウスビジネスインテリジェンス AI / ML データ共有 Lakeﬂowはすべての人にとってのデータエンジニアリングの未来です 15

取り込み変換オーケストレート Connect Spark 宣言型パイプラインジョブ統合データエンジニアリング Lakeﬂow
16

取り込み変換オーケストレート Connect Spark 宣言型パイプラインジョブ Lakeﬂow 統合データエンジニアリング
17

Lakeflow Spark宣言型パイプラインとは ? ETL処理のためのモダンなソフトウェアエンジニアリング Lakeflow SDPは、シンプルな宣言型アプローチを使用して信頼性の高いデータパイプラインを構築する、初のETLフレームワークです。Lakeflow SDPはインフラストラクチャを大規模に自動管理するた
め、データアナリストやエンジニアはツールに費やす時間を削減し、データから価値を引き出すことに集中できます。 ETL開発を加速インフラストラクチャを自動管理データへの信頼を確保バッチとストリーミングを簡素化 https://www.databricks.com/jp/product/data-engineering/spark-declarative-pipelines 18

宣言型パイプラインによるプログラミングどう行うかではなく、何を行うべきかを記述宣言型パイプラインプログラム def upsertToDelta(microBatchOutputDF: DataFrame, batchId: Long) { microBatchOutputDF
.groupBy("key") .agg(max_by("ts", struct("*").alias("row")) .select("row.*") .createOrReplaceTempView("updates") microBatchOutputDF.sparkSession.sql(s""" MERGE INTO cdc_data_raw t USING updates s ON s.key = t.key WHEN MATCHED AND s.is_delete THEN UPDATE SET DELETED_AT=now() WHEN MATCHED THEN UPDATE SET A=CASE WHEN s.ts > t.ts THEN s.a ELSE t.a, B=CASE WHEN s.ts > t.ts THEN s.b ELSE t.b, … for every column … WHEN NOT MATCHED THEN INSERT * """) } cdcData.writeStream .foreachBatch(upsertToDelta _) .outputMode("append") .start() AUTO CDC INTO cdc_data FROM source_data KEYS (id) SEQUENCE BY ts APPLY AS DELETE WHEN is_deleted Spark命令型プログラム 19

コアとなる概念 20

ひとことで言うと「前回から変わった部分だけ」を処理する方式フルリフレッシュ（全件処理） 📦📦📦📦📦 毎回すべてのデータを処理し直すデータ100万件 → 100万件処理インクリメンタル（差分処理） ⬜⬜⬜⬜📦
新しく追加されたデータだけ処理データ100万件 → 1000件だけ処理インクリメンタル処理とは？ 21

例：ECサイトの注文データ（ 1年分 = 1億件）フルリフレッシュ毎日1億件を処理 3時間コスト: 高い💸 インクリメンタル
今日の新規10万件だけ 2分コスト: 低い💰 ⏱ 処理時間の短縮 90倍高速化も可能 💰 コスト削減クラウド費用を大幅カット 🔄 更新頻度UP 日次→時次→リアルタイムなぜインクリメンタル処理が重要なのか？ 22 毎日のデータ更新を例に考えてみましょう

😰 命令型で自分で実装する場合「どこまで処理したか」を記録する仕組みが必要途中で失敗したらどこからやり直す？重複処理を防ぐロジックも必要テーブルごとに実装が必要で大変 ... 😊 Lakeflow SDPなら
進捗管理は自動でやってくれる失敗時のリカバリも自動重複排除も組み込み済み宣言するだけで自動的に差分処理！ Lakeflow SDPがインクリメンタル処理を簡単にしてくれるインクリメンタル処理の実装は難しい？ 23 自分で実装しようとすると、こんな問題が...

テーブルデータを物理的に保存 📦 ✅ クエリが速い ✅ データが永続化されるビュークエリの「定義」だけ保存 📝
✅ ストレージ不要 ❌ クエリのたびに計算前提確認：テーブルとビュー 24 一般的なデータベースの知識を確認

😓 差分処理が大変毎日追加されるデータ → 毎回全件処理し直す？ → 差分処理のコードは複雑 😓 順番の管理 Bronze
→ Silver → Gold → 依存関係の管理が面倒 → エラー時のリトライは？ 😓 データ品質不正データの混入 → チェック処理を自前実装 → 除外件数の記録は？テーブル保存は簡単。その周辺の管理が大変。課題：普通のテーブルで何が困る？ 25 PySparkの方法（df.write.saveAsTable）の問題点

命令型（Part 1）「どうやって作るか」を全部書く df = spark.read.table("src") df = df.filter("fare >
0") df.write.saveAsTable("tgt") + 差分処理 + エラー処理 + 品質チェック... → 宣言型（Part 2 / SDP）「何が欲しいか」だけ宣言 @dp.materialized_view() def silver(): return dp.read("bronze") ✅ 差分・依存関係・品質管理を自動化 SDPは「面倒な周辺管理」を引き受けてくれる仕組み SDPの解決策：「宣言するだけ」 26

マテリアライズドビュー 📦🔄 データ変換・集計・JOIN ほとんどの処理はこれで OK ストリーミングテーブル 📦🚀 ファイルの増分取り込み Autoloader と組み合わせる
迷ったら MV。ファイル取り込みには ST。 SDPでの2つのテーブル定義方法 27 用途に応じて使い分ける

一般的な概念（Oracle、PostgreSQLなどにも存在）：クエリ結果を保存したビュー普通のビュー 📝 → 🔄 → 結果クエリのたびに計算（遅い）マテリアライズドビュー 📦
→ 結果保存済みを読むだけ（速い） SDPでの追加機能 ✅ パイプライン実行時に自動更新　✅ 依存関係の自動解決　✅ データ品質管理マテリアライズドビュー（ MV）とは 28

Databricks固有の概念：Autoloaderでファイルを増分取り込みするためのテーブル典型的な使い方：クラウドストレージからの取り込み @dp.table() def bronze_data(): return (spark.readStream .format("cloudFiles") # Autoloader
.option("cloudFiles.format", "json") .load("/landing/zone/")) STのメリット新しいファイルだけを処理（高速・低コスト）主な用途 Bronze層でのデータ取り込みストリーミングテーブル（ ST）とは 29

典型的なパイプライン構成 Bronze ST ファイル取り込み → Silver → クレンジング ST Gold
MV 集計 MVとSTの使い分け 30 • 典型的なパイプライン構成では、Bronze層とSilver層をSTで、Gold層をMVで作ります。 • STはファイルの取り込みだけでなく、フィルタリング、型変換、カラム追加といった 1行が1行になる処理であれば続けて使えます。 • 集計（groupBy）やJOINが必要になったタイミングでMVに切り替えます。これは、STが「追加」しかできないのに対し、集計やJOINは既存の行を「更新」する必要があるためです。

パイプライン内部の中間処理用データを保存しない。パイプライン外部からアクセスできない。使う場面一時的な中間処理外部に公開したくないデータ制限 BIツールから見えないパイプライン実行中のみ存在 💡 誰かが使うテーブルは
MV か ST で作る。Viewは内部用。 (補足) ビューとは 31

マテリアライズドビュー @dp.materialized_view() def my_table(): return spark.read... 変換・集計・JOINに使用ストリーミングテーブル @dp.table() def
my_table(): return spark.readStream... Autoloaderでの取り込みに使用 @dp.materialized_view() = MV / @dp.table() + readStream = ST コードの書き方 32 from pyspark import pipelines as dp

すべてMVで実装します Bronze MV サンプルデータ読込 → Silver MV クレンジング → Gold
MV 日別集計なぜMVだけ？今回は既存のサンプルデータ（samples.nyctaxi.trips）を使うため、 Autoloaderでのファイル取り込みは不要 → すべてMVでOK 今回の実習 33

Lakeﬂow SDPでパイプライン構築がシンプルに 34

Lakeﬂowパイプラインエディタ 1. パイプラインアセットブラウザ 2. ステップバイステップの開発機能を備えたマルチファイルコードエディタ • ソフトタブ •
ガターアクション • インラインエラーインジケーター 3. インタラクティブDAG 4. データプレビュー 5. 実行インサイトパネル 1 2 3 4 5 35

データ品質エクスペクテーションの活用 • データエクスペクテーションにより、パイプライン内でデータ品質と整合性の制御を定義 • 柔軟なポリシーでデータ品質エラーに対処:
失敗、破棄、アラート、隔離(今後) • すべてのデータパイプライン実行と品質メトリクスが取得、追跡、報告されます /* Stage 1: Bronze Table drop invalid rows */ CREATE STREAMING TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "Bronze table with valid account ids" SELECT * FROM fire_account_raw ... 36

開発と本番迅速な反復開発またはエンタープライズグレードの信頼性開発(Development)モード • 長時間稼働するクラスターを再利用し、迅速な反復開発を実現 • エラー時のリトライなし
で、より高速なデバッグが可能 • エディタまたはオーサリングUI からトリガーされるパイプライン向け • 完了後すぐにクラスターをオフにしてコストを削減 (5分以内) • クラスターの再起動を含むエスカレーティングリトライにより、一時的な問題に対しても信頼性を確保 • スケジュールされたパイプライン向け本番(Production)モード 37

Databricksアシスタントアシスタントでストリーミングテーブルとマテリアライズドビューを生成 • データと分析タスク用のアシスタント • データとワークスペースのコンテキストから学習
• ユーザーがPythonおよび SQLコードの作成、デバッグ、説明、ドキュメント作成を支援 38

Lakeﬂow SDPでパイプライン管理がシンプルに 39

可観測性 • パイプラインに関連するすべての情報を包含 (データ品質チェック、進捗、リネージ) • 宣言型パイプラインUI、 API、またはDeltaテーブルとして直接
クエリで表示可能! 宣言型パイプラインのイベントログ 40

データガバナンス • 行/列レベルのセキュリティ • 複数のスキーマへの公開 • ストリーミングテーブルからの変更デー
タフィード • Hive Metastoreの移行をサポート Unity Catalog連携 # fully qualified CREATE MATERIALIZED VIEW catalog.schema.name # partially qualified CREATE MATERIALIZED VIEW schema.name # single part name CREATE MATERIALIZED VIEW name from pyspark import pipelines as dp @dp.table def table_name(): @dp.table(name="schema.name") def func(): @dp.table(name="catalog.schema.name") def func(): 41

データリネージエンドツーエンドのリネージ: ボリュームからパイプラインを経て特徴量ストアまで 42

デモ：Lakeﬂow SDPでのパイプライン作成 43

もくもく会 44

もくもく会 • 以下の記事に手順をまとめています。 ◦ Databricks Free Editionで始めるLakeﬂow SDP • ご自身のデータでいろいろ試していただいてもOKです。
45

実習ファイルの取り込み手順 46

Step 1: Gitフォルダを開く 1 左サイドバーのワークスペースをクリック 2 画面右上の作成をクリック 3
Git フォルダをクリック 47

Step 2: リポジトリ URLを入力 📋 コピー用URL: https://github.com/taka-yayoi/data_engineering_course ⚠ 注意: URLを入力するとフォルダ名は自動で「data_engineering_course」に。そのまま
Git フォルダを作成をクリック。 48

Step 3: ファイル構成を確認クローン後のフォルダ構成: 📁 data_engineering_course/ ├── 📄 README.md ├──
📁 notebooks/ │ ├── 📓 exercise_part1_imperative.py │ └── 📓 exercise_part4_jobs.py └── 📁 pipelines/ ├── 📄 pipeline_basic.sql └── 📄 pipeline_with_expectations.sql 各ファイルの用途: 演習1: 命令型ETL notebooks/exercise_part1_imperative.py → ノートブックを開いて Run All 演習2-3: SDP パイプライン pipelines/*.sql（リファレンス用） → パイプラインエディタで入力演習4: ジョブ設定 notebooks/exercise_part4_jobs.py → 参考資料（GUI操作中心） ✅ これで準備完了です。演習 2から始めましょう！ 49

演習2-3を開始する（パイプライン作成） 1 新規 → ETL パイプラインを選択 2 パイプライン名を入力（例 :
sdp_nyctaxi_pipeline） 3 カタログ=workspace / スキーマ=新規作成 4 空のファイルで開始、言語は SQL 5 エディタで SQL を入力して実行 📄 リファレンス : 完全なSQLは pipelines/pipeline_basic.sql を参照。演習3は pipeline_with_expectations.sql 50

Databricks Free Editionで始めるLakeflow SDP

Databricks Free Editionで始めるLakeflow SDP

More Decks by Takaaki Yayoi

Other Decks in Technology

Featured

Transcript