Databricks Free Edition講座データエンジニアリング編

Databricks Free Edition講座 Databricks Japan 弥生隆明 2026/1/15 データエンジニアリング編 1

自己紹介弥生隆明 (やよいたかあき) シニアスペシャリストソリューションアーキテクト ▪ 2020年からデータブリックス
ジャパンにおいて、プレセールス、POCに従事 ▪ 生成AI、データエンジニアリング、アプリが専門領域です。 ▪ 前職はコンサル、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ Databricks Certiﬁed (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Part 1: Sparkの基礎（90分） Apache Sparkとは Apache Sparkのアーキテクチャ DataFrameと変換処理 PySparkによる命令型ETL実装 Part
2: Lakeflow SDP（90分）宣言型パイプラインの概念コアとなる構成要素エクスペクテーション（データ品質） Lakeflowジョブによる自動化 Part 3: 実践演習（90分） NYC Taxiデータを使って命令型・宣言型の両方でETLパイプラインを構築本日のアジェンダイントロダクション : データエンジニアリングとは 2つの実装アプローチデータエンジニアリングとETLの基本 3

イントロダクション 4

ディザスターリカバリコストコントロールエンタープライズセキュリティ 100% サーバレスレイクハウス AI/BI ビジネスインテリジェンス Databricks
SQL データウェアハウス Lakeﬂow 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricksデータインテリジェンスプラットフォーム 5

データエンジニアリングとは 6

データエンジニアリングとはデータエンジニアリングとは、様々なソースやフォーマットで提供される生のデータを収集、分析できるようにするシステムの設計、構築に関するプロセスを意味します。このようなシステムによって、ユーザーはビジネスの成長につながる実践的なデータアプリケーションを作り出すことが可能となります。 7
What Is Data Engineering? 分析などでデータを活用できるようにするための営みです

データエンジニアリングとは企業の規模に関係なく、すべての企業が重要なビジネス上の質問に回答するために調査する必要がある膨大な量の様々なデータを所有しています。データエンジニアリングは、アナリスト、データサイエンティスト、エグゼクティブのようなデータ利用者がすべてのデータを信頼しながら、クイックかつセキュアに調査できるようにするためのプロセスをサポートすることを目的としています。データが様々なテクノロジーによって管理され、多様な構造で格納されているため、データアナリストは課題に直面にしています。さらに、分析で使用するツールはデータが同じテク
ノロジーで管理され、同じ構造で格納されていることを前提としています。 What Is Data Engineering? 8 なぜ、データエンジニアリングが重要なのでしょうか？

データエンジニアリングとは例えば、あるブランドが顧客に関して収集するすべてのデータを考えてみます: • あるシステムには請求と出荷が格納されています。 • 別のシステムでは注文履歴を保持しています。 • そして、他のシステムではカスタマーサポート、行動情報、サードパーティデータが格納されています。全体的にはこのデータは顧客の包括的なビューを提供します。しかし、これらの様々なデータ
セットは独立しており、「どのようなタイプの注文が最も高価なカスタマーサポートのコストにつながったのか」という特定の質問への回答が非常に困難になります。データエンジニアリングでは、これらのデータセットを統合し、あなたの質問をクイックかつ効率的に回答できるようにします。 What Is Data Engineering? 9 なぜ、データエンジニアリングが重要なのでしょうか？

データエンジニアリングとはデータエンジニアリングは、需要の高まっているスキルです。データエンジニアは、データを統合し、あなたたちがナビゲートする助けとなるシステムを設計する人たちです。データエンジニアは以下を含む様々なタスクを実行します: • 取得：ビジネスに関連するすべての様々なデータセットを特定します • クレンジング：データにおけるすべてのエラーを特定し、綺麗にします
• 変換：すべてのデータに共通的なフォーマットを与えます • 曖昧性の除去：複数の方法で解釈し得るデータを解釈します • 重複排除：データの重複したコピーを排除しますこれらが完了すると、データレイクやデータレイクハウスのような中央リポジトリにデータを格納することができます。また、データエンジニアはデータのサブセットをデータウェアハウスにコピー、移動することができます。 What Is Data Engineering? 10 データエンジニアは何をするのでしょうか？

データエンジニアリングとはデータエンジニアは以下を含む様々なツールとテクノロジーを扱います: • ETLツール: ETL(抽出、変換、ロード)ツールはシステム間でデータを移動します。データにアクセスし、分析により適した形にするためにデータを変換します。 • SQL: 構造化クエリー言語(SQL)はリレーショナルデータベースへのクエリーにおける標準言語です。
• Python: Pythonは汎用プログラミング言語です。データエンジニアはETLタスクでPythonを使うことがあります。 • クラウドデータストレージ : Amazon S3、Azure Data Lake Storage(ADLS)、Google Cloud Storageなど • クエリーエンジン : 回答を得るためにデータに対してクエリーを実行するエンジン。データエンジニアは、Dremio Sonar、Spark、Flinkなどのエンジンを取り扱います。 11 What Is Data Engineering? データエンジニアリングのツールとスキル

AIプロジェクトに従事する人々 12 ビジネスアナリストデータエンジニアデータサイエンティスト • 分析データや機械学習モデルのアウトプットからビジネス示唆を抽出する • データ分析に至るデータパイプラインを構築し質の高いデータを提供する •
データサイエンティストの構築するモデルをデプロイし定常的なビジネス価値創出を実現する • 分析データを理解し、適切な機械学習モデルを選択 • パラメータチューニングを通じてベストモデルを構築する

13 ビジネスアナリストデータエンジニア • どのような示唆が求められているのか • どのようなデータを分析すべきか • どのような観点で分析すべきか •
どのようなデータが求められているのか • どのデータソースとの連携が必要か • どのような変換処理が必要か • 取得、更新頻度、性能の要件はデータパイプラインを通じたデータの提供データ種別、品質などに対する要望やフィードバックデータエンジニアとビジネスアナリスト

BIツール Op. DB バッチ & ストリームデータコラボレーションビジネスアナリストから見たDatabricks ストレージ
データサイエンス & 生成AI 処理、ETL、リアルタイム分析オーケストレーションデータとAIのガバナンスバッチ & ストリームデータウェアハウスデータインテリジェンスエンジンデータインテリジェンスプラットフォームフェデレーション ETL AIアプリ 3rd party ビジネスアプリ連携取り込み変換分析ソースサービングクエリーと処理ダッシュボード Spark / Photon Delta Live Tables Databricks SQL ワークフロー Auto loader マーケットプレースアシスタントデータルーム AI/BI レイクハウスモニタリング Hugging Face OpenAI IDプロバイダガバナンス AIサービスモデルサービング Vector Search ML モデリング Mosaic AI カタログ & リネージアクセス制御 Unity Catalog MLOps 生成AI 特徴量サービング … ドメイン鍵管理鍵モデル / 特徴量 DatabricksIQ センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウドビジネスアプリファイル / ログ (半構造化) IDプロバイダエンタープライズカタログクラウドストレージ AIアプリ RDBMS (構造化) 取り込みツールイベントストリーミング RDBM, KVストアデータ利用 BIツール Delta Lake Delta Sharing bronze silver gold 14

BIツール Op. DB バッチ & ストリームデータコラボレーションデータエンジニアから見たDatabricks ストレージ
データサイエンス & 生成AI 処理、ETL、リアルタイム分析オーケストレーションデータとAIのガバナンスバッチ & ストリームデータウェアハウスデータインテリジェンスエンジンデータインテリジェンスプラットフォームフェデレーション ETL AIアプリ 3rd party ビジネスアプリ連携取り込み変換分析ソースサービングクエリーと処理ダッシュボード Spark / Photon Delta Live Tables Databricks SQL ワークフロー Auto loader マーケットプレースアシスタントデータルーム AI/BI レイクハウスモニタリング Hugging Face OpenAI IDプロバイダガバナンス AIサービスモデルサービング Vector Search ML モデリング Mosaic AI カタログ & リネージアクセス制御 Unity Catalog MLOps 生成AI 特徴量サービング … ドメイン鍵管理鍵モデル / 特徴量 DatabricksIQ センサーとIoT (非構造化) RDBMS (構造化) ビジネスアプリ (非構造化) メディア (非構造化) 他のクラウドビジネスアプリファイル / ログ (半構造化) IDプロバイダエンタープライズカタログクラウドストレージ AIアプリ RDBMS (構造化) 取り込みツールイベントストリーミング RDBM, KVストアデータ利用 BIツール Delta Lake Delta Sharing bronze silver gold 15

ETL処理 16

ETLとは Extract(抽出)、Transform(変換)、Load(ロード)から構成される処理です 17 ソースシステムターゲット ETLプロセス

Extract(抽出) ソースシステムからデータをExtract(抽出)します 18 • 最初のステップは、業務システム、API、センサーデータ、マーケティングツール、トランザクションデータベースなど、さまざまなソースからのデータの抽出を行います。これらのデータタイプには、広く使用されている構造化データであることもあれば、半構造化のJSON形式の可能性もあります。抽出には、次のような3つの手法があります。 •
更新通知：最も簡単なデータの取得方法はレコード変更時にソースシステムによって通知される場合です。 • 増分抽出：全てのシステムが更新を通知できるわけではありませんが、特定の期間に変更されたレコードを指定し、それらのレコードを抽出できます。 • 完全抽出：変更されたデータをまったく特定できないシステムがあります。この場合、完全抽出によってのみシステムからデータを抽出できる可能性があります。

Transform(変換) ロードする形式にデータをTransform(変換)します 19 • 次のステップは、ソースから抽出された未加工のデータを、別のアプリケーションで使用できる形式への変換です。運用上のニーズを満たすために、データのクレンジング、マッピング、変換（多く場合、特定のデータスキーマに変換）が行われます。 • 変換プロセスでは、データの品質と整合性を確保するために、いくつかのタイプの
変換が行われます。データは通常、ターゲットデータウェアハウスに直接ロードされず、ステージングデータベースにアップロードされるのが一般的です。 • このステップにより、計画どおりに処理が行われない場合の迅速なロールバックを保証します。この段階において、規制遵守に関する監査レポートを作成したり、データの問題を診断して修復したりすることができます。

Load(ロード) ターゲットシステムにデータをLoad(ロード)します 20 • 最後に、ロード機能は変換されたデータをステージング領域からターゲットデータベースに書き込むプロセスです。 • ターゲットデータベースには、データが以前に存在していた場合とそうでない場合があります。アプリケーションの要件に応じて、このプロセスは非常に単純にも、複雑にもなり得ます。これらの各ステップは、ETL
ツールやカスタムコードで実行可能です。

メダリオンアーキテクチャ 21

メダリオンアーキテクチャとは ETLパイプラインを設計・構築する際の整理学です 22 • メダリオンアーキテクチャは、レイクハウスに格納されているデータの品質を示す一連のデータレイヤーを表現します。 • 企業のデータプロダクトに対して信頼できる唯一の情報源(single source of
truth)を構築するために、Databricksではマルチレイヤーのアプローチを取ることをお勧めしています。 • このアーキテクチャは、公立的な分析に最適化されたレイアウトでデータ格納される前の検証、変換を行う複数のレイヤーをデータが追加する際の、原子性、一貫性、分離性、耐久性を保証します。ブロンズ(生)、シルバー(検証済み)、ゴールド(拡張済み)という用語はそれぞれのレイヤーにおけるデータの品質を表現しています。 22 メダリオンアーキテクチャ (medallion architecture) | Databricks

メダリオンアーキテクチャ CSV JSON TXT Bronze Silver Gold AIやレポートストリーミング分析データ品質
Databricks Auto Loader 23

メダリオンアーキテクチャブロンズレイヤー通常は取り込みデータの生のコピー従来のデータレイクを置き換え完全かつ未処理のデータ履歴に対する効率的なストレージを提供しクエリーを可能に Bronze 24

メダリオンアーキテクチャシルバーレイヤーデータストレージの複雑性、レーテンシー、冗長性を削減 ETLのスループットやクエリー性能を最適化オリジナルデータの粒度を保持 (集計なし) 重複レコードの排除プロダクションのスキーマを強制データ品質のチェック、破損データの検疫
Silver 25

メダリオンアーキテクチャゴールドレイヤー MLアプリケーション、レポート、ダッシュボード、アドホック分析を支援通常は集計を用いて洗練されたデータビューを提供プロダクションシステムの負荷を軽減ビジネス上重要なデータのクエリー性能を最適化 Gold 26

2つの実装アプローチ 27

ETL処理の実装アプローチ 28 ETL処理を実装する方法は大きく2つあります命令型（PySpark）「どうやって処理するか」をステップバイステップで記述 df = spark.read.csv(...) df =
df.filter(...) df.write.saveAsTable(...) ✓ 柔軟性が高い ✓ デバッグしやすい △ コード量が多い △ 運用が大変宣言型（Lakeflow SDP）「何が欲しいか」を宣言し、実行方法はシステムにお任せ @dp.table def silver_data(): return dp.read("bronze") ✓ 簡潔 ✓ 自動で依存関係解決 △ 細かい制御が難しい本講座ではまず命令型で基礎を学び、その後宣言型の利点を体験します

デモ：サンプルデータの確認 29

Part 1 : Sparkの基礎 30

🐼 Pandas 1台のPCのメモリ内で処理処理できるデータ量〜数GB ✓ 手軽 ✓ 学習コスト低い ✗
メモリに収まらないと動かない ⚡ Spark 複数マシンに分散して並列処理処理できるデータ量〜PB級 ✓ 大規模データ OK ✓ 高速 ✗ 小規模だとオーバーヘッド企業の実データは数十GB〜TBが当たり前 → Sparkが必要になるなぜPandasではなくSparkなのか？ 31 データサイズと処理方式の違いを理解しましょう

32 https://youtu.be/PU4AluR0ylY

Apache Sparkのご紹介 • 統合計算エンジン • 計算クラスターにおける並列データ処理 • Sparkはこのタスクにおいて最もアクティブに開発されているオープンソースエンジンです。
• 広く使用されている複数のプログラミング言語をサポート(Python、Java、 Scala、R) • SQLからストリーミング、機械学習に渡る様々なタスクのためのライブラリも提供 33 構造化ストリーミング構造化API データセットデータフレーム SQL 高度分析、ML、グラフ解析、ディープラーニングエコシステム + パッケージ低レベルAPI 分散変数 RDD

基本的なアーキテクチャ • クラスターマネージャが物理マシンを管理し、Sparkアプリケーションにリソースを割り当てます。 • ドライバープロセスは、タスクを完了するためにエグゼキューターでドライバープログラムを実行することに責任を持ちます。
• エグゼキューターはSparkコードを実行します。 Apache Sparkの分散エコシステムクラスターマネージャ 34 Sparkセッションユーザーコードドライバープロセスエグゼキューター

Spark API こちらがSparkで利用できるコアモジュールの簡単な概要です。 35 Spark SQL + データフレームストリーミング MLib
SQL Python Scala Java R Spark コアAPI

ワーカーワーカーワーカーワーカードライバーエグゼキューターエグゼキューターエグゼキューターエグゼキューター Core
Core Core コアコアコア Core Core Sparkクラスタータスクタスクタスクタスクタスク 36

Sparkの処理実行ジョブジョブジョブステージ 1 ステージ 2 タスク 1
タスク 2 37 ドライバー (Sparkアプリケーション)

Sparkセッション • SparkSessionはすべてのデータフレームAPI の機能に対する単一のエントリーポイントです。 • Databricksノートブックでは自動的に変数sparkが作成されます。 38 JVM
Spark セッション Python プロセス Rプロセスエグゼキューターへ

SparkSessionのメソッド 39 sql 指定されたクエリーの結果を表現するデータフレームを返却。 table 指定されたテーブルをデータフレームとして返却。 read データフレームとしてデータを読み込む際に使用できるDataFrameReader を返却。 range
startからend(含まない)の範囲とステップ値、パーティション数を持つ要素を含むカラムを持つデータフレームを生成。 createDataFrame タプルのリストからデータフレームを作成、主にテストで使用。

Sparkデータフレーム 40

データフレーム 41 item_id name price M_PREM_Q Premium Queen Mattress 1795
M_STAN_F Standard Full Mattress 945 M_PREM_F Premium Full Mattress 1695 M_PREM_T Premium Twin Mattress 1095 qty 35 24 45 18

データフレーム “データフレームは名前付きカラムにグルーピングされる分散データコレクションです” - データはストレージの(データ)パーティションに分散されています。 - Sparkはデータをパーティションと呼ばれる塊に分割します。
- データフレームによって、物理パーティションにあるデータに対して高レベルの変換処理を適用することができます。 42 オブジェクトストレージ上のファイルデータパーティションデータパーティションデータパーティション Sparkエグゼキューター Sparkエグゼキューター Sparkエグゼキューター ... コアパーティション ...

トランスフォーメーション、アクションと遅延評価 “データフレームのトランスフォーメーションは新たなデータフレームを返却するメソッドであり遅延評価されます” 43 “すべてのデータフレームのトランスフォーメーションの
実行を起動するにはアクションが必要です” df.select("id", "result") .where("result > 70") .orderBy("result") df.select("id", "result") .where("result > 70") .orderBy("result") .show() orderBy() groupBy() filter() select() join() show() take() count() collect() save()

44 狭い変換処理と広い変換処理狭い変換処理広い変換処理 (シャッフル )

なぜDatabricksのSparkを使うのか？ 45 EC2コストの低減オープンソース生産性の向上大規模データエンジニアリング & データサイエンスのための
統合分析プラットフォームコスト削減最高のSPARKサポートエキスパートトレーニング & Spark開発者によるサポート優れたパフォーマンスクラウドに最適化 10倍から50倍高速 Databricksランタイム Deltaエンジン

Apache Spark Visual Learning 触って学ぶのが一番 46

Apache Spark徹底入門発売中！ Learning Spark 2nd Editionの翻訳 + αの内容となっています！本書は、ビッグデータを主な対象としたデータ分析フ
レームワークであるApache Spark、MLﬂow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データAIの実装者が Apache Spark、MLﬂow、および Delta Lakeを使いこなすための解説を行います。 47

デモ：PySparkによるデータフレーム操作 48

Part 2 : Lakeﬂowによる宣言型パイプライン 49

すべては良いデータから生成AI データサイエンスビジネスインテリジェンス分析アプリ 50

断片化されたスタックでは、質の高いデータを提供することが困難になりますガバナンスの欠如複雑性貧弱な信頼性コンプライアンス、セ
キュリティ、品質のリスクボトルネック化したチーム本番環境でのパイプラインの問題 51

Lakeﬂow はデータエンジニアリングを統合します 52

統合されたアプローチにより、データチームは信頼性の高いデータを提供できるようになります統合ガバナンスシンプルさ高い信頼性リスクの低減
価値実現を迅速に本番運用レベルのパイプライン 53

データインテリジェンスプラットフォーム Lakeﬂow データインテリジェンスプラットフォームに組み込まれたE2Eのデータエンジニアリング 54

統合単一のソリューション合理化シンプルなETL開発効率的インクリメンタルバッチ、ストリーム Lakeﬂow 取り込み変換オーケストレート
クラウドストレージメッセージキューデータベース企業アプリケーションデータインテリジェンスプラットフォームデータウェアハウスビジネスインテリジェンス AI / ML データ共有 Lakeﬂowはすべての人にとってのデータエンジニアリングの未来です 55

取り込み変換オーケストレート Connect Spark 宣言型パイプラインジョブ統合データエンジニアリング Lakeﬂow
56

取り込み変換オーケストレート Connect Spark 宣言型パイプラインジョブ Lakeﬂow 統合データエンジニアリング
57

Lakeflow Spark宣言型パイプラインとは ? ETL処理のためのモダンなソフトウェアエンジニアリング Lakeflow SDPは、シンプルな宣言型アプローチを使用して信頼性の高いデータパイプラインを構築する、初のETLフレームワークです。Lakeflow SDPはインフラストラクチャを大規模に自動管理するた
め、データアナリストやエンジニアはツールに費やす時間を削減し、データから価値を引き出すことに集中できます。 ETL開発を加速インフラストラクチャを自動管理データへの信頼を確保バッチとストリーミングを簡素化 https://www.databricks.com/jp/product/data-engineering/spark-declarative-pipelines 58

宣言型パイプラインによるプログラミングどう行うかではなく、何を行うべきかを記述宣言型パイプラインプログラム def upsertToDelta(microBatchOutputDF: DataFrame, batchId: Long) { microBatchOutputDF
.groupBy("key") .agg(max_by("ts", struct("*").alias("row")) .select("row.*") .createOrReplaceTempView("updates") microBatchOutputDF.sparkSession.sql(s""" MERGE INTO cdc_data_raw t USING updates s ON s.key = t.key WHEN MATCHED AND s.is_delete THEN UPDATE SET DELETED_AT=now() WHEN MATCHED THEN UPDATE SET A=CASE WHEN s.ts > t.ts THEN s.a ELSE t.a, B=CASE WHEN s.ts > t.ts THEN s.b ELSE t.b, … for every column … WHEN NOT MATCHED THEN INSERT * """) } cdcData.writeStream .foreachBatch(upsertToDelta _) .outputMode("append") .start() AUTO CDC INTO cdc_data FROM source_data KEYS (id) SEQUENCE BY ts APPLY AS DELETE WHEN is_deleted Spark命令型プログラム 59

コアとなる概念 60

ひとことで言うと「前回から変わった部分だけ」を処理する方式フルリフレッシュ（全件処理） 📦📦📦📦📦 毎回すべてのデータを処理し直すデータ100万件 → 100万件処理インクリメンタル（差分処理） ⬜⬜⬜⬜📦
新しく追加されたデータだけ処理データ100万件 → 1000件だけ処理インクリメンタル処理とは？ 61

例：ECサイトの注文データ（ 1年分 = 1億件）フルリフレッシュ毎日1億件を処理 3時間コスト: 高い💸 インクリメンタル
今日の新規10万件だけ 2分コスト: 低い💰 ⏱ 処理時間の短縮 90倍高速化も可能 💰 コスト削減クラウド費用を大幅カット 🔄 更新頻度UP 日次→時次→リアルタイムなぜインクリメンタル処理が重要なのか？ 62 毎日のデータ更新を例に考えてみましょう

😰 命令型で自分で実装する場合「どこまで処理したか」を記録する仕組みが必要途中で失敗したらどこからやり直す？重複処理を防ぐロジックも必要テーブルごとに実装が必要で大変 ... 😊 Lakeflow SDPなら
進捗管理は自動でやってくれる失敗時のリカバリも自動重複排除も組み込み済み宣言するだけで自動的に差分処理！ Lakeflow SDPがインクリメンタル処理を簡単にしてくれるインクリメンタル処理の実装は難しい？ 63 自分で実装しようとすると、こんな問題が...

テーブルデータを物理的に保存 📦 ✅ クエリが速い ✅ データが永続化されるビュークエリの「定義」だけ保存 📝
✅ ストレージ不要 ❌ クエリのたびに計算前提確認：テーブルとビュー 64 一般的なデータベースの知識を確認

😓 差分処理が大変毎日追加されるデータ → 毎回全件処理し直す？ → 差分処理のコードは複雑 😓 順番の管理 Bronze
→ Silver → Gold → 依存関係の管理が面倒 → エラー時のリトライは？ 😓 データ品質不正データの混入 → チェック処理を自前実装 → 除外件数の記録は？テーブル保存は簡単。その周辺の管理が大変。課題：普通のテーブルで何が困る？ 65 Part 1でやった方法（df.write.saveAsTable）の問題点

命令型（Part 1）「どうやって作るか」を全部書く df = spark.read.table("src") df = df.filter("fare >
0") df.write.saveAsTable("tgt") + 差分処理 + エラー処理 + 品質チェック... → 宣言型（Part 2 / SDP）「何が欲しいか」だけ宣言 @dp.materialized_view() def silver(): return dp.read("bronze") ✅ 差分・依存関係・品質管理を自動化 SDPは「面倒な周辺管理」を引き受けてくれる仕組み SDPの解決策：「宣言するだけ」 66

マテリアライズドビュー 📦🔄 データ変換・集計・JOIN ほとんどの処理はこれで OK ストリーミングテーブル 📦🚀 ファイルの増分取り込み Autoloader と組み合わせる
迷ったら MV。ファイル取り込みには ST。 SDPでの2つのテーブル定義方法 67 用途に応じて使い分ける

一般的な概念（Oracle、PostgreSQLなどにも存在）：クエリ結果を保存したビュー普通のビュー 📝 → 🔄 → 結果クエリのたびに計算（遅い）マテリアライズドビュー 📦
→ 結果保存済みを読むだけ（速い） SDPでの追加機能 ✅ パイプライン実行時に自動更新　✅ 依存関係の自動解決　✅ データ品質管理マテリアライズドビュー（ MV）とは 68

Databricks固有の概念：Autoloaderでファイルを増分取り込みするためのテーブル典型的な使い方：クラウドストレージからの取り込み @dp.table() def bronze_data(): return (spark.readStream .format("cloudFiles") # Autoloader
.option("cloudFiles.format", "json") .load("/landing/zone/")) STのメリット新しいファイルだけを処理（高速・低コスト）主な用途 Bronze層でのデータ取り込みストリーミングテーブル（ ST）とは 69

典型的なパイプライン構成 Bronze ST ファイル取り込み → Silver → クレンジング ST Gold
MV 集計 MVとSTの使い分け 70 • 典型的なパイプライン構成では、Bronze層とSilver層をSTで、Gold層をMVで作ります。 • STはファイルの取り込みだけでなく、フィルタリング、型変換、カラム追加といった 1行が1行になる処理であれば続けて使えます。 • 集計（groupBy）やJOINが必要になったタイミングでMVに切り替えます。これは、STが「追加」しかできないのに対し、集計やJOINは既存の行を「更新」する必要があるためです。

パイプライン内部の中間処理用データを保存しない。パイプライン外部からアクセスできない。使う場面一時的な中間処理外部に公開したくないデータ制限 BIツールから見えないパイプライン実行中のみ存在 💡 誰かが使うテーブルは
MV か ST で作る。Viewは内部用。 (補足) ビューとは 71

マテリアライズドビュー @dp.materialized_view() def my_table(): return spark.read... 変換・集計・JOINに使用ストリーミングテーブル @dp.table() def
my_table(): return spark.readStream... Autoloaderでの取り込みに使用 @dp.materialized_view() = MV / @dp.table() + readStream = ST コードの書き方 72 from pyspark import pipelines as dp

すべてMVで実装します Bronze MV サンプルデータ読込 → Silver MV クレンジング → Gold
MV 日別集計なぜMVだけ？今回は既存のサンプルデータ（samples.nyctaxi.trips）を使うため、 Autoloaderでのファイル取り込みは不要 → すべてMVでOK 今回の実習 73

Lakeﬂow SDPでパイプライン構築がシンプルに 74

Lakeﬂowパイプラインエディタ 1. パイプラインアセットブラウザ 2. ステップバイステップの開発機能を備えたマルチファイルコードエディタ • ソフトタブ •
ガターアクション • インラインエラーインジケーター 3. インタラクティブDAG 4. データプレビュー 5. 実行インサイトパネル 1 2 3 4 5 75

データ品質エクスペクテーションの活用 • データエクスペクテーションにより、パイプライン内でデータ品質と整合性の制御を定義 • 柔軟なポリシーでデータ品質エラーに対処:
失敗、破棄、アラート、隔離(今後) • すべてのデータパイプライン実行と品質メトリクスが取得、追跡、報告されます /* Stage 1: Bronze Table drop invalid rows */ CREATE STREAMING TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "Bronze table with valid account ids" SELECT * FROM fire_account_raw ... 76

開発と本番迅速な反復開発またはエンタープライズグレードの信頼性開発(Development)モード • 長時間稼働するクラスターを再利用し、迅速な反復開発を実現 • エラー時のリトライなし
で、より高速なデバッグが可能 • エディタまたはオーサリングUI からトリガーされるパイプライン向け • 完了後すぐにクラスターをオフにしてコストを削減 (5分以内) • クラスターの再起動を含むエスカレーティングリトライにより、一時的な問題に対しても信頼性を確保 • スケジュールされたパイプライン向け本番(Production)モード 77

Databricksアシスタントアシスタントでストリーミングテーブルとマテリアライズドビューを生成 • データと分析タスク用のアシスタント • データとワークスペースのコンテキストから学習
• ユーザーがPythonおよび SQLコードの作成、デバッグ、説明、ドキュメント作成を支援 78

Lakeﬂow SDPでパイプライン管理がシンプルに 79

可観測性 • パイプラインに関連するすべての情報を包含 (データ品質チェック、進捗、リネージ) • 宣言型パイプラインUI、 API、またはDeltaテーブルとして直接
クエリで表示可能! 宣言型パイプラインのイベントログ 80

データガバナンス • 行/列レベルのセキュリティ • 複数のスキーマへの公開 • ストリーミングテーブルからの変更デー
タフィード • Hive Metastoreの移行をサポート Unity Catalog連携 # fully qualified CREATE MATERIALIZED VIEW catalog.schema.name # partially qualified CREATE MATERIALIZED VIEW schema.name # single part name CREATE MATERIALIZED VIEW name from pyspark import pipelines as dp @dp.table def table_name(): @dp.table(name="schema.name") def func(): @dp.table(name="catalog.schema.name") def func(): 81

データリネージエンドツーエンドのリネージ: ボリュームからパイプラインを経て特徴量ストアまで 82

デモ：Lakeﬂow SDPでのパイプライン作成 83

Lakeﬂowジョブ 84

取り込み変換オーケストレート Connect Spark 宣言型パイプラインジョブ Lakeﬂow 統合データエンジニアリング
85

変換オーケストレート Spark 宣言型パイプラインジョブ統合データエンジニアリング Lakeﬂow 86 取り込み
Connect

サーバレス Lakeﬂow ジョブデータとAIの高信頼オーケストレーションスケジュール連続ファイル到着テーブル更新トリガー
可観測性制御フロー ETL ML/AI 分析/BI 87

Lakeﬂowジョブデータインテリジェンスプラットフォーム上でのデータ、分析、AIの統合オーケストレーション • シンプルな作成ツール • アクション可能な洞察 • 立証された信頼性
データインテリジェンスプラットフォームデータ取り込み & 変換処理エンジン (Photon) ガバナンス (Unity Catalog) ストレージ (Delta Lake) データウェアハウス機械学習 Lakeﬂowジョブ Sessions Clicks Join Featurize Aggregate Analyze Train Orders 88

Lakeﬂowジョブの主要コンセプト 89

ワークフローのブロック構築タスクを選択し、制御フローを作成し、ワークフローのデータトリガーを定義します Databricks ノートブック Python スクリプト Python Wheels SQLファイル/ クエリー
SDP dbt Java JARファイル Spark Submit ジョブは一つ以上のタスクで構成タスク間で制御フローを設定可能ジョブはさまざまなトリガーをサポート AI/BI ダッシュボード手動トリガースケジュール (Cron) API トリガーファイル到着トリガーテーブル更新連続 (ストリーム) Power BI 直列並列条件 (If/else) ジョブ実行 (モジュール) For each 90

すべてのデータ実践者向けのシンプルな作成体験 Databricksワークスペース内で数クリックで洗練された Lakeﬂowジョブを構築します好みのIDEを通じてJobs REST APIを活用し、プログラムによるジョブ管理とインタラクションを実現します
91

リアルタイム監視からの実用的なインサイトシンプルで直感的な監視UIが、すべてのワークフロー実行に対してリアルタイムメトリクスと詳細な分析を提供しますドリルダウンして、どのタスクが失敗しているか、そしてその理由を理解します。顧客に影響が出る前に問題をトラブルシューティングします 92

データトリガーテーブル更新トリガー指定されたテーブルの更新が発生したときにジョブ実行をトリガーしますデータの鮮度を保証します UCテーブル、ストリーミングテーブル、マテリアライズドビューをサポートファイル到着トリガー外部ロケーションに新しいファイルが到着したときにジョブの実行をトリガーします
データの準備ができたときにのみジョブをトリガー更新ジョブトリガーボリュームファイル 93

タスクのループ For eachで単一のタスクをループ反復タスクのオーサリングを簡素化タスク値参照を使用してより柔軟なワークフローを構築並行タスク実行 94

Lakeﬂow SDPをオーケストレート Spark宣言型パイプライン (SDP) SDP 自動増分処理により、より高速で安価なパイプライン自動化された品質チェックによる
信頼性の高いデータ統合されたバッチとストリーミングによる合理化されたデータエンジニアリング自動化されたインフラストラクチャと運用による迅速なパイプライン開発生の取り込みデータと履歴 BRONZE フィルタリングクレンジング、拡張 SILVER ビジネスレベルの集計データ GOLD CREATE STREAMING TABLE raw_data AS SELECT * FROM cloud_files ("/raw_data", "json") CREATE MATERIALIZED VIEW clean_data AS SELECT … FROM raw_data SQL or Python 95

Unity Catalogとのインテグレーション Lakeﬂowジョブの自動リアルタイムデータリネージテーブルをジョブに接続ガバナンスの自動化 96

ジョブの部分実行ジョブを実行する際に含めるタスクを選択する機能ジョブ失敗後の効率的な修復実行ジョブ全体を再実行せずにタスクのサブセットをデバッグ手動実行時のより多くの
制御 97

デモ：Lakeﬂow SDPとLakeﬂowジョブ 98

Part 3 : 実践演習 99

実践演習 100 演習1（25分）: PySparkによる命令型ETL • Bronze → Silver → Gold
パイプラインを手動実装演習2（25分）: Lakeflow SDP宣言型パイプライン • 同じ処理を宣言型で実装演習3（15分）: エクスペクテーションの追加 • データ品質チェックを追加演習4（15分）: ジョブによる自動化 • ワークフローとスケジュール設定まとめ・質疑応答（ 10分）

実習ファイルの取り込み手順 101

Step 1: Gitフォルダを開く 1 左サイドバーのワークスペースをクリック 2 画面右上の作成をクリック 3
Git フォルダをクリック 102

Step 2: リポジトリ URLを入力 📋 コピー用URL: https://github.com/taka-yayoi/data_engineering_course ⚠ 注意: URLを入力するとフォルダ名は自動で「data_engineering_course」に。そのまま
Git フォルダを作成をクリック。 103

Step 3: ファイル構成を確認クローン後のフォルダ構成: 📁 data_engineering_course/ ├── 📄 README.md ├──
📁 notebooks/ │ ├── 📓 exercise_part1_imperative.py │ └── 📓 exercise_part4_jobs.py └── 📁 pipelines/ ├── 📄 pipeline_basic.sql └── 📄 pipeline_with_expectations.sql 各ファイルの用途: 演習1: 命令型ETL notebooks/exercise_part1_imperative.py → ノートブックを開いて Run All 演習2-3: SDP パイプライン pipelines/*.sql（リファレンス用） → パイプラインエディタで入力演習4: ジョブ設定 notebooks/exercise_part4_jobs.py → 参考資料（GUI操作中心） ✅ これで準備完了です。演習 1から始めましょう！ 104

演習1を開始する 1 ノートブックを開く data_engineering_course → notebooks → exercise_part1_imperative.py 2 クラスターに接続
右上の「接続」から利用可能なクラスターを選択 3 実行順にセルを実行していきます 💡 ポイント: 演習1は PySpark（Python）で記述。セルを順番に実行しながら Bronze → Silver → Gold のパイプラインを構築します。 105

演習2-3を開始する（パイプライン作成） 1 新規 → ETL パイプラインを選択 2 パイプライン名を入力（例 :
sdp_nyctaxi_pipeline） 3 カタログ=workspace / スキーマ=新規作成 4 空のファイルで開始、言語は SQL 5 エディタで SQL を入力して実行 📄 リファレンス : 完全なSQLは pipelines/pipeline_basic.sql を参照。演習3は pipeline_with_expectations.sql 106

参考資料 107

参考資料 108 • 実習のノートブック • Lakeflow SDP入門：基礎から実践まで #Databricks - Qiita
• はじめてのDatabricks #Databricks - Qiita • Databricks記事のまとめページ(その1) #Databricks - Qiita • Databricksドキュメント | Databricks on AWS • Databricks によるデータエンジニアリング | Databricks on AWS • Lakeflow Spark宣言型パイプライン | Databricks on AWS • ハンズオンで学ぶ Databricks - Databricksにおけるデータエンジニアリング - Speaker Deck • Databricksにおけるビジネスアナリストからデータエンジニアへの転換 #Databricks_AI_BI - Qiita • Apache Spark徹底入門

Databricks Free Edition講座 データエンジニアリング編

Databricks Free Edition講座 データエンジニアリング編

More Decks by Takaaki Yayoi

Other Decks in Technology

Featured

Transcript

Databricks Free Edition講座データエンジニアリング編

Databricks Free Edition講座データエンジニアリング編