Deep Dive - Delta Live Tables

©2021 Databricks Inc. — All rights reserved Deep Dive: Delta
Live Tables

©2021 Databricks Inc. — All rights reserved 我々はビジネス成果においてデータが重要であることを知っています顧客体験
製品 / サービスのイノベーション運用効率性収益の拡大セルフサービス分析予兆分析データドリブンの意思決定 GDPR CCPA BCBS29 HIPAA データウェアハウス / レイクの集約データ移行データガバナンス & コンプライアンス Business objectives 分析 & AI デジタル近代化

©2021 Databricks Inc. — All rights reserved 半構造化非構造化構造化
クラウドデータレイク ETL ETL ETL ETL ETL Azure Synapse AWS Glue Azure Data Factory Home- Grown ETL Home- Grown ETL Code Generated AWS EMR TASK FLOW TASK FLOW TASK FLOW データ共有ストリーミングソースクラウドオブジェクトストア SaaSアプリケーション NoSQL RDB オンプレミスシステムデータソースビジネス洞察分析機械学習ストリーミング分析しかしデータのデリバリーは複雑です…. ETL

©2021 Databricks Inc. — All rights reserved 6 Lakehouse Platform
Data Warehousing Data Engineering Data Science and ML Data Streaming All structured and unstructured data Cloud Data Lake Unity Catalog Fine-grained governance for data and AI Delta Lake Data reliability and performance Databricks Lakehouse Platform is the foundation for Data Engineering

©2021 Databricks Inc. — All rights reserved Delta Live Tables
7 CREATE STREAMING TABLE raw_data AS SELECT * FROM cloud_files ("/raw_data", "json") CREATE MATERIALIZED VIEW clean_data AS SELECT … FROM LIVE.raw_data レイクハウスでETLを行うベストな方法 ETL開発の加速 SQLやPythonで宣言すると、自動でDAGをオーケストレートし、リトライやデータの変更に対応しますインフラストラクチャを自動で管理リカバリー、オートスケーリング、パフォーマンス最適化のような複雑で面倒な作業を自動化します高いデータ品質を保証ビルトインの品質コントロール、テスト、モニタリングや強制を用いて信頼できるデータをデリバリーバッチとストリーミングの統合一つの統合されたAPIによってストリーミングの新鮮さとSQLのシンプルさを入手

©2021 Databricks Inc. — All rights reserved 分析機械学習ビジネス洞察
自動オペレーションオーケストレーション観測可能性データ品質 CI / CD オペレーショナルアプリ Photon DLTによるプロダクションETLパイプラインの構築クラウドストレージメッセージキューブロンズレイヤーシルバーレイヤーゴールドレイヤー orders (Streaming Table) customers (Streaming Table) customer_orders (Materialized View) daily_orders (Materialized View) Databricksレイクハウスプラットフォーム UNITY CATALOG

©2023 Databricks Inc. — All rights reserved 連続あるいはスケジュールされたデータ取り込み • Auto
Loaderを用いてクラウドストレージに到着する新規データファイルをインクリメンタル、効率的に処理 • 到着するファイルのスキーマを自動で推論、あるいは、スキーマヒントで知識を注入 • 自動スキーマ進化 • レスキューデータカラム - 再びデータを失うことはありません JSON CSV ✅ ✅ AVRO スキーマ進化 ✅ PARQUET ✅ ストリーミング取り込みのシンプルな SQL構文

©2023 Databricks Inc. — All rights reserved • “how” を抽象化し、解決すべき
“what” を定義するための意思に基づく宣言型開発の活用 • データパイプライン間のテーブルの依存関係に基づくリネージを自動で生成 • 依存関係の欠如や文法エラーのようなエラーを自動でチェック /* Create a temp view on the accounts table */ CREATE STREAMING VIEW account_raw AS SELECT * FROM cloud_files(“/data”, “csv”); /* Stage 1: Bronze Table drop invalid rows */ CREATE STREAMING TABLE account_bronze AS COMMENT "Bronze table with valid account ids" SELECT * FROM account_raw ... /* Stage 2:Send rows to Silver, run validation rules */ CREATE STREAMING TABLE account_silver AS COMMENT "Silver Accounts table with validation checks" SELECT * FROM account_bronze ... ブロンズシルバーゴールドソース宣言型SQL & Python API

©2023 Databricks Inc. — All rights reserved Bronze Silver CDC経由
UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミングソースクラウドオブジェクトストア構造化データ非構造化データ半構造化データデータ移行サービスデータソース • DBRでサポートされるすべてのデータソース、クラウドストレージ、DBFSからの変更レコード(insert, update, delete)のストリーム • SQLやPythonにおけるシンプルな宣言型の “APPLY CHANGES INTO” • 順番になっていないイベントへの対応 • スキーマ進化 • SCD2のサポートチェンジデータキャプチャ (CDC)

©2023 Databricks Inc. — All rights reserved データ品質の検証と監視 • データエクスペクテーションによるデータ
品質と一貫性コントロールの定義 • 柔軟なポリシーでデータ品質エラーに対応: fail, drop, alert, quarantine(将来的) • すべてのデータパイプラインの実行における品質メトリクスを捕捉、追跡、報告 /* Stage 1: Bronze Table drop invalid rows */ CREATE STREAMING LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "Bronze table with valid account ids" SELECT * FROM fire_account_raw ...

©2023 Databricks Inc. — All rights reserved データパイプラインの観測可能性 • インパクト分析のための、どのようにデータが流
れるのかを示す高品質、高精度なリネージダイアグラム • データパイプラインのステータス、オペレーション、ガバナンス、品質に対する行レベルのきめ細かいロギング • オペレーションの継続性を保証する継続的なデータパイプラインのモニタリング • Databricks SQLを用いた通知

©2023 Databricks Inc. — All rights reserved • デプロイ前に容易にテストできるプロダクションと分離された環境で開発
- すべてをSQLで • パラメータ化による環境のデプロイと管理 • ユニットテストとドキュメント作成 • 数百のテーブル/パイプラインに動的かつプログラム的にスケールできるメタデータ駆動能力の活用すべてのデータを最新に保つためにリネージ情報を捕捉、活用 raw clean scored 開発ステージングプロダクション自動化ETL開発ライフサイクル

©2023 Databricks Inc. — All rights reserved • 自動エラーハンドリングと容易なリプレイでダウンタイムを削減
• Delta Live Tablesの自動最適化によるメンテナンスの排除 • 必要な際にはオートスケーリングが自動でリソースを追加自動化されたETLオペレーション

©2021 Databricks Inc. — All rights reserved • スパイクがあって予期できないストリーミングワークロードを取り扱えるように構築
• タスク実行を保証しつつも、使用率が低いノードをシャットダウン • 必要なノード数にのみスケール強化オートスケーリングストリーミングにおけるE2EのレーテンシーSLAを維持しつつもインフラストラクチャコストを削減 Streaming source Spark executors No/Small backlog & low utilization Backlog monitoring Utilization monitoring Scale down 17 AWS Azure GCP 正式提供正式提供 Public Preview GA Coming Soon 問題ストリーミングワークロードにおけるスケーリングの意思決定を行う際のインフラストラクチャ消費の最適化

©2023 Databricks Inc. — All rights reserved すべてのデータ実践者向けのシンプルなワークフロー作成データ実践者はDatabricksワークスペースからDLTパイプラインなどのタスクを容易にオーケストレート。
高度なユーザーはCI/CDを完全にサポートするIDEを活用可能。リアルタイム監視によるアクション可能な洞察すべてのワークフローのすべてのタスクに対する完全な可視性。詳細メトリクスを用いてリアルタイムでプロダクションワークロードの健康状態を確認し、問題を迅速に特定、トラブルシュート、修正するための分析を実施。プロダクションワークロードで実証された信頼性サーバレスデータ処理と99.95%の可用性を持つ完全にマネージドなオーケストレーションサービス。数百万のプロダクションワークロードを実行しているDatabricksのお客様からの信頼。 Delta Live Tablesパイプラインなどに対する統合オーケストレーション Databricks Workﬂows Unity Catalog Delta Lake BI & データウェアハウスデータストリーミングデータサイエンス & ML データエンジニアリングレイクハウスプラットフォーム Workﬂows Sessions TASK DLT Pipeline 1 DLT Pipeline 2 Aggregate Analyze Train Orders

©2023 Databricks Inc. — All rights reserved 1.3 trillion rows
of sensor data processed efﬁciently 86% reduction in time to production Saved immense data management time and effort Enabled data analysts to build their own data pipelines with SQL Enabled the NextGen self-service data quality platform Supports a 100+ table pipeline in one managed job - time and money savings Customers Save Time with Delta Live Tables

©2023 Databricks Inc. — All rights reserved Delta Live Tables
to ingest and analyze data from car service stations. Use this data to get Insights into issue types, what parts are being replaced, regulatory reporting, and part replacement forecasting. Service health and vehicle reliability “It's so intuitive that even somebody with only moderate Python skills can create efﬁcient, powerful data pipelines with relative ease” - Tom Renish, Principal Data Architect, Rivian

©2023 Databricks Inc. — All rights reserved “At ADP, we
are migrating our human resource management data to an integrated data store on the Lakehouse. Delta Live Tables has helped our team build in quality controls, and because of the declarative APIs, support for batch and real-time using only SQL, it has enabled our team to save time and effort in managing our data." Jack Berkowitz, CDO, ADP

©2023 Databricks Inc. — All rights reserved Use Case +
Challenge • 70+ use cases impacting supply chain, operations, product development, marketing, customer exp • Large volumes of IoT data from millions of sensors difﬁcult to harness for actionable insights and ML due to operational load created by complex data pipelines Why Databricks + DLT? • Lakehouse for uniﬁed data warehousing, BI, & ML — enabling new use cases not possible before • DLT enables Shell to build reliable and scalable data pipelines - automatic job maintenance and deep pipeline visibility saves time and resources Impact of DLT • Process 1.3 trillion rows of sensor data with ease • Simplifying ETL development and management for faster insights and ML innovation “Delta Live Tables has helped our teams save time and effort in managing data at this scale. With this capability augmenting the existing lakehouse architecture, Databricks is disrupting the ETL and data warehouse markets, which is important for companies like ours. We are excited to continue to work with Databricks as an innovation partner.” - Dan Jeavons, GM Data Science

©2023 Databricks Inc. — All rights reserved Shell Developers share
their thoughts “New gold standard for data pipelines” “Delta Live Tables makes it easier for us to build intelligence into our data ingestion process” “Delta maintenance tasks are no longer an afterthought for developers” “Expectations allows us to trust the data”

©2023 Databricks Inc. — All rights reserved Use Case +
Challenge • Real-time insights for real estate investors • Holistic view of real estate insights for informed real estate buying and selling decisions • Processing hundreds of millions of records on increasingly complex and bogged down architecture Why Databricks + DLT? • Lakehouse architecture and DLT frees up Audantic’s data teams from focusing on infrastructure so they can innovate more easily • DLT allows them to build and manage more reliable data pipelines that deliver high-quality data in a much more streamlined way Impact of DLT • 86% reduction in time-to-market for new ML solutions due to shorter development time • 33% fewer lines of code required • Productivity value: $300k “Delta Live Tables is enabling us to do some things on the scale and performance side that we haven’t been able to do before,” explained Lowery. “We now run our pipelines on a daily basis compared to a weekly or even monthly basis before — that's an order of magnitude improvement.” - Joel Lowery, Chief Information Ofﬁcer at Audantic

©2023 Databricks Inc. — All rights reserved Delta Live Tablesの提供価値
2 ビジネスイノベーションの加速 • 新たなリアルタイム分析、ML、オペレーショナルなユースケースへの取り組み • 既存のBI、分析アプリケーションにより新鮮なデータを提供 • 全員にとってのデータの安定性と信頼度を改善データチーム生産性の向上 • すべての既存のデータ実践者が容易にデータストリーミングパイプラインを構築可能に • プロダクションにある複雑なデータパイプライン管理の負荷を削減 • 前段のデータ品質問題をより迅速に特定、トラブルシュート、修正 • 高コストなデータセットの再構築を避け、インクリメンタルにデータを処理。変動するデータボリュームに対応してリソースを自動でスケールアップ、ダウン • コストとレーテンシーの適切なトレードオフを行うように、個々のワークロードを調整インフラコストの削減

Deep Dive - Delta Live Tables

Deep Dive - Delta Live Tables

Databricks Japan

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript

©2021 Databricks Inc. — All rights reserved Deep Dive: Delta

©2021 Databricks Inc. — All rights reserved データエンジニアリングにおける問題とは？

©2021 Databricks Inc. — All rights reserved 我々はビジネス成果においてデータが重要であることを知っています顧客体験

©2021 Databricks Inc. — All rights reserved 半構造化非構造化構造化

©2021 Databricks Inc. — All rights reserved Databricksがどのような助けに？

©2021 Databricks Inc. — All rights reserved 6 Lakehouse Platform

©2021 Databricks Inc. — All rights reserved Delta Live Tables

©2021 Databricks Inc. — All rights reserved 分析機械学習ビジネス洞察

©2021 Databricks Inc. — All rights reserved 鍵となる差別化要素

©2023 Databricks Inc. — All rights reserved 連続あるいはスケジュールされたデータ取り込み • Auto

©2023 Databricks Inc. — All rights reserved • “how” を抽象化し、解決すべき

©2023 Databricks Inc. — All rights reserved Bronze Silver CDC経由

©2023 Databricks Inc. — All rights reserved データ品質の検証と監視 • データエクスペクテーションによるデータ

©2023 Databricks Inc. — All rights reserved データパイプラインの観測可能性 • インパクト分析のための、どのようにデータが流

©2023 Databricks Inc. — All rights reserved • デプロイ前に容易にテストできるプロダクションと分離された環境で開発

©2023 Databricks Inc. — All rights reserved • 自動エラーハンドリングと容易なリプレイでダウンタイムを削減

©2021 Databricks Inc. — All rights reserved • スパイクがあって予期できないストリーミングワークロードを取り扱えるように構築

©2023 Databricks Inc. — All rights reserved すべてのデータ実践者向けのシンプルなワークフロー作成データ実践者はDatabricksワークスペースからDLTパイプラインなどのタスクを容易にオーケストレート。

©2023 Databricks Inc. — All rights reserved Customers

©2023 Databricks Inc. — All rights reserved 1.3 trillion rows

©2023 Databricks Inc. — All rights reserved Delta Live Tables

©2023 Databricks Inc. — All rights reserved “At ADP, we

©2023 Databricks Inc. — All rights reserved Use Case +

©2023 Databricks Inc. — All rights reserved Shell Developers share

©2023 Databricks Inc. — All rights reserved Use Case +

©2023 Databricks Inc. — All rights reserved 提供価値

©2023 Databricks Inc. — All rights reserved Delta Live Tablesの提供価値

©2023 Databricks Inc. — All rights reserved Thank you