Slide 1

Slide 1 text

©2024 Databricks Inc. — All rights reserved 1 Databricks勉強会 データブリックス・ジャパン株式会社 2024年6月17日 コアコンセプトとノートブックサンプルを 通じたDatabricksのご紹介

Slide 2

Slide 2 text

©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明 (やよい たかあき) Databricksソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

Learning Spark 2nd Editionの翻訳 + αの内容となっています! Apache Spark徹底入門発売中! 本書は、ビッグデータを主な対象としたデータ分析フレームワークである Apache Spark、MLflow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、 どうすれば効率的な実装が行えるかまで踏み込みつつ、データ AIの実装者がApache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。 ● Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習 ● Spark の操作とSQLエンジンの理解 ● Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ ● JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータ ソースへの接続 ● 構造化ストリーミングを使用してバッチ データとストリーミング データの 分析を実施 ● オープンソースの Delta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築 ● MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの 管理、本番化 ● [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する 各種データフレームの使い分け ● [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用 した新たなコーディングスタイル、 LLMの利用方法の実践

Slide 4

Slide 4 text

アジェンダ ● Databricksとは ● Databricksの使い方 ● Databricksのコアコンセプト ○ ETL開発サイクル ○ アカウントとワークスペース ○ Databricksユニット ○ メダリオンアーキテクチャ ○ Unity Catalog ○ Delta Live Tables ○ Databricksワークフロー ● Databricksを用いたデータ分析

Slide 5

Slide 5 text

©2024 Databricks Inc. — All rights reserved 6000+ の従業員 $1.5B+ の収益 $4B の投資 レイクハウスの発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems データ & AIカンパニー のクリエイター

Slide 6

Slide 6 text

©2024 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023

Slide 7

Slide 7 text

©2024 Databricks Inc. — All rights reserved すべてのデータに対するオープンで 統合された基盤 データレイクハウス データとAIを容易にスケール、活用 生成AI 皆様の組織全体のデータ + AIを民主化 データインテリジェンス プラットフォーム

Slide 8

Slide 8 text

©2024 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像 ) ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク

Slide 9

Slide 9 text

©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 )

Slide 10

Slide 10 text

©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供

Slide 11

Slide 11 text

©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム Databricks AI 生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化

Slide 12

Slide 12 text

©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなたのデータのセマンティクスを理解するために データインテリジェンスエンジ オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 Workflo 過去の処理に ジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Mosaic AI カスタムLLMの作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス どうすれば 組織の皆に データとAIを展開 できるのか? “Project Genie” 自然言語で誰でもデータや AIを活用

Slide 13

Slide 13 text

©2024 Databricks Inc. — All rights reserved 機能紹介 13

Slide 14

Slide 14 text

©2024 Databricks Inc. — All rights reserved レイクハウスで実現するML/BI/ETL 同じデータですべてのワークロードを実現 • 機械学習モデルの開発、運用 • 大量データに対するBI • データパイプラインの開発、運用 Delta LakeとUnity Catalogで実現する データレイクハウス • 容量無制限かつ安価なストレージ • DWH以上のパフォーマンス • バッチ処理、ストリーム処理への対応 • トランザクション保証 • すべてのデータに対するガバナンス(権限管理/ 監査/リネージ) Unity Catalog データサイエンス / 機械学習(ML) BI/DWH データ エンジニアリング / ETL ビジネス アナリスト データ エンジニア データ サイエンティスト

Slide 15

Slide 15 text

©2024 Databricks Inc. — All rights reserved レイクハウスガバナンスのための Unity Catalog すべてのデータ資産のガバナンス、管理 • ウェアハウス、テーブル、カラム • データレイク、ファイル • 機械学習モデル • ダッシュボード、ノートブック 機能 • データリネージ • 属性ベースのアクセス制御 • セキュリティポリシー • テーブル、カラムレベルのタグ • 監査 • データ共有

Slide 16

Slide 16 text

©2024 Databricks Inc. — All rights reserved DatabricksにおけるML & データサイエンス 機械学習 • モデルレジストリ、再現性、本格運用への 投入 • 再現性確保にDelta Lakeを活用 • シチズンデータサイエンティストのための AutoML データサイエンス • インタラクティブ分析向けコラボレーティブ ノートブック、ダッシュボード • Python、R、SQL、Scalaのネイティブサ ポート • Delta Lakeデータのネイティブサポート

Slide 17

Slide 17 text

©2024 Databricks Inc. — All rights reserved Databricksにおけるデータエンジニアリング • Databricksワークフローによるデータ オーケストレーション • Delta Live Tablesによる完全なデータパ イプラインの管理 • Delta Lakeによるキュレーテッド データレイクアプローチを通じて データエンジニアリングをシンプルに

Slide 18

Slide 18 text

©2024 Databricks Inc. — All rights reserved DatabricksにおけるSQLワークロード • Delta LakeにおけるBI、SQLワークロー ドの優れた性能、同時実行性 • 分析に適したネイティブSQLインタフェー ス • Delta Lakeの最新データに直接 クエリーすることによるBIツールの サポート

Slide 19

Slide 19 text

アジェンダ ● Databricksとは ● Databricksの使い方 ● Databricksのコアコンセプト ○ ETL開発サイクル ○ アカウントとワークスペース ○ Databricksユニット ○ メダリオンアーキテクチャ ○ Unity Catalog ○ Delta Live Tables ○ Databricksワークフロー ● Databricksを用いたデータ分析

Slide 20

Slide 20 text

©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ

Slide 21

Slide 21 text

©2024 Databricks Inc. — All rights reserved Databricksの使い方イメージ

Slide 22

Slide 22 text

©2024 Databricks Inc. — All rights reserved Databricksワークスペース ユーザーアイコン ユーザー設定 サイドメニュー

Slide 23

Slide 23 text

©2024 Databricks Inc. — All rights reserved Databricksノートブック

Slide 24

Slide 24 text

©2024 Databricks Inc. — All rights reserved Databricksクラスター Best Practice Databricksにおける一番無駄なコストは「使っていな いクラスターを起動しておく」ことです。 自動停止の設定を活用しましょう。

Slide 25

Slide 25 text

©2024 Databricks Inc. — All rights reserved ノートブックをクラスターにアタッチ Best Practice プログラムを実行する際にのみクラスターが必要と なります。プログラムの修正を行う際はクラスター は不要です。

Slide 26

Slide 26 text

©2024 Databricks Inc. — All rights reserved プログラムの実行

Slide 27

Slide 27 text

アジェンダ ● Databricksとは ● Databricksの使い方 ● Databricksのコアコンセプト ○ ETL開発サイクル ○ アカウントとワークスペース ○ Databricksユニット ○ メダリオンアーキテクチャ ○ Unity Catalog ○ Delta Live Tables ○ Databricksワークフロー ● Databricksを用いたデータ分析

Slide 28

Slide 28 text

©2024 Databricks Inc. — All rights reserved ETL開発サイクル 28

Slide 29

Slide 29 text

©2024 Databricks Inc. — All rights reserved ETL開発サイクル データ 取り込み 最適化Spark COPY INTO Auto Loader 生の取り込みデータ 履歴 Bronze フィルタリング クレンジング、拡張 Silver ビジネスレベルの 集計データ Gold Databricksワークフロー ETL ストリーミング 最適化Spark Photon Python, SQL, Scala, R ジョブ スケジューラ 揮発性 クラスター バッチ取り込みと オーケストレーション ストリーミング イベント クラウドの取り込み サービング レイヤー(オプション) ガバナンス 計算リソース メダリオン アーキテクチャ Unity Catalog

Slide 30

Slide 30 text

©2024 Databricks Inc. — All rights reserved アカウントとワークスペース 30

Slide 31

Slide 31 text

©2024 Databricks Inc. — All rights reserved アカウントとワークスペース

Slide 32

Slide 32 text

©2024 Databricks Inc. — All rights reserved Databricksユニット(DBU) 32

Slide 33

Slide 33 text

©2024 Databricks Inc. — All rights reserved Databricks - プラットフォーム製品とコンピュート Databricks製品 クラウド コンピュート ● Databricksプラットフォー ム製品を起動する際、 お 客様のクラウド アカウント内に コンピュートのインフラを 配備します。 ● クラウドコンピュートのコス トはDatabricksのコストと は別であり Databricksの 価格*の 要素ではありません (サー バレス製品は除く) * サーバレスのDBUにおいては、クラウドコンピュートは Databricksのアカウントに存在し、このコストをお客様に請求します。 Databricks サーバレス 製品 Databricksアカウント クラウドコンピュート 非サーバレス サーバレス

Slide 34

Slide 34 text

©2024 Databricks Inc. — All rights reserved DBUとは? ▪ Databrick Unit (DBU)は処理能力に対して正規化された単位です ▪ Databricks製品のほとんどがDBUで課金されます ▪ Databricksの消費量/使用量を計測するために DBUを使用しています ▪ 消費されるDBUの数は、使用された計算リソースによって決定されます ▪ $DBU/hourは特定の製品の時間あたりの価格です 注意事項: よりパワフルなクラウドコンピュートほど、 時間あたりのDBUが増加します

Slide 35

Slide 35 text

©2024 Databricks Inc. — All rights reserved Databricks Unit (DBU)は時間あたりの処理能力の単位であり、秒単位で課金されます ▪ Databricksクラスターの起動で課金 ▪ アイドル状態のプールインスタンスではDBU課金されません (AzureのVMコストは発生します) ドライバー DS3_v2 ワーカー DS3_v2 ワーカー DS3_v2 ワーカー DS3_v2 2時間 4ノード (1ドライバー + 3ワーカー) x 2時間 = 8 DBU 合計コスト = 8 DBUのコスト + DS3_v2の8 インスタンス時間のAzureコスト Azure Databricksのコスト - DBU

Slide 36

Slide 36 text

©2024 Databricks Inc. — All rights reserved 課金モデル ● 使用量に応じてスケールする課金モデルに基づく柔軟な消費が可能に。 ● Databricks Unit (DBU)を消費するクラスターやSQLウェアハウスを用いる際に コストが発生します。 ● DBUあたりの金額はワークスペースの課金プラン(スタンダートやプレミアム)と コンピュートの選択肢(インタラクティブ、ジョブ、SQLウェアハウスなど)に 依存します。 ● 他のAzureサービスと一緒に請求されます。 ● コンピュートのインスタンスが実行されていない際にはDBUは課金されません。

Slide 37

Slide 37 text

©2024 Databricks Inc. — All rights reserved マルチホップアーキテクチャ(メ ダリオンアーキテクチャ) 37

Slide 38

Slide 38 text

©2024 Databricks Inc. — All rights reserved ETL開発サイクル データ 取り込み 最適化Spark COPY INTO Auto Loader 生の取り込みデータ 履歴 Bronze フィルタリング クレンジング、拡張 Silver ビジネスレベルの 集計データ Gold Databricksワークフロー ETL ストリーミング 最適化Spark Photon Python, SQL, Scala, R ジョブ スケジューラ 揮発性 クラスター バッチ取り込みと オーケストレーション ストリーミング イベント クラウドの取り込み サービング レイヤー(オプション) ガバナンス 計算リソース メダリオン アーキテクチャ Unity Catalog

Slide 39

Slide 39 text

©2024 Databricks Inc. — All rights reserved レイクハウスにおけるマルチホップ CSV JSON TXT Bronze Silver Gold AIやレポート ストリーミング分析 データ品質 Databricks Auto Loader

Slide 40

Slide 40 text

©2024 Databricks Inc. — All rights reserved レイクハウスにおけるマルチホップ ブロンズレイヤー 通常は取り込みデータの生のコピー 従来のデータレイクを置き換え 完全かつ未処理のデータ履歴に対する効率的なストレージを提供しクエ リーを可能に 40 Bronze

Slide 41

Slide 41 text

©2024 Databricks Inc. — All rights reserved レイクハウスにおけるマルチホップ シルバーレイヤー データストレージの複雑性、レーテンシー、冗長性を削減 ETLのスループットやクエリー性能を最適化 オリジナルデータの粒度を保持 (集計なし) 重複レコードの排除 プロダクションのスキーマを強制 データ品質のチェック、破損データの検疫 41 Silver

Slide 42

Slide 42 text

©2024 Databricks Inc. — All rights reserved レイクハウスにおけるマルチホップ ゴールドレイヤー MLアプリケーション、レポート、ダッシュボード、 アドホック分析を支援 通常は集計を用いて洗練されたデータビューを提供 プロダクションシステムの負荷を軽減 ビジネス上重要なデータのクエリー性能を最適化 42 Gold

Slide 43

Slide 43 text

©2024 Databricks Inc. — All rights reserved Unity Catalog 43

Slide 44

Slide 44 text

©2024 Databricks Inc. — All rights reserved ファイルに対する権限 テーブル、ビューに対する権限 テーブル、カラム、行に対する権限 行列レベルの権限の不在 ポリシー変更時の柔軟性の欠如 データとの同期のずれ 異なるガバナンスモデル さらに異なるガバナンスモデル データレイク メタデータ データウェアハウス MLモデル ダッシュボード データとAIのガバナンスは複雑です MLモデル、ダッシュボード、特徴量など に対する権限 データ アナリスト データ エンジニア データ サイエンティスト 44

Slide 45

Slide 45 text

©2024 Databricks Inc. — All rights reserved Databricks Unity Catalog Unity Catalog データレイク メタデータ データウェアハウス MLモデル ダッシュボード データ アナリスト データ エンジニア データ サイエンティスト 45 データ、分析、AIに対する統合ガバナンス

Slide 46

Slide 46 text

©2024 Databricks Inc. — All rights reserved 46 Lakehouse Platform Data Warehousing Data Engineering Data Science and ML Data Streaming All structured and unstructured data Cloud Data Lake Unity Catalog Fine-grained governance for data and AI Delta Lake Data reliability and performance Databricks Unity Catalog データ、分析、AIに対する統合ガバナンス ● クラウド横断のデータマッピング、保護、監査 ● オープンなデータ共有とコラボレーション ● シームレスなデータ観測性と品質 ● 生産性や発見可能性の改善 ● 最適化パフォーマンスとコスト削減

Slide 47

Slide 47 text

©2024 Databricks Inc. — All rights reserved 47 Unity Catalog - キーとなる機能 ● 集中管理のメタデータとユーザー ● 集中管理のデータアクセスコントロール ● データリネージ ● データアクセス監査 ● データ検索と発見 ● Delta Sharingによるセキュアなデータ共有 Databricks Workspace Databricks Workspace Unity Catalog GRANT … ON … TO … REVOKE … ON … FROM … Catalogs, Databases (schemas), Tables, Views, Storage credentials, External locations

Slide 48

Slide 48 text

©2024 Databricks Inc. — All rights reserved Databricks ワークスペース2 集中管理のメタデータとユーザー 48 Unity Catalogなし Unity Catalogあり ご自身のデータ領域における統合ビューの構築 Databricks ワークスペース 1 Databricks ワークスペース Databricks ワークスペース Unity Catalog ユーザー管理 メタストア ユーザー管理 メタストア クラスター SQLウェアハウス アクセス コントロール アクセス コントロール ユーザー管理 メタストア クラスター SQLウェアハウス アクセス コントロール クラスター SQLウェアハウス クラスター SQLウェアハウス

Slide 49

Slide 49 text

©2024 Databricks Inc. — All rights reserved 49 3レベルの名前空間 SELECT * FROM main.paul.red_wine; -- .. SELECT * FROM hive_metastore.default.customers; Unity Catalog Catalog 2 Catalog 1 Database 2 Database 1 External Table ビュー 外部 テーブル マネージド テーブル hive_metastore (レガシー) default (データベース) customers (テーブル) 既存メタストアへのシームレスなアクセス

Slide 50

Slide 50 text

©2024 Databricks Inc. — All rights reserved 50 集中管理のアクセスコントロール GRANT ON TO `` GRANT SELECT ON iot.events TO engineers 権限レベルの 選択 お使いのIDプロバイ ダーとグループ を同期 ‘テーブル’= S3/ADLSの ファイルのコレクション ANSI SQL DCLの使用 UIの使用 ワークロード横断のアクセス権を集中的に許可、管理

Slide 51

Slide 51 text

©2024 Databricks Inc. — All rights reserved 51 すべてのワークロードに対する自動リネージ ● Databricksクラスター、SQLウェア ハウスにおける実行時データリネージ自 動キャプチャ ● テーブル、カラムレベルのリネージ ● Unity Catalogの共通権限モデルの活用 ● テーブル、ダッシュボード、ワークフロー、 ノートブック、特徴量テーブル、ファイル、 DLTのリネージ 組織におけるデータフロー、データ活用に対するエンドツーエンドの可視性

Slide 52

Slide 52 text

©2024 Databricks Inc. — All rights reserved Delta Live Tables 52

Slide 53

Slide 53 text

連続あるいは スケジュールによ るデータ 取り込み 宣言型ETL パイプライン データ品質検証お よび モニタリング データ パイプラインの観 測可能性 オートスケーリン グおよび 耐障害性 自動デプロイ オペレーション パイプライン& ワークフローの オーケストレー ション チェンジデータ キャプチャー Databricksでデータエンジニアリングを成功させる鍵となる差別 化要因 Apache Spark、Delta Lakeを組み合わせることでもこれらを実現できますが、開発 工数が膨大なものとなります ...

Slide 54

Slide 54 text

● 「どのように」を抽象化し「何を」解くのかを定義す る、意図に基づく宣言型開発を使用 ● 自動で高品質なリネージュを作成し、データパイ プラインのテーブルの依存関係を管理 ● エラー、依存関係の欠如、文法エラーを自動で チェックし、パイプラインのリカバリーを管理 /* アカウントテーブルの一時ビューを作成 */ CREATE INCREMENTAL LIVE VIEW account_raw AS SELECT * FROM cloud_files(“/data”, “csv”); /* ステージ 1: ブロンズテーブルで不適切な行を削除 */ CREATE INCREMENTAL LIVE TABLE account_bronze AS COMMENT "適切なIDのアカウントを含むブロンズテーブル " SELECT * FROM fire_account_raw ... /* ステージ 2:シルバーに行を送信し、妥当性チェックを適用 */ CREATE INCREMENTAL LIVE TABLE account_silver AS COMMENT "妥当性チェックを行なったシルバーアカウント " SELECT * FROM fire_account_bronze ... ブロンズ シルバー ゴールド ソース Delta Live Tablesによる宣言型ETLパイプライン

Slide 55

Slide 55 text

Auto Loaderによる連続、スケジュールのデータ取り込み ● クラウドストレージに新規データが到着するたび に、インクリメンタルかつ効率的に処理を実施 ● 自動で到着データのスキーマを推定 、あるいは スキーマヒントによるスキーマ強制 ● 自動のスキーマ進化 ● レスキューデータカラム - 決してデータを失いま せん JSON CSV ✅ ✅ AVRO PARQUET スキーマ進化 ✅ ✅

Slide 56

Slide 56 text

ブロンズ シルバー CDC経由 UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミング ソース クラウドオブ ジェクトストレー ジ 構造化データ 非構造化 データ 準構造化 データ データ移行 サービス データソー ス ● DBR、クラウドストレージ、 DBFSでサポートされて いる任意のデータの行レベルの変更をキャプ チャー ● よりシンプルなアーキテクチャ : シンプルかつイン クリメンタルなパイプラインの構築 ● 順序が守られていないイベントのハンドリング ● スキーマ進化 ● シンプルかつ宣言型の「 APPLY CHANGES INTO」 APIを用いた変更レコード (insert、update、 delete)のインクリメンタルな処理 Delta Live Tablesによるチェンジデータキャプチャー(CDC)

Slide 57

Slide 57 text

Delta Live Tablesによるデータ品質検証およびモニタリング ▪ データエクスペクテーションでパイプラインにおけ るデータ品質、完全性を定義 ▪ 柔軟なポリシーによるデータ品質エラーへの対応 (失敗、削除、警告、検疫 ) ▪ 全てのデータパイプライン実行と品質メトリクスを 記録、追跡、レポート /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウント IDを含むブロンズテーブル " SELECT * FROM fire_account_raw ...

Slide 58

Slide 58 text

Delta Lives Tableにおけるデータパイプラインの観測可能性 ● インパクト分析のためのデータフローに対する可 視性を提供する高品質かつ高精度なリネージュ ダイアグラム ● データパイプラインの オペレーション、ガバナン ス、品質、ステータス に対する行レベルでのきめ 細かいロギング ● 継続オペレーションを確実にするためのデータ パイプラインジョブの連続的モニタリング ● Databricks SQLを用いたメールによる アラート

Slide 59

Slide 59 text

● バックログ認知のスケーリング意思決定によるストリー ミングSLOの達成 - スケールアップ、スケールダウンす るために、バックログメトリクスとクラスター利用率 の両 方をモニタリング ● 自動エラーハンドリングと容易な際実行による ダウンタイムの削減 ● すべてのDelta Liveテーブルの自動最適化による メンテナンスの排除 ● ジョブを並列化しデータ移動を最小化する弾力性のある Apache Spark™ベースの計算クラスターを 自動で配備 し、データパイプラインワークロードを処理 Streaming source Spark executors No/Small backlog & low utilization Backlog monitoring Utilization monitoring Scale down Delta Live Tablesによるオートスケーリング、耐障害性

Slide 60

Slide 60 text

©2024 Databricks Inc. — All rights reserved Databricksワークフロー 60

Slide 61

Slide 61 text

©2024 Databricks Inc. — All rights reserved ETL開発サイクル データ 取り込み 最適化Spark COPY INTO Auto Loader 生の取り込みデータ 履歴 Bronze フィルタリング クレンジング、拡張 Silver ビジネスレベルの 集計データ Gold Databricksワークフロー ETL ストリーミング 最適化Spark Photon Python, SQL, Scala, R ジョブ スケジューラ 揮発性 クラスター バッチ取り込みと オーケストレーション ストリーミング イベント クラウドの取り込み サービング レイヤー(オプション) ガバナンス 計算リソース メダリオン アーキテクチャ Unity Catalog

Slide 62

Slide 62 text

©2024 Databricks Inc. — All rights reserved Databricksワークフローとは? すべてのクラウドで誰もが高信頼のデータ、分析、 AIワークフローを構築できる 完全マネージドのレイクハウスオーケストレーションサービス 完全マネージド 完全マネージドのオーケストレー ションサービスによって運用オー バーヘッドを取り除くことで、イン フラストラクチャの管理ではなく ワークロード自身にフォーカス。 プラットフォームと密接に インテグレーション お使いのレイクハウスプラット フォーム向けに設計され組み込 まれているので、すべてのワー クフローに対する深いモニタリン グ機能と集中管理された観測能 力を提供。 何でもどこでも オーケストレーション すべてのクラウドで完全なデータ とAIのライフサイクルにおける 様々なワークロードを実行。 Delta Live Tables、SQL、 Spark、ノートブック、dbt、MLモ デルなどのジョブをオーケスト レーション。 シンプルなワークフロー作成 特殊スキルを持つ人に限らず データチームの誰でも活用でき る簡単なポイント&クリックの作 成体験。 データ、分析、AIのための高信頼オーケストレーション 立証された信頼性 AWS、Azure、GCPで日々実行 されている数千万のプロダクショ ンワークロードで立証された信 頼性に基づいて安心してワーク ロードを実行。 https://www.databricks.com/jp/product/workflows

Slide 63

Slide 63 text

©2024 Databricks Inc. — All rights reserved 63 ジョブ すべてのタスクに対するワークフロー (DAG)。ノート ブック、Python、Databricks SQL、DLT、dbt、MLなど Delta Live Tables 自動化データパイプライン、 Delta Lakeの品質、 リネージ。 Databricksレイクハウスの オーケストレーション Lakehouse Platform Data Warehousing Data Engineering Data Science and ML Data Streaming すべての構造化データ、非構造化データ クラウドデータレイク Unity Catalog データ、AIに対するきめ細かいガバナンス Delta Lake データの信頼性とパフォーマンス Databricksワークフロー

Slide 64

Slide 64 text

©2024 Databricks Inc. — All rights reserved Databricksワークフロー - ワークフロージョブ 64 ▪ これは何? DAGによる容易なコードの作成、スケジュール、オー ケストレーション (有効非巡回グラフ) ▪ キーとなる機能 ▪ シンプルさ: UIでの容易な作成とモニタリング ▪ ワークロードに合わせた多数のタスク タイプ ▪ プラットフォームに完全にインテグレーションされて おり、結果の調査とデバッグを迅速に ▪ 立証されたDatabricksスケジューラの信頼性 ▪ 容易にステータスをモニタリングする観測可能性 ワーク フロー ジョブ タスクの DAG

Slide 65

Slide 65 text

©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル Notebook、DLT、Python wheelタスクによるジョブ(DAG) 65 Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック カスタムライブラリを用いた Databricksクラスター

Slide 66

Slide 66 text

©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル 66 Databricksノートブック(Python、SQL、Scala) Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック

Slide 67

Slide 67 text

©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル 67 Delta Live Tablesパイプライン(Triggeredモード) Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック

Slide 68

Slide 68 text

©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル 68 dbtパイプライン Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック

Slide 69

Slide 69 text

©2024 Databricks Inc. — All rights reserved Databricksジョブのサンプル 69 Power BIデータセットに対するAPIコールを 行うPython wheel import requests r = requests.get('https://docs.microsoft.com/en-us/ resGET https://api.powerbi.com/v1.0/myorg/groups/{grou pId}/datasets/{datasetId}/refreshes?$top={$top} ', auth=('user', 'pass')) r.status_code Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデー タセットのアップ デート Python Wheel SQLServerから 顧客データをコ ピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから 注文データをコ ピー ノートブック SQLServerから 地域データをコ ピー ノートブック

Slide 70

Slide 70 text

©2024 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 70 タスクタイプを選択: ● ノートブック ● Jar ● Spark Submit ● Python ● Delta Live Tables ● Python Wheel ● dbt ● Databricks SQL

Slide 71

Slide 71 text

©2024 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 71 最初のタスクを作成し、後続のタ スクを追加

Slide 72

Slide 72 text

©2024 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 72 タスクの依存関係の設定

Slide 73

Slide 73 text

©2024 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 73

Slide 74

Slide 74 text

©2024 Databricks Inc. — All rights reserved 複数タスクのジョブモニタリング 74

Slide 75

Slide 75 text

©2024 Databricks Inc. — All rights reserved Databricksジョブのリペア&リラン 75

Slide 76

Slide 76 text

©2024 Databricks Inc. — All rights reserved Databricksジョブのリペア&リラン 76

Slide 77

Slide 77 text

アジェンダ ● Databricksとは ● Databricksの使い方 ● Databricksのコアコンセプト ○ ETL開発サイクル ○ アカウントとワークスペース ○ Databricksユニット ○ メダリオンアーキテクチャ ○ Unity Catalog ○ Delta Live Tables ○ Databricksワークフロー ● Databricksを用いたデータ分析

Slide 78

Slide 78 text

サイドメニューのワークスペースにアクセスし、画面右上の3点リーダーをクリック し、インポートを選択します。 78 ノートブックのインポート

Slide 79

Slide 79 text

URLを選択し、URLのボックスに以下のURLを貼り付けます。 79 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20240617_study_meeting/COVID-19感染者数分 析.html

Slide 80

Slide 80 text

©2024 Databricks Inc. — All rights reserved Thank you 80