Slide 1

Slide 1 text

©2023 Databricks Inc. — All rights reserved Databricksにおける データエンジニアリング 1 2023/11/29 Databricks Japan

Slide 2

Slide 2 text

©2023 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明 (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 @taka_aki

Slide 3

Slide 3 text

©2023 Databricks Inc. — All rights reserved イベントのご案内 JEDAI 2023 X'mas/忘年会 Meetup! 日時: 2023年12月8日(金)18:30 場所: 東京コンベンションホール 東京スクエアガーデン5F (https://www.tokyo.conventionhall.jp/) イベント概要: 2023年を締めくくる、X'mas & 忘年会 のユーザーミート アップを開催いたします!昨年末のChatGPTの登場以来、我々が 活動するData + AIの市場はこれまでに無い盛り上がりを見せてま す。当日はユーザーさまのライトニングトークに加え、これまでの JEDAIにおける活動の振り返りや今後の活動方針のシェア、そし て2023年度のJEDAI Certificatation Rank (Master, Knight, Padawan, Initiate)の発表をいたします!会場のキャパシティも限 りがありますので、是非お早めにご登録ください!

Slide 4

Slide 4 text

アジェンダ ● Databricksとは ● データエンジニアリングとは ● ETL処理 ● メダリオンアーキテクチャ ● Delta Live Tables ● オーケストレーション ● デモ

Slide 5

Slide 5 text

©2023 Databricks Inc. — All rights reserved 6000+ の従業員 $1.5B+ の収益 $4B の投資 レイクハウスの発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems Data Science and Machine Learning Platforms データ & AIカンパニー のクリエイター

Slide 6

Slide 6 text

©2023 Databricks Inc. — All rights reserved データ + AI カンパニー がすべての業界で勝者に

Slide 7

Slide 7 text

©2023 Databricks Inc. — All rights reserved すべてのフライトのデジタルツ インをモデリングするためにAI を活用 オペレーション、メンテナンス、 カスタマーサービス横断で統合 された意思決定を提供 AIで182Mのワイアレス利用者と 15Mの家庭ブロードバンドを 保護 予測アプリケーションが 不正が起きる前に リアルタイムで80%の不正をス トップ AIでローンアプリケーション 体験をシンプルに パーソナライズされたアプリ ケーションを通じて40,000の スモールビジネスに対する $1.4Bのローンを促進

Slide 8

Slide 8 text

©2023 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク オーケストレーション & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI

Slide 9

Slide 9 text

©2023 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク オーケストレーション & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI サイロ化された データ、AI ガバナンス AIがもたらすデータ プライバシー& コントロールの課題 高度に技術的な スタッフへの依存

Slide 10

Slide 10 text

©2023 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023

Slide 11

Slide 11 text

©2023 Databricks Inc. — All rights reserved すべてのデータに対するオープンで 統合された基盤 データレイクハウス データとAIを容易にスケール、活用 生成AI 皆様の組織全体のデータ + AIを民主化 データインテリジェンス プラットフォーム

Slide 12

Slide 12 text

©2023 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像) ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク

Slide 13

Slide 13 text

©2023 Databricks Inc. — All rights reserved ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Databricks AI カスタムLLMの作成チュー ニング、提供

Slide 14

Slide 14 text

©2023 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム Databricks AI 生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Databricks AI カスタムLLMの作成チュー ニング、提供 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化

Slide 15

Slide 15 text

©2023 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなたのデータのセマンティクスを理解するために データインテリジェンスエンジ オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画 Workflo 過去の処理に ジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Databricks AI カスタムLLMの作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス どうすれば 組織の皆に データとAIを展開 できるのか? “Project Genie” 自然言語で誰でもデータや AIを活用

Slide 16

Slide 16 text

©2023 Databricks Inc. — All rights reserved データインテリジェンスプラットフォームによる 真のデータとAIの民主化の実現 シンプル 自然言語が使いやすさと効率性を全員に提供 インテリジェント あなたのデータを理解するためにE2EでAIがインテグレーション プライベート プライベートデータを用いて容易にカスタムモデルを構築

Slide 17

Slide 17 text

©2023 Databricks Inc. — All rights reserved レイクハウスで実現するML/BI/ETL 同じデータですべてのワークロードを実現 • 機械学習モデルの開発、運用 • 大量データに対するBI • データパイプラインの開発、運用 Delta LakeとUnity Catalogで実現する データレイクハウス • 容量無制限かつ安価なストレージ • DWH以上のパフォーマンス • バッチ処理、ストリーム処理への対応 • トランザクション保証 • すべてのデータに対するガバナンス(権限管理/ 監査/リネージ) Unity Catalog データサイエンス/ 機械学習(ML) BI/DWH データ エンジニアリング/ ETL ビジネス アナリスト データ エンジニア データ サイエンティスト

Slide 18

Slide 18 text

©2023 Databricks Inc. — All rights reserved レイクハウスガバナンスのための Unity Catalog すべてのデータ資産のガバナンス、管理 • ウェアハウス、テーブル、カラム • データレイク、ファイル • 機械学習モデル • ダッシュボード、ノートブック 機能 • データリネージ • 属性ベースのアクセス制御 • セキュリティポリシー • テーブル、カラムレベルのタグ • 監査 • データ共有

Slide 19

Slide 19 text

©2023 Databricks Inc. — All rights reserved DatabricksにおけるML & データサイエンス 機械学習 • モデルレジストリ、再現性、本格運用への 投入 • 再現性確保にDelta Lakeを活用 • シチズンデータサイエンティストのための AutoML データサイエンス • インタラクティブ分析向けコラボレーティブ ノートブック、ダッシュボード • Python、SQL、Java、R、Scalaの ネイティブサポート • Delta Lakeデータのネイティブサポート

Slide 20

Slide 20 text

©2023 Databricks Inc. — All rights reserved Databricksにおけるデータエンジニアリング • Databricksワークフローによるデータ オーケストレーション • Delta Live Tablesによる完全なデータパ イプラインの管理 • Delta Lakeによるキュレーテッド データレイクアプローチを通じて データエンジニアリングをシンプルに

Slide 21

Slide 21 text

©2023 Databricks Inc. — All rights reserved DatabricksにおけるSQLワークロード • Delta LakeにおけるBI、SQLワークロー ドの優れた性能、同時実行性 • 分析に適したネイティブSQLインタフェー ス • Delta Lakeの最新データに直接 クエリーすることによるBIツールの サポート

Slide 22

Slide 22 text

©2023 Databricks Inc. — All rights reserved データエンジニアリ ングとは

Slide 23

Slide 23 text

©2023 Databricks Inc. — All rights reserved データエンジニアリングとは 分析などでデータを活用できるようにするための営みです データエンジニアリングとは、様々なソースや フォーマットで提供される生のデータを収集、分析 できるようにするシステムの設計、構築に関するプ ロセスを意味します。このようなシステムによって、 ユーザーはビジネスの成長につながる実践的な データアプリケーションを作り出すことが可能となり ます。 23 What Is Data Engineering?

Slide 24

Slide 24 text

©2023 Databricks Inc. — All rights reserved データエンジニアリングとは なぜ、データエンジニアリングが重要なのでしょうか? 企業の規模に関係なく、すべての企業が重要なビジネス上の質問に回答するために調査する必 要がある膨大な量の様々なデータを所有しています。データエンジニアリングは、 アナリスト、データサイエンティスト、エグゼクティブのようなデータ利用者がすべてのデータを信 頼しながら、クイックかつセキュアに調査できるようにするためのプロセスをサポートすることを目 的としています。 データが様々テクノロジーによって管理され、多様な構造で格納されているため、データアナリス トは課題に直面にしています。さらに、分析で使用するツールはデータが同じテクノロジーで管理 され、同じ構造で格納されていることを前提としています。 24 What Is Data Engineering?

Slide 25

Slide 25 text

©2023 Databricks Inc. — All rights reserved データエンジニアリングとは なぜ、データエンジニアリングが重要なのでしょうか? 例えば、あるブランドが顧客に関して収集するすべてのデータを考えてみます: • あるシステムには請求と出荷が格納されています。 • 別のシステムでは注文履歴を保持しています。 • そして、他のシステムではカスタマーサポート、行動情報、サードパーティデータが格納されて います。 全体的にはこのデータは顧客の包括的なビューを提供します。しかし、これらの様々なデータ セットは独立しており、「どのようなタイプの注文が最も高価なカスタマーサポートのコストにつな がったのか」という特定の質問への回答が非常に困難になります。 データエンジニアリングでは、これらのデータセットを統合し、あなたの質問をクイックかつ効率的 に回答できるようにします。 25 What Is Data Engineering?

Slide 26

Slide 26 text

©2023 Databricks Inc. — All rights reserved データエンジニアリングとは データエンジニアは何をするのでしょうか? データエンジニアリングは、需要の高まっているスキルです。データエンジニアは、データを統合 し、あなたたちがナビゲートする助けとなるシステムを設計する人たちです。データエンジニアは 以下を含む様々なタスクを実行します: • 取得:ビジネスに関連するすべての様々なデータセットを特定します • クレンジング:データにおけるすべてのエラーを特定し、綺麗にします • 変換:すべてのデータに共通的なフォーマットを与えます • 曖昧性の除去:複数の方法で解釈し得るデータを解釈します • 重複排除:データの重複したコピーを排除します これらが完了すると、データレイクやデータレイクハウスのような中央リポジトリにデータを格納す ることができます。また、データエンジニアはデータのサブセットをデータウェアハウスにコピー、 移動することができます。 26 What Is Data Engineering?

Slide 27

Slide 27 text

©2023 Databricks Inc. — All rights reserved データエンジニアリングとは データエンジニアリングのツールとスキル データエンジニアは以下を含む様々なツールとテクノロジーを扱います: • ETLツール: ETL(抽出、変換、ロード)ツールはシステム間でデータを移動します。データにアク セスし、分析により適した形にするためにデータを変換します。 • SQL: 構造化クエリー言語(SQL)はリレーショナルデータベースへのクエリーにおける標準言 語です。 • Python: Pythonは汎用プログラミング言語です。データエンジニアはETLタスクでPythonを使 うことがあります。 • クラウドデータストレージ: Amazon S3、Azure Data Lake Storage(ADLS)、Google Cloud Storageなど • クエリーエンジン: 回答を得るためにデータに対してクエリーを実行するエンジン。データエンジ ニアは、Dremio Sonar、Spark、Flinkなどのエンジンを取り扱います。 27 What Is Data Engineering?

Slide 28

Slide 28 text

©2023 Databricks Inc. — All rights reserved ETL処理 28

Slide 29

Slide 29 text

©2023 Databricks Inc. — All rights reserved ETLとは Extract(抽出)、Transform(変換)、Load(ロード)から構成される処理です 29 ソースシステム ターゲット ETLプロセス

Slide 30

Slide 30 text

©2023 Databricks Inc. — All rights reserved Extract(抽出) ソースシステムからデータをExtract(抽出)します 30 • 最初のステップは、業務システム、API、センサーデータ、マーケティングツール、トランザクショ ンデータベースなど、さまざまなソースからのデータの抽出を行います。これらのデータタイプ には、広く使用されている構造化データであることもあれば、半構造化のJSON形式の可能性 もあります。抽出には、次のような3つの手法があります。 • 更新通知:最も簡単なデータの取得方法はレコード変更時にソースシステムによって通知さ れる場合です。 • 増分抽出: 全てのシステムが更新を通知できるわけではありませんが、特定の期間に変 更されたレコードを指定し、それらのレコードを抽出できます。 • 完全抽出:変更されたデータをまったく特定できないシステムがあります。この場合、完全 抽出によってのみシステムからデータを抽出できる可能性があります。

Slide 31

Slide 31 text

©2023 Databricks Inc. — All rights reserved Transform(変換) ロードする形式にデータをTransform(変換)します 31 • 次のステップは、ソースから抽出された未加工のデータを、別のアプリケーションで使用できる 形式への変換です。運用上のニーズを満たすために、データのクレンジング、マッピング、変 換(多く場合、特定のデータスキーマに変換)が行われます。 • 変換プロセスでは、データの品質と整合性を確保するために、いくつかのタイプの変換が行わ れます。データは通常、ターゲットデータウェアハウスに直接ロードされず、ステージングデー タベースにアップロードされるのが一般的です。 • このステップにより、計画どおりに処理が行われない場合の迅速なロールバックを保証しま す。この段階において、規制遵守に関する監査レポートを作成したり、データの問題を診断し て修復したりすることができます。

Slide 32

Slide 32 text

©2023 Databricks Inc. — All rights reserved Load(ロード) ターゲットシステムにデータをLoad(ロード)します 32 • 最後に、ロード機能は変換されたデータをステージング領域からターゲットデータベースに書 き込むプロセスです。 • ターゲットデータベースには、データが以前に存在していた場合とそうでない場合があります。 アプリケーションの要件に応じて、このプロセスは非常に単純にも、複雑にもなり得ます。これ らの各ステップは、ETL ツールやカスタムコードで実行可能です。

Slide 33

Slide 33 text

©2023 Databricks Inc. — All rights reserved データ 取り込み 最適化Spark COPY INTO Auto Loader 生の取り込みデータ 履歴 Bronze 整理されたデータ フィルタリング クレンジング、拡張 Silver ビジネスレベルの 集計データ Gold Photon ETL ストリーミング 最適化Spark Python, SQL, Scala, R ジョブ スケジューラ 揮発性 クラスター バッチ取り込みと オーケストレーション ストリーミング イベント クラウドの取り込み オプションの サービング レイヤー DatabricksにおけるETL処理

Slide 34

Slide 34 text

©2023 Databricks Inc. — All rights reserved メダリオン アーキテクチャ 34

Slide 35

Slide 35 text

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャとは ETLパイプラインを設計・構築する際の整理学です 35 • メダリオンアーキテクチャは、レイクハウスに格納されているデータの品質を示す一連のデー タレイヤーを表現します。 • 企業のデータプロダクトに対して信頼できる唯一の情報源(single source of truth)を構築す るために、Databricksではマルチレイヤーのアプローチを取ることをお勧めしています。 • このアーキテクチャは、公立的な分析に最適化されたレイアウトでデータ格納される前の検 証、変換を行う複数のレイヤーをデータが追加する際の、原子性、一貫性、分離性、耐久性を 保証します。ブロンズ(生)、シルバー(検証済み)、ゴールド(拡張済み)という用語はそれぞれ のレイヤーにおけるデータの品質を表現しています。

Slide 36

Slide 36 text

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ CSV JSON TXT Bronze Silver Gold AIやレポート ストリーミング分析 データ品質 Databricks Auto Loader

Slide 37

Slide 37 text

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ ブロンズレイヤー 通常は取り込みデータの生のコピー 従来のデータレイクを置き換え 完全かつ未処理のデータ履歴に対する効率的なストレージを提供しクエ リーを可能に 37 Bronze

Slide 38

Slide 38 text

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ シルバーレイヤー データストレージの複雑性、レーテンシー、冗長性を削減 ETLのスループットやクエリー性能を最適化 オリジナルデータの粒度を保持 (集計なし) 重複レコードの排除 プロダクションのスキーマを強制 データ品質のチェック、破損データの検疫 38 Silver

Slide 39

Slide 39 text

©2023 Databricks Inc. — All rights reserved メダリオンアーキテクチャ ゴールドレイヤー MLアプリケーション、レポート、ダッシュボード、 アドホック分析を支援 通常は集計を用いて洗練されたデータビューを提供 プロダクションシステムの負荷を軽減 ビジネス上重要なデータのクエリー性能を最適化 39 Gold

Slide 40

Slide 40 text

©2023 Databricks Inc. — All rights reserved Delta Live Tables 40

Slide 41

Slide 41 text

連続あるいは スケジュールによ るデータ 取り込み 宣言型ETL パイプライン データ品質検証 および モニタリング データ パイプラインの観 測可能性 オートスケーリン グおよび 耐障害性 自動デプロイ オペレーション パイプライン& ワークフローの オーケストレー ション チェンジデータ キャプチャー Databricksでデータエンジニアリングを成功させる鍵となる差別 化要因

Slide 42

Slide 42 text

● 「どのように」を抽象化し「何を」解くのかを定義す る、意図に基づく宣言型開発を使用 ● 自動で高品質なリネージュを作成し、データパイプ ラインのテーブルの依存関係を管理 ● エラー、依存関係の欠如、文法エラーを自動で チェックし、パイプラインのリカバリーを管理 /* アカウントテーブルの一時ビューを作成 */ CREATE INCREMENTAL LIVE VIEW account_raw AS SELECT * FROM cloud_files(“/data”, “csv”); /* ステージ 1: ブロンズテーブルで不適切な行を削除 */ CREATE INCREMENTAL LIVE TABLE account_bronze AS COMMENT "適切なIDのアカウントを含むブロンズテーブル " SELECT * FROM fire_account_raw ... /* ステージ 2:シルバーに行を送信し、妥当性チェックを適用 */ CREATE INCREMENTAL LIVE TABLE account_silver AS COMMENT "妥当性チェックを行なったシルバーアカウント " SELECT * FROM fire_account_bronze ... ブロンズ シルバー ゴールド ソース Delta Live Tablesによる宣言型ETLパイプライン

Slide 43

Slide 43 text

Auto Loaderによる連続、スケジュールのデータ取り込み ● クラウドストレージに新規データが到着するたび に、インクリメンタルかつ効率的に処理を実施 ● 自動で到着データのスキーマを推定、あるいはス キーマヒントによるスキーマ強制 ● 自動のスキーマ進化 ● レスキューデータカラム - 決してデータを失いま せん JSON CSV ✅ ✅ AVRO PARQUET スキーマ進化 ✅ ✅ Auto Loaderでスキーマ推論と進化を設定する | Databricks on AWS

Slide 44

Slide 44 text

ブロンズ シルバー CDC経由 UPSERT CDC経由 UPSERT CDC経由 UPSERT ストリーミング ソース クラウドオブ ジェクトスト レージ 構造化データ 非構造化 データ 準構造化 データ データ移行 サービス データソー ス ● DBR、クラウドストレージ、DBFSでサポートされて いる任意のデータの行レベルの変更をキャプ チャー ● よりシンプルなアーキテクチャ: シンプルかつインク リメンタルなパイプラインの構築 ● 順序が守られていないイベントのハンドリング ● スキーマ進化 ● シンプルかつ宣言型の「APPLY CHANGES INTO」 APIを用いた変更レコード(insert、update、 delete)のインクリメンタルな処理 Delta Live Tablesによるチェンジデータキャプチャー(CDC)

Slide 45

Slide 45 text

Delta Live Tablesによるデータ品質検証およびモニタリング ▪ データエクスペクテーションでパイプラインにおけ るデータ品質、完全性を定義 ▪ 柔軟なポリシーによるデータ品質エラーへの対応 (失敗、削除、警告、検疫) ▪ 全てのデータパイプライン実行と品質メトリクスを 記録、追跡、レポート /* ステージ 1: ブロンズテーブルで不正な行を削除 */ CREATE INCREMENTAL LIVE TABLE fire_account_bronze AS ( CONSTRAINT valid_account_open_dt EXPECT (acconut_dt is not null and (account_close_dt > account_open_dt)) ON VIOLATION DROP ROW COMMENT "適切なアカウントIDを含むブロンズテーブル" SELECT * FROM fire_account_raw ...

Slide 46

Slide 46 text

Delta Live Tablesにおけるデータパイプラインの観測可能性 ● インパクト分析のためのデータフローに対する可 視性を提供する高品質かつ高精度なリネージュ ダイアグラム ● データパイプラインのオペレーション、ガバナン ス、品質、ステータスに対する行レベルでのきめ 細かいロギング ● 継続オペレーションを確実にするためのデータパ イプラインジョブの連続的モニタリング ● Databricks SQLを用いたメールによる アラート

Slide 47

Slide 47 text

©2023 Databricks Inc. — All rights reserved オーケストレーション 47

Slide 48

Slide 48 text

©2023 Databricks Inc. — All rights reserved Databricksワークフローとは? すべてのクラウドで誰もが高信頼のデータ、分析、AIワークフローを構築できる 完全マネージドのレイクハウスオーケストレーションサービス 完全マネージド 完全マネージドのオーケストレー ションサービスによって運用オー バーヘッドを取り除くことで、イン フラストラクチャの管理ではなく ワークロード自身にフォーカス。 プラットフォームと密接に インテグレーション お使いのレイクハウスプラット フォーム向けに設計され組み込 まれているので、すべてのワー クフローに対する深いモニタリン グ機能と集中管理された観測能 力を提供。 何でもどこでも オーケストレーション すべてのクラウドで完全なデータ とAIのライフサイクルにおける 様々なワークロードを実行。 Delta Live Tables、SQL、 Spark、ノートブック、dbt、MLモ デルなどのジョブをオーケスト レーション。 シンプルなワークフロー作成 特殊スキルを持つ人に限らず データチームの誰でも活用でき る簡単なポイント&クリックの作 成体験。 データ、分析、AIのための高信頼オーケストレーション 立証された信頼性 AWS、Azure、GCPで日々実行 されている数千万のプロダクショ ンワークロードで立証された信 頼性に基づいて安心してワーク ロードを実行。 https://www.databricks.com/jp/product/workflows

Slide 49

Slide 49 text

©2023 Databricks Inc. — All rights reserved Databricksワークフロー - ワークフロージョブ 49 ▪ これは何? DAGによる容易なコードの作成、スケジュール、オー ケストレーション (有効非巡回グラフ) ▪ キーとなる機能 ▪ シンプルさ: UIでの容易な作成とモニタリング ▪ ワークロードに合わせた多数のタスク タイプ ▪ プラットフォームに完全にインテグレーションされて おり、結果の調査とデバッグを迅速に ▪ 立証されたDatabricksスケジューラの信頼性 ▪ 容易にステータスをモニタリングする観測可能性 ワーク フロー ジョブ タスクの DAG

Slide 50

Slide 50 text

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル Notebook、DLT、Python wheelタスクによるジョブ(DAG) 50 Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック カスタムライブラリを用いた Databricksクラスター

Slide 51

Slide 51 text

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 51 Databricksノートブック(Python、SQL、Scala) Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック

Slide 52

Slide 52 text

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 52 Delta Live Tablesパイプライン(Triggeredモード) Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック

Slide 53

Slide 53 text

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 53 dbtパイプライン Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック

Slide 54

Slide 54 text

©2023 Databricks Inc. — All rights reserved Databricksジョブのサンプル 54 Power BIデータセットに対するAPIコールを 行うPython wheel import requests r = requests.get('https://docs.microsoft.com/en-us/ resGET https://api.powerbi.com/v1.0/myorg/groups/{grou pId}/datasets/{datasetId}/refreshes?$top={$top} ', auth=('user', 'pass')) r.status_code Notebook、DLT、Python wheelタスクによるジョブ(DAG) Power BIのデータ セットのアップデー ト Python Wheel SQLServerから顧 客データをコピー ノートブック スタースキーマ モデルの作成 Delta Live Tables SQLServerから注 文データをコピー ノートブック SQLServerから地 域データをコピー ノートブック

Slide 55

Slide 55 text

©2023 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 55 タスクタイプを選択: ● ノートブック ● Jar ● Spark Submit ● Python ● Delta Live Tables ● Python Wheel ● dbt ● Databricks SQL

Slide 56

Slide 56 text

©2023 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 56 最初のタスクを作成し、後続の タスクを追加

Slide 57

Slide 57 text

©2023 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 57 タスクの依存関係の設定

Slide 58

Slide 58 text

©2023 Databricks Inc. — All rights reserved 複数タスクのジョブの作成 58

Slide 59

Slide 59 text

©2023 Databricks Inc. — All rights reserved Thank you! 59