データ活用の強い味方”Databricks”で実現するデータを生かす基盤のつくり方・活用のポイント

Slide 1

Slide 1 text

Slide 2

Slide 2 text

自己紹介弥生隆明 (やよいたかあき) Databricksシニアソリューションアーキテクト ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。

Slide 3

Slide 3 text

©2023 Databricks Inc. — All rights reserved 投資 $3B 市場価値は5兆円以上従業員数 5000+ (2年前は1500人) 収益(ARR) $1B+ (1,360億円) データレイクハウスの発明者でパイオニア導入企業数 10000+ レイクハウスカンパニーのクリエーターが 2013年に起業知る人ぞ知るデカコーン Databricksは2022年も攻勢を続ける | Coral Capital

Slide 4

Slide 4 text

アジェンダ ● DXとは ● DX推進やデータ活用における課題 ● 課題を解決するDatabricks レイクハウス ● ベストプラクティス

Slide 5

Slide 5 text

アジェンダ ● DXとは ● DX推進やデータ活用における課題 ● 課題を解決するDatabricks レイクハウス ● ベストプラクティス

Slide 6

Slide 6 text

©2023 Databricks Inc. — All rights reserved デジタルトランスフォーメーション(DX)とは変化の激しい現代ではDXやデータ活用は非常に重要な取り組みです • 「DX（デジタルトランスフォーメーション）」とは、企業がAI、IoT、ビッグデータなどのデジタル技術を用いて、業務フローの改善や新たなビジネスモデルの創出だけでなく、レガシーシステムからの脱却や企業風土の変革を実現させることを意味します。 • DXでは単に既存のプロセスをIT化するのではなく、働き方やビジネスプロセスの変革も重要となります。 • データ活用もDXにおいて重要な取り組みとなっています。 DX（デジタルトランスフォーメーション）とは？意味・定義をわかりやすく解説 - 株式会社モンスターラボ

Slide 7

Slide 7 text

アジェンダ ● DXとは ● DX推進やデータ活用における課題 ● 課題を解決するDatabricks レイクハウス ● ベストプラクティス

Slide 8

Slide 8 text

©2023 Databricks Inc. — All rights reserved DX推進やデータ活用における課題しかしながら、様々な課題がDXやデータ活用を妨げています • 組織：組織全体での推進力不足 • 部署間の連携が不十分 • スモールスタートによる成功体験の蓄積が困難 • システム：レガシーシステムによるDXの阻害 • AIプロジェクトを推進しようにも思うようにデータを活用できない • 最新技術を活用できる環境がない • 人：人材不足 • AI技術者、データサイエンティスト、データエンジニアなどは市場で奪い合いの状況

Slide 9

Slide 9 text

アジェンダ ● DXとは ● DX推進やデータ活用における課題 ● 課題を解決するDatabricks レイクハウス ● ベストプラクティス

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

©2023 Databricks Inc. — All rights reserved Databricksレイクハウスプラットフォームシンプル 13 プラットフォームセキュリティ/管理オープンデータレイクデータマネジメント、ガバナンスデータエンジニアリング BI/SQL アナリティクスデータサイエンス/ ML リアルタイムデータアプリケーション Databricksレイクハウスプラットフォームオープンコラボレーティブ ✓ ✓ ✓ 非構造化、準構造化、構造化、ストリーミングデータ

Slide 14

Slide 14 text

©2023 Databricks Inc. — All rights reserved Databricksレイクハウスプラットフォームシンプル 14 ✓ 全てのデータユースケースに対するデータ、アナリティクス、AI を一つの共通したプラットフォームで統合プラットフォームセキュリティ/管理オープンデータレイクデータマネジメント、ガバナンスデータエンジニアリング BI/SQL アナリティクスデータサイエンス/ ML リアルタイムデータアプリケーション Databricksレイクハウスプラットフォーム非構造化、準構造化、構造化、ストリーミングデータ

Slide 15

Slide 15 text

Slide 16

Slide 16 text

©2023 Databricks Inc. — All rights reserved Databricksレイクハウスプラットフォームオープン 16 ✓ オープンソースのスタンダードとフォーマットによるデータエコシステムの統合データランドスケープのパートナー 450以上 Azure Data Factory ビジュアルETL & データ取り込みデータ提供者 Amazon Redshift Azure Synapse レイクハウスプラットフォームビジネスインテリジェンス Google BigQuery Amazon SageMaker Azure Machine Learning 機械学習 Google AI Platform AWS Glue ガバナンスの集中管理トップコンサルティング & SIパートナー

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

©2023 Databricks Inc. — All rights reserved レイクハウスで実現するML/BI/ETL 同じデータですべてのワークロードを実現 • 機械学習モデルの開発、運用 • 大量データに対するBI • データパイプラインの開発、運用 Delta LakeとUnity Catalogで実現するデータレイクハウス • 容量無制限かつ安価なストレージ • DWH以上のパフォーマンス • バッチ処理、ストリーム処理への対応 • トランザクション保証 • すべてのデータに対するガバナンス(権限管理/ 監査/リネージ) Unity Catalog データサイエンス / 機械学習(ML) BI/DWH データエンジニアリング / ETL ビジネスアナリストデータエンジニアデータサイエンティスト

Slide 20

Slide 20 text

©2023 Databricks Inc. — All rights reserved レイクハウスガバナンスのための Unity Catalog すべてのデータ資産のガバナンス、管理 • ウェアハウス、テーブル、カラム • データレイク、ファイル • 機械学習モデル • ダッシュボード、ノートブック機能 • データリネージ • 属性ベースのアクセス制御 • セキュリティポリシー • テーブル、カラムレベルのタグ • 監査 • データ共有

Slide 21

Slide 21 text

©2023 Databricks Inc. — All rights reserved DatabricksにおけるML & データサイエンス機械学習 • モデルレジストリ、再現性、本格運用への投入 • 再現性確保にDelta Lakeを活用 • シチズンデータサイエンティストのための AutoML データサイエンス • インタラクティブ分析向けコラボレーティブノートブック、ダッシュボード • Python、Java、R、Scalaのネイティブサポート • Delta Lakeデータのネイティブサポート

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

©2023 Databricks Inc. — All rights reserved DX推進におけるDatabricksの効用 DatabricksがDXをドライブします • 組織：組織全体での推進力不足 • AIプロジェクトでの部署間コラボレーションを支援(AIモデル、データ、ダッシュボードなどの共有、ノートブックの同時参照・編集) • 機能単位の課金ではなく、計算資源の使用量に基づく従量課金でスモールスタートが簡単 • システム：レガシーシステムによるDXの阻害 • 高信頼・高品質データパイプラインを容易に実現し、AIプロジェクトを強力に支援 • ツールの乱立を防ぎシステムをシンプルに • 大規模言語モデルを含む最新のオープンテクノロジーを容易に活用、環境構築も容易 • 人：人材不足 • 最新技術を活用できることが採用における優位性に • 多くの事例でデータサイエンティスト、データエンジニア、アナリストの生産性を向上

Slide 25

Slide 25 text

©2023 Databricks Inc. — All rights reserved リアルワールドデータ解析とデジタルマーケティングの革新 25 ソリューション ● Microsoft社及び、Databricks社のサポートによりAzure Databricksを導入 ● Delta Lakeによりデータレイクのデータに信頼性と管理性を提供 ● Apache Sparkを活用した並列分散処理による処理の高速化 ● 異なるチームがコラボレーションできるワークスペース導入効果 ● インフラ構築、保守に要する社内リソースが不要に ● 従量課金モデルによりデータ規模に合わせてコストの最適化が可能に ● マルチ言語 (Python/Scala/R/Java/SQL)対応により、柔軟なデータ分析が可能に ● Azure Databricksチームのサポートによる円滑な基盤運用 ● ワークスペースを活用することによるチーム間の円滑なコミュニケーションの実現課題 ● リアルワールドデータは 1ファイルのサイズが1TBを超えることもあり、この規模のデータを既存環境では処理できなかった。 ● データサイエンスチームと ICTチームが円滑にコラボレーションすることが困難であった。田辺三菱製薬がDXを加速! 「Azure Databricks」を活用してリアルワールドデータの分析基盤を構築 ● 適切な医療を適切なタイミングに適切な患者様に届けること。 ○ 成長戦略とバリューチェーンの生産性向上に向けたデジタル基盤の構築 ○ デジタルトランスフォーメーションの推進ビジネスゴール

Slide 26

Slide 26 text

Slide 27

Slide 27 text

クラウド事業者のネィティブサービスとの違い生データ (Bronze) 標準化データ (silver/Gold) モデルインプットモデルファイル予測データモニタリング / ビジネスビュー　データエンジニアデータサイエンティストクレンジング特徴量エンジ基礎統計 EDA モデル学習デプロイ推論ビジネスアナリスト RDBサービス各種検索レポーティングクラウドサービス (複数サービス組合せ、 IaaS思想) Databricks (統合プラットフォーム、 Data+AIの民主化思想) 生データ (Bronze) 標準化データ (silver/Gold) モデルインプットモデルファイル予測データモニタリング / ビジネスビューレイクハウスプラットフォーム 1つのノートブックで全てを実現クレンジング Databricks Notebook EDA 特徴量エンジ Databricks Notebook モデル学習 Databricks Notebook デプロイ推論 Databricks Notebook (MLFLOW) 各種検索レポーティング Databricks Notebook (Databricks SQL ) データサイエンティスト ML エンジニアビジネスサイドデータエンジニア高速なサイクルが困難 IAMって何？仮想クラウドって？・・・シングルインスタンスチームでのコラボは？監査ログはどうする？各種知識要！監視 AIに関わるライフサイクルの全プロセスを、一つの環境で効率的に実施可能 AIサービス AIサービス AIサービス ETLサービス ETLサービス

Slide 28

Slide 28 text

特定機能サービスとの違い AIに関わるライフサイクルの全プロセスを、一つの環境で効率的に実施可能クラウドDWH (機能特化、他のサービスとの連携が前提 ) Databricks (統合プラットフォーム、 Data+AIの民主化思想) 単体ではデータサイエンス / AI に対応不可追加のコスト、システム統合、管理、スキル保有者が必要に • AI機能が不在なため、他のAI製品パートナーに依存 AIに関わるライフサイクル全てをシンプルに • データサイエンティスト、データエンジニアチームが同じ環境から大規模データにアクセスして活用 • 自動化されたAIのライフサイクルを実現モデル構築モデル配備データ準備クラウド DWH

Slide 29

Slide 29 text

©2023 Databricks Inc. — All rights reserved データドリブンかつフレキシブルでスピーディな開発を支援 29 Databricks Case Study Book: 〜次世代データ分析基盤　レイクハウス導入事例〜課題 ● 業務で生じたさまざまなデータを分析できる統合的な活用基盤が欲しい ● 社内に分散したデータを統合するデータパイプラインを構築したい ● データ分析に関わる作業を標準化し、データを扱える人材を徐々に増やしていきたいソリューション ● データ取り込み、前処理、分析、可視化などが可能なオールインワンの環境が実現 ● データのリアルタイムなダイレクト処理が可能に、データの民主化を実現 ● BIツールを使った分析の前段階での手作業による処理が不要に、工数が大幅に削減される

Slide 30

Slide 30 text

アジェンダ ● DXとは ● DX推進やデータ活用における課題 ● 課題を解決するDatabricks レイクハウス ● ベストプラクティス

Slide 31

Slide 31 text

Slide 32

Slide 32 text

©2023 Databricks Inc. — All rights reserved Databricksの環境構築単一の環境(ワークスペース)を使用するよりも複数環境が一般的です • 利用されるお客様の要件に応じてワークスペースを分割します。これによって、ワークスペースの合目的性が高まります。 • Dev/Stage/Prod • 部門別 • しかし、ワークスペースを分割することで、データがサイロ化しては意味がありません。ここでUnity Catalogを活用します。

Slide 33

Slide 33 text

©2023 Databricks Inc. — All rights reserved Databricksの環境構築 Unity CatalogはDatabricksの様々な資産に対するガバナンスを管理しますクラウドストレージ (S3, ADLS, GCS) * コンテナ / バケット監査ログ Databricks ワークスペースアカウントレベルユーザ管理ストレージ認証情報メタストアリネージュエクスプローラ ACLストアデータエクスプローラアクセス管理 Unity Catalog ✔ ユーザー

Slide 34

Slide 34 text

©2023 Databricks Inc. — All rights reserved Databricks ワークスペース 2 Unity Catalogなし Unity Catalogあり Databricks ワークスペース 1 Databricks ワークスペース Databricks ワークスペース Unity Catalog ユーザー管理メタストアクラスター SQLウェアハウスクラスター SQLウェアハウスユーザー管理メタストアクラスター SQLウェアハウスユーザー管理メタストアクラスター SQLウェアハウス Databricksの環境構築複数ワークスペースで活用するデータを一元管理できます

Slide 35

Slide 35 text

©2023 Databricks Inc. — All rights reserved dev Schema databases Tables/ Views Unity メタストア staging bu_dev bu_staging Schema databases Tables/ Views prod bu_prod Schema databases Tables/ Views Schema databases Tables/ Views Schema databases Tables/ Views Schema databases Tables/ Views SDLC(ソフトウェア開発ライフサイクル)環境スコープごと 3レベル名前空間のカタログレベルによって、技術要件、ビジネス要件にそってデータベースやテーブル、ビューを整理することができます。 BUごと team_x_sandbox team_y_sandbox Schema databases Tables/ Views Schema databases Tables/ Views チームのサンドボックスごと中央チームがカタログ +スキーマを所有。中央チームが権限付与を実施。 GRANT USAGE on GRANT USAGE, CREATE on チームがテーブルを所有。チームX/Yによって権限付与。チームXやチームYは別のチームとはデータを共有しません。 Databricksの環境構築要件に応じて3レベル名前空間でデータを管理します

Slide 36

Slide 36 text

©2023 Databricks Inc. — All rights reserved Databricksの環境構築参考資料 • Databricks Unity Catalogのベストプラクティス • Databricksにおけるアイデンティティ管理のベストプラクティス • Databricksにおける機能的ワークスペースの構成方法 • Databricksのデータガバナンスベストプラクティス • AWSにおけるDatabricksデプロイメントについてまとめてみた

Slide 37

Slide 37 text

©2023 Databricks Inc. — All rights reserved Databricksの活用：Delta Live Tables AIにせよBIにせよデータが命です • Databricksでは高信頼・高性能データパイプラインを容易に構築できるソリューションであるDelta Live Tables(DLT)を提供しています。 • Delta Live Tablesの背後ではDelta LakeとApache Sparkの構造化ストリーミングが動作します。従来であれば、(リアルタイム)データパイプラインを構築するためには、自分の手でApache Sparkの構造化ストリーミングのロジックや、Delta Lakeの操作ロジックを記述する必要があり、さらにはエラーハンドリング、品質チェック、監視の仕組みを実装しなくてはなりませんでした。 • Delta Live Tablesを活用することで、開発者は処理のHowではなく、必要とするデータの Whatを宣言することでデータパイプラインを構築することができます。

Slide 38

Slide 38 text

Slide 39

Slide 39 text

©2023 Databricks Inc. — All rights reserved 品質 ETLを通じてレイクハウスのいしずえを築きます Data Lake CSV, JSON, TXT… Kinesis BI & Reporting Streaming Analytics Data Science & ML クレンジング拡張されたデータビジネスレベルの集計データ生データブロンズシルバーゴールド

Slide 40

Slide 40 text

Slide 41

Slide 41 text

©2023 Databricks Inc. — All rights reserved 大規模ETLは複雑かつ不安定なものです Data Lake CSV, JSON, TXT… Kinesis BI & Reporting Streaming Analytics Data Science & ML 貧弱なデータ品質データ品質の監視、強制が困難データのリネージュを追跡できないパイプラインオペレーションが困難詳細なデータレベルでの貧弱な観察可能性エラーハンドリングとリカバリが面倒複雑なパイプラインの開発依存性を構築、維持することが困難バッチとストリーム処理を切り替えるのが困難

Slide 42

Slide 42 text

©2023 Databricks Inc. — All rights reserved Delta Live Tablesのご紹介 BRONZE SILVER GOLD 新鮮かつ高品質データを構築、管理するシンプルな方法パイプラインの容易な開発、維持データパイプライン(バッチ、ストリーミング)を構築、管理するための記述ツール自動テストビルトインの品質管理、データ品質モニタリング簡素化されたオペレーションパイプラインオペレーションに対するディープな可視化を通じた自動エラーハンドリング

Slide 43

Slide 43 text

Slide 44

Slide 44 text

Slide 45

Slide 45 text

©2023 Databricks Inc. — All rights reserved 信頼性とオペレーションのシンプルさを保ちながらスケールしますオペレーションの状態とデータリネージュをビジュアルで追跡できるツールを用いたパイプラインオペレーションのディープな可視性の獲得自動エラーハンドリングおよび容易なリトライによるダウンタイムの削減シングルクリックによるデプロイメント、アップグレードによるメンテナンスのスピードアップ

Slide 46

Slide 46 text

©2023 Databricks Inc. — All rights reserved ShellはDatabricks Delta Live Tablesを活用して、1.3兆行のセンサーデータを容易に処理し、迅速な洞察抽出、MLイノベーションのためにETL開発、管理をシンプルにしています。ユースケース ● サプライチェーン、オペレーション、製品開発、マーケティング、顧客体験にインパクトを与える 70以上のユースケースチャレンジ ● 複雑なデータパイプラインがもたらすオペレーション負荷によって、数百万のセンサーから送られる大量の IoTデータをアクション可能な洞察につなげることが困難だったソリューション ● Delta Lakeにおけるデータウェアハウス、 BI、機械学習統合するレイクハウスアーキテクチャによって、以前は次元不可能であったユースケースの実現が可能に ● Delta Live Tables (DLT)を用いることで、Shellは信頼性がありスケーラブルなデータパイプラインを構築可能に ● 自動ジョブメンテナンスとディープなパイプラインの可視性によって時間とリソースを節約 “Delta Live Talbesは、我々のチームがこの規模のデータの管理に費やす時間と労力を削減します。既存のレイクハウスアーキテクチャを拡張するこの機能によって、 DatabricksはETLとデータウェアハウス市場に破壊的なイノベーションをもたらしています。このことは、我々のような企業にとっては重要なことです。イノベーションパートナーとして Databricksと共に働けることは、我々にとってエキサイティングなことです。 ” Dan Jeavons, GM Data Science

Slide 47

Slide 47 text

©2023 Databricks Inc. — All rights reserved Databricksの活用：Delta Live Tables 参考資料 • Delta Live Tablesのコンセプト • Delta Live TablesのFAQ • Delta Live Tablesのベストプラクティス • Delta Live Tablesによる小売業者へのリアルタイムデータのデリバリー • Databricks Delta Live Tablesでチェンジデータキャプチャをシンプルに

Slide 48

Slide 48 text

©2023 Databricks Inc. — All rights reserved Databricksの活用：データモデリング様々なデータモデリング手法をサポートしています • DatabricksではDWHでよく使用されるスタースキーマ、Data Vaultなどのデータモデルの構築をサポートしています。そのための PK/FK/Idententy Columnsなどの機能を提供しています。 • Data Vaultモデルの延長として、エンドユーザーのクエリーを簡単にするためにディメンショナルモデルのスタースキーマをロードすることも可能です。

Slide 49

Slide 49 text

©2023 Databricks Inc. — All rights reserved Databricksの活用：データモデリング参考資料 • Delta Lakeを用いてDatabricksでスタースキーマを実装する5つのシンプルなステップ • DatabricksレイクハウスプラットフォームにおけるData Vault実装の規範的ガイド • DatabricksレイクハウスにおけるData Vaultのベストプラクティスと実装 • モダンレイクハウスにおけるディメンションモデリングのベストプラクティスと実装

Slide 50

Slide 50 text

©2023 Databricks Inc. — All rights reserved Databricksの活用：他製品との連携 Databricksの特徴の一つは「オープン」です。 • Databricksで数多くのワークロードをサポートしていますが、リバースETLなど専門の製品を活用した方が効率的なケースは多くございます。 • DatabricksレイクハウスプラットフォームはAPIを公開しており、それを活用することで様々な製品・ソリューションを簡単にインテグレーションすることができます。インテグレーションのハブとして動作するDatabricks Partner Connectが提供されています。 • さらには、データ、AIモデルを簡単に共有できるDatabricks Market Placeも公開されました。

Slide 51

Slide 51 text

Slide 52

Slide 52 text

©2023 Databricks Inc. — All rights reserved Databricksの活用：他製品との連携リバースETLでのHightouchの活用 • 通常のDatabricksでのETLは、ソースデータからAI/BIで活用するデータに変換する処理を行います。 • この処理済みのデータをビジネスアプリケーションに還元するのがリバースETLです。このためのソリューションとしてHightouchを活用することができます。

Slide 53

Slide 53 text

©2023 Databricks Inc. — All rights reserved 利用者にとっての価値最新のデータツール・AI ツールとレイクハウスを容易に接続。レイクハウスが分析ユースケースを強化します。 Partner Connect はクラスター、トークン、接続ファイルなどのリソースを自動的に構成するので、パートナーソリューションの統合をシンプルにします。 Databricksの活用：他製品との連携インテグレーションをスムーズにするDatabricks Partner Connect

Slide 54

Slide 54 text

©2023 Databricks Inc. — All rights reserved データ利用者にとっての価値様々なデータセットや資産を発見し、シームレスにアクセス。データ提供者にとっての価値自身のビジネスをDatabricksエコシステムに拡大して露出を増やし、セールスサイクルを加速するためにデータセット、ノートブックなどの資産を配布。データパートナー etc. Databricksの活用：他製品との連携データセットを共有できるDatabricks Marketplace

Slide 55

Slide 55 text

©2023 Databricks Inc. — All rights reserved Databricksの活用：他製品との連携参考資料 • DatabricksにおけるリバースETLでのHightouchの活用 • 人気のデータとAIツールをレイクハウスに連携できるDatabricks Partner Connectのご紹介 • Databricks Partner Connectにおける新たなパートナーインテグレーションの発表 • Databricks Partner Connectにおけるdbt Cloudのローンチ