Slide 1

Slide 1 text

©2023 Databricks Inc. — All rights reserved 1 Databricks クリーンルーム データ、分析、AIに対するプ ライバシー保護の コラボレーション

Slide 2

Slide 2 text

©2023 Databricks Inc. — All rights reserved セキュアなデータコラボレーションがデジタル トランスフォーメーションを推進します “データ共有を促進する企業が多くの ビジネス価値メトリクスで他社に打ち勝つよう になるだろう。かつてはデータ共有 はオプショ ンだったが、今では基本である 。多くの企業 が、バリューチェーンにおける社内外のデータ の整流化に投資している” 7/10 の企業が向こう12ヶ月で データコラボレーションが 増加すると予測* *Habu State of Data Collaboration Report 65% のG2000企業が2024年までに データクリーンルームを通じたデータ 共有パートナーシップを持つことに

Slide 3

Slide 3 text

©2022 Databricks Inc. — All rights reserved 3 実現されるデータの価値 Delta Sharing Databricksマーケットプレース / プライベート取引所 Databricksクリーンルーム ホワイトラベル パートナーのデータへの アクセス 外部のデータとAIへのアクセス プライバシーが安全な コラボレーション データが制御されたインタフェースでのやり とり CRM/SAP/Salesforce/Oracleへの接続 実現されるデータ価値 Databricksはどのように共有と コラボレーションをスーパーチャージするのか あなたのデータへの アクセス

Slide 4

Slide 4 text

©2023 Databricks Inc. — All rights reserved データクリーンルームとは? データクリーンルームは、全く新しいデータセットを作成するために、 2つ以上のパーティがそれぞれのデータ セットを結合、処理できるセキュアで分離された環境です。 データに直接アクセスしない セキュアなコラボレーション プライバシー保護された環境 での高度なデータ分析の実施 分離された計算インフラに よる強化データセキュリティ 事前に承認されたコードと ユースケースによるデータ へのアクセスコントロール いかなるパーティも他のパーティの 生データやプロプライエタリなモデル に直接アクセスできない(参照できな い)分離環境で、 信頼するパートナーとの データ共有を実現 データ漏洩を防ぎ、個人データがセ キュアで制御された方法で処理され ることを確実にするための、パーティ がアクセスできない 分離された計算資源 許可されないアクセスを防ぎつつも、相 関の探索、パターンの特定、価値のある 洞察を抽出するための高度な データ分析を実行するために必要なツー ルとインフラストラクチャを提供 データの所有者が生のデータに 対してどのような分析を行えるのか、 どのデータを環境から 持ち出せるのかを指定できる 制御された環境を提供 データクリーンルームに求められる 4つのキー機能

Slide 5

Slide 5 text

©2023 Databricks Inc. — All rights reserved データクリーンルームの動作原理 セキュアかつプライバシー保護の環境 データクリーン ルーム コラボレーター 1 例: 出版社 コラボレーター 2 例: 広告業者 コラボレーター 1 所有の機微データ コラボレーター 2 所有の機微データ Hashed_user_id age income ad_id imp clicks Hashed_user_id conversion_event ジョイントデータに対する処理を実行するためのセキュアな環境 我々共通のユーザーに対して 私のキャンペーンはうまくいっ たのか?

Slide 6

Slide 6 text

©2023 Databricks Inc. — All rights reserved Secure Data Sharing with Databricks Powered by Delta Sharing: オープン、プラットフォーム横断のデータ共有 Databricksマーケット プレースプライベート 取引所 Databricksホワイトラベル Databricksクリーンルーム Private Preview on AWS Private Preview on AWS GA on all clouds ユースケース : 特定の顧客/パー トナーのみにマーケットプレース のデータ製品へのアクセスを限 定。 必要な計算資源 : 不要。データ 共有のみ。 プライバシー要件 : 中 マーケットプレースで共有 するデータに誰がアクセス できるのかのゲートが必要。 ユースケース : お客様は自身の エンド顧客にDatabricksの完全な 機能を提供可能。 必要な計算資源 : 必要。ソリュー ションは顧客のためにジョブを実行 する必要あり。 プライバシー要件 : 中/高 データアクセス、ワークフローの権 限管理が必要。 ユースケース : コラボレーターは セキュア環境にデータを共有し、 生データやPIIを直接露出することなし に、オーバーラップする分析を実行。 必要な計算資源 : 必要。クリーン ルームワークステーションでは許可 されたジョブを実行することできる。 プライバシー要件 : 高 全てのジョブはコラボレーターに よって承認され、セキュア環境で 実行。それぞれのジョブが完了する 度に環境はシャットダウンされる。 Databricksによるセキュアデータ コラボレーション

Slide 7

Slide 7 text

データクリーン ルームの ユースケース クロスジョインから機微データ に対するAIモデルの構築まで 広告や小売 購買者行動分析 | 広告のアップリフト /パフォーマンス 需要予測 | “ネクストベストSKU”の予測 在庫分析 / 調停 金融 規制リスクやコンプライアンス ターゲティングされた金融商品開発 ヘルスケア、科学 ゲノムターゲット特定 | リスクスコアリング 創薬 | 人口レベルの健康状態 観察による研究

Slide 8

Slide 8 text

©2023 Databricks Inc. — All rights reserved 既存データルームソリューションは融通が利きません 8 制限 SQLしか使用できない 一度に利用できるコラボレーターの数に制 限がある 同じデータプラットフォームやクラウド 小規模あるいは綺麗なデータセットのみ 機械学習を実行できない プライベートライブラリの未サポート 対策 複雑な実装 複数のデータ クリーンルーム スコープが限定的 ビジネスインパクト TCOの増加 イノベーションの遅延

Slide 9

Slide 9 text

©2023 Databricks Inc. — All rights reserved 9 Databricks 信頼された コラボレーションのの プラットフォーム データインテリジェンスプラットフォームでのデータ共 有 Databricks マーケット プレース Lakehouse Apps Databricks クリーン ルーム データ AIモデル ノートブック ダッシュ ボード 利用者 Powered by オープンソース Delta Sharing Unity Catalogによる保護と統治 提供者 統合された方法でデータ、 AI、アプリ、 ソリューションを共有 大規模にリーチするオープンエコシステム セキュアでプライバシー保護された コラボレーション アプリ ソリューション

Slide 10

Slide 10 text

©2023 Databricks Inc. — All rights reserved Databricksクリーンルーム データ、分析、AIに対してプライバシーが保護されたコラボレーション コラボレーター 1 Databricksによって信頼さ れる計算資源上の 相互承認したジョブ 既存テーブル スケーラブル 複数のコラボレーター、任意のク ラウド、リージョンの 任意のサイズのデータに スケール 相互運用 Delta Sharingによって、複製 せずに任意のデータソースを 活用 柔軟性 お好きな言語とワークロード。 Python、SQL、R、Javaなどで任 意の処理を実行 コラボレーター N 既存テーブル Delta Sharing Delta Sharing

Slide 11

Slide 11 text

©2023 Databricks Inc. — All rights reserved プライベートプレビューへの参加 Our acceptance criteria: ● MUST be an AWS customer with UC enabled ● MUST have external sharing enabled on the metastore (Delta Sharing) ● MUST have a collaborator that they are willing to work with in the clean room private preview. That collaborator must be a Databricks customer (or willing to become one). As an alternate, a customer could also use two metastores for the Private Preview. ● MUST be willing to take on egress cost for US-east-2

Slide 12

Slide 12 text

©2023 Databricks Inc. — All rights reserved 柔軟性 - お好きな言語とワークロード ■ SQL, R, Scala, Java, Pythonのような任意のワーク ロードや言語を実行 ■ 全てのパーティで承認されたコードを用いて、 リモートのワークスペースでクリーンルームの ジョブを実行することで、 コラボレーションに おける複雑な法的障壁を排除 ■ joinやクロスウォークのような シンプルなユースケース や機械学習のような 複雑な計算処理 の両方を実現 ■ Databricksがホストする信頼された計算資源 でデー タに対する全てのクエリーやジョブを実行

Slide 13

Slide 13 text

©2023 Databricks Inc. — All rights reserved スケーラブルな複数パーティのコラボレーション ■ 最大9つの他のコラボレーター と同時に作業 ■ 一般的なユースケースで洞察の得るための時間を 削減するための事前定義済みのテンプレートの活用 (ジョブ、ワークフロー、ダッシュボードなど ) ■ アイデンティティサービスプロバイダーからの オファリングなどを活用することで、 クイックに スタートして処理を実行 Coming Soon

Slide 14

Slide 14 text

©2023 Databricks Inc. — All rights reserved 相互運用 - 複製なしに全てのデータソースを ■ データを全く移動することなしに クラウド横断、リージョ ン横断、データプラットフォームさえも 横断して 一緒に動作します ■ Delta Sharingによって、いかなるデータ複製も行うこと なしに、他の参加者に セキュアにあなたの データレイクのデータを共有 ■ クリーンルーム参加者としてのあなたのデータの 利用を集中的に監査、監視 ■ データに対するきめ細かいアクセス管理を実現 するこ とで、プライバシー要件に適合 ■ Unity Catalogでフェデレーションされるクエリーによっ てDatabricks外のデータソース を活用 Coming Soon Coming Soon

Slide 15

Slide 15 text

©2024 Databricks Inc. — All rights reserved LiveRamp provides Databricks Clean Rooms customers identity-powered data infrastructure for customer modeling and analytics “LiveRamp and Databricks Clean Rooms give marketers the tools they need to create amazing customer experiences, all while protecting privacy. Databricks customers can harness LiveRamp’s identity-powered data infrastructure to fuel better personalization, stronger collaboration, and greater accuracy for customer modeling and analytics — the dream combination for any marketing team.” – Mike Moreau, VP Operations, LiveRamp Data Sharing + Collaboration Partner

Slide 16

Slide 16 text

©2023 Databricks Inc. — All rights reserved Databricks Clean Rooms require a great ecosystem Industry & technology partners as well as customers “LiveRamp is a recognized global leader in data collaboration, helping companies build enduring brand and business value by collaborating safely, accurately and efficiently. By integrating Databricks’ advanced analytics technology with LiveRamp’s foundational identity framework — which offers quick access to sophisticated extensive person- and household-based identity graphs — businesses can unlock the full value of their data partnerships and gain a comprehensive understanding of their customers, improve marketing performance, and enrich data for better ML model training and effectiveness.” — Erin Boelkens, VP of Product, Liveramp “Datavant’s mission is to connect the world’s health data for better patient outcomes. Datavant enables healthcare and life science organizations to bring together disparate data sets in a controlled and compliant way. By partnering with Databricks, we natively enable our connectivity tools on the Databricks platform, reducing friction and accelerating time to insight in a privacy-preserving manner.” — Tal Rosenberg, President of Life Science, Ecosystem, and Public Sector, Datavant “As healthcare data lake owners, we would like to be able to apply and adjust privacy rules as needed depending on the data set, but without the exposure to potentially sensitive data. A clean room environment with Databricks allows us to own the processing of sensitive data from data suppliers and apply customized privacy rules in a secured environment without accessing the data directly. It also allows us to spin up a collaborative environment for sensitive data while quickly cutting infrastructure build time from days to minutes.” — Anfisa Kaydak, VP, Data Product and Engineering, HealthVerity

Slide 17

Slide 17 text

Robust set of partnerships and integrations Powerful compute for any workload from simple joins to AI Streamlined user experience for both power and business users Habu Clean Room powered by Databricks “Habu is the interoperable data clean room solution that unifies insights, activation and measurement across walled gardens, major retailers, media/CTV channels, identity/activation platforms, and other disparate sources. We’re excited to continue our partnership with Databricks, providing the orchestration, no/low-code interface, and privacy-centric automated workflows that make their new data clean room offering more accessible to business users.” —Matt Kilmartin, Co-Founder and CEO, Habu

Slide 18

Slide 18 text

©2023 Databricks Inc. — All rights reserved Next Steps

Slide 19

Slide 19 text

©2023 Databricks Inc. — All rights reserved Learn more about Databricks Clean Rooms Visit our website → Join our private preview Sign up → Databricks Clean Rooms How are you solving sensitive data use cases today?

Slide 20

Slide 20 text

©2023 Databricks Inc. — All rights reserved The Definitive Guide to Data Clean Rooms Learn why data clean rooms are key to businesses in today’s privacy-centric world. Check out the guide → Data Clean Rooms eBook

Slide 21

Slide 21 text

©2023 Databricks Inc. — All rights reserved

Slide 22

Slide 22 text

©2023 Databricks Inc. — All rights reserved Appendix

Slide 23

Slide 23 text

Databricks Unity Catalog Discovery Data Sharing Access Control Auditing Lineage Monitoring Tables Files Models Notebooks Dashboards Unified governance for data & AI Users Apps Databricks Unity Catalog Unified visibility into data and AI Simple permission model for data and AI AI-powered monitoring and observability Open data sharing

Slide 24

Slide 24 text

©2023 Databricks Inc. — All rights reserved ■ Avoid vendor lock-in with open source Delta Sharing for seamless data sharing across clouds, regions, and platforms, without replication ■ Share more than just data - Notebooks, ML models dashboards, applications ■ Explore and monetize data products through an open marketplace ■ Collaborate securely on sensitive data with scalable data clean rooms Unity Catalog: Open data sharing

Slide 25

Slide 25 text

©2022 Databricks Inc. — All rights reserved Streamlined Sharing with Delta Sharing Open cross-platform sharing Share live data with no replication Centralized governance Data Provider Data Consumer Delta Lake table Delta Sharing server Delta Sharing protocol … Any compatible client

Slide 26

Slide 26 text

©2023 Databricks Inc. — All rights reserved ■ Discover more than just data - ML models, notebooks, applications and solutions ■ Evaluate data products faster with prebuilt notebooks and sample data ■ Avoid vendor lock-in Databricks Marketplace Open marketplace for data, analytics and AI

Slide 27

Slide 27 text

©2023 Databricks Inc. — All rights reserved Secure Data Sharing with Databricks Powered by Delta Sharing: Open, cross-platform data sharing Databricks Marketplace Private Exchange Databricks White Label Databricks Clean Rooms Private Preview on AWS Private Preview on AWS GA on all clouds Allows data providers to make certain data products discoverable only to a specified group of data consumers in the Databricks Marketplace. Compute required: No. Data sharing only. Privacy requirements: Medium. Need to gate who can access data you share on the Marketplace. No limitations to what data consumers can use that data for. You do not want your data available on the public Marketplace. Use case example: A beverage company lists their data products on the marketplace and specifies only that their bottling partners can see and access that data for future analysis. Allows ISVs to offer the full capabilities of the Databricks platform combined with their product/data to create a unique solution to their end customers. Compute required: Yes. Solution needs to execute jobs for customers. Privacy requirements: Med/High. Need to provide an environment that gives specific access to customers regarding what data they can see and what jobs they can run on that data in that environment. Use case example: An analytics solution company provides an insights platform from ingested customer data with Databricks as a backend. Their end customers now have an environment to mix other data sets with those results. Collaborate on data in a secure environment, where multiple parties can safely combine sensitive data without compromising privacy or security. Compute required: Yes. Clean room owner will execute jobs in the clean room. Privacy requirements: High. Parties need an environment that ensures raw data cannot not be exposed to each other and only see outputs after analysis. Need control over what analysis can be done on raw data. Use case example: A media company can securely share their audience data with advertisers in a clean room. It allows them to perform overlap analysis without directly exposing user information they each have collected. Secure data collaboration with Databricks