Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks クリーンルームについてのご紹介

Databricks クリーンルームについてのご紹介

データ分析を進めるために、2つ以上のパーティがそれぞれのデータセットを結合、処理できるセキュアで分離された環境である『クリーンルーム』について紹介します。

Databricks Japan

July 02, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2023 Databricks Inc. — All rights reserved 1 Databricks クリーンルーム

    データ、分析、AIに対するプ ライバシー保護の コラボレーション
  2. ©2023 Databricks Inc. — All rights reserved セキュアなデータコラボレーションがデジタル トランスフォーメーションを推進します “データ共有を促進する企業が多くの

    ビジネス価値メトリクスで他社に打ち勝つよう になるだろう。かつてはデータ共有 はオプショ ンだったが、今では基本である 。多くの企業 が、バリューチェーンにおける社内外のデータ の整流化に投資している” 7/10 の企業が向こう12ヶ月で データコラボレーションが 増加すると予測* *Habu State of Data Collaboration Report 65% のG2000企業が2024年までに データクリーンルームを通じたデータ 共有パートナーシップを持つことに
  3. ©2022 Databricks Inc. — All rights reserved 3 実現されるデータの価値 Delta

    Sharing Databricksマーケットプレース / プライベート取引所 Databricksクリーンルーム ホワイトラベル パートナーのデータへの アクセス 外部のデータとAIへのアクセス プライバシーが安全な コラボレーション データが制御されたインタフェースでのやり とり CRM/SAP/Salesforce/Oracleへの接続 実現されるデータ価値 Databricksはどのように共有と コラボレーションをスーパーチャージするのか あなたのデータへの アクセス
  4. ©2023 Databricks Inc. — All rights reserved データクリーンルームとは? データクリーンルームは、全く新しいデータセットを作成するために、 2つ以上のパーティがそれぞれのデータ

    セットを結合、処理できるセキュアで分離された環境です。 データに直接アクセスしない セキュアなコラボレーション プライバシー保護された環境 での高度なデータ分析の実施 分離された計算インフラに よる強化データセキュリティ 事前に承認されたコードと ユースケースによるデータ へのアクセスコントロール いかなるパーティも他のパーティの 生データやプロプライエタリなモデル に直接アクセスできない(参照できな い)分離環境で、 信頼するパートナーとの データ共有を実現 データ漏洩を防ぎ、個人データがセ キュアで制御された方法で処理され ることを確実にするための、パーティ がアクセスできない 分離された計算資源 許可されないアクセスを防ぎつつも、相 関の探索、パターンの特定、価値のある 洞察を抽出するための高度な データ分析を実行するために必要なツー ルとインフラストラクチャを提供 データの所有者が生のデータに 対してどのような分析を行えるのか、 どのデータを環境から 持ち出せるのかを指定できる 制御された環境を提供 データクリーンルームに求められる 4つのキー機能
  5. ©2023 Databricks Inc. — All rights reserved データクリーンルームの動作原理 セキュアかつプライバシー保護の環境 データクリーン

    ルーム コラボレーター 1 例: 出版社 コラボレーター 2 例: 広告業者 コラボレーター 1 所有の機微データ コラボレーター 2 所有の機微データ Hashed_user_id age income ad_id imp clicks Hashed_user_id conversion_event ジョイントデータに対する処理を実行するためのセキュアな環境 我々共通のユーザーに対して 私のキャンペーンはうまくいっ たのか?
  6. ©2023 Databricks Inc. — All rights reserved Secure Data Sharing

    with Databricks Powered by Delta Sharing: オープン、プラットフォーム横断のデータ共有 Databricksマーケット プレースプライベート 取引所 Databricksホワイトラベル Databricksクリーンルーム Private Preview on AWS Private Preview on AWS GA on all clouds ユースケース : 特定の顧客/パー トナーのみにマーケットプレース のデータ製品へのアクセスを限 定。 必要な計算資源 : 不要。データ 共有のみ。 プライバシー要件 : 中 マーケットプレースで共有 するデータに誰がアクセス できるのかのゲートが必要。 ユースケース : お客様は自身の エンド顧客にDatabricksの完全な 機能を提供可能。 必要な計算資源 : 必要。ソリュー ションは顧客のためにジョブを実行 する必要あり。 プライバシー要件 : 中/高 データアクセス、ワークフローの権 限管理が必要。 ユースケース : コラボレーターは セキュア環境にデータを共有し、 生データやPIIを直接露出することなし に、オーバーラップする分析を実行。 必要な計算資源 : 必要。クリーン ルームワークステーションでは許可 されたジョブを実行することできる。 プライバシー要件 : 高 全てのジョブはコラボレーターに よって承認され、セキュア環境で 実行。それぞれのジョブが完了する 度に環境はシャットダウンされる。 Databricksによるセキュアデータ コラボレーション
  7. データクリーン ルームの ユースケース クロスジョインから機微データ に対するAIモデルの構築まで 広告や小売 購買者行動分析 | 広告のアップリフト /パフォーマンス

    需要予測 | “ネクストベストSKU”の予測 在庫分析 / 調停 金融 規制リスクやコンプライアンス ターゲティングされた金融商品開発 ヘルスケア、科学 ゲノムターゲット特定 | リスクスコアリング 創薬 | 人口レベルの健康状態 観察による研究
  8. ©2023 Databricks Inc. — All rights reserved 既存データルームソリューションは融通が利きません 8 制限

    SQLしか使用できない 一度に利用できるコラボレーターの数に制 限がある 同じデータプラットフォームやクラウド 小規模あるいは綺麗なデータセットのみ 機械学習を実行できない プライベートライブラリの未サポート 対策 複雑な実装 複数のデータ クリーンルーム スコープが限定的 ビジネスインパクト TCOの増加 イノベーションの遅延
  9. ©2023 Databricks Inc. — All rights reserved 9 Databricks 信頼された

    コラボレーションのの プラットフォーム データインテリジェンスプラットフォームでのデータ共 有 Databricks マーケット プレース Lakehouse Apps Databricks クリーン ルーム データ AIモデル ノートブック ダッシュ ボード 利用者 Powered by オープンソース Delta Sharing Unity Catalogによる保護と統治 提供者 統合された方法でデータ、 AI、アプリ、 ソリューションを共有 大規模にリーチするオープンエコシステム セキュアでプライバシー保護された コラボレーション アプリ ソリューション
  10. ©2023 Databricks Inc. — All rights reserved Databricksクリーンルーム データ、分析、AIに対してプライバシーが保護されたコラボレーション コラボレーター

    1 Databricksによって信頼さ れる計算資源上の 相互承認したジョブ 既存テーブル スケーラブル 複数のコラボレーター、任意のク ラウド、リージョンの 任意のサイズのデータに スケール 相互運用 Delta Sharingによって、複製 せずに任意のデータソースを 活用 柔軟性 お好きな言語とワークロード。 Python、SQL、R、Javaなどで任 意の処理を実行 コラボレーター N 既存テーブル Delta Sharing Delta Sharing
  11. ©2023 Databricks Inc. — All rights reserved プライベートプレビューへの参加 Our acceptance

    criteria: • MUST be an AWS customer with UC enabled • MUST have external sharing enabled on the metastore (Delta Sharing) • MUST have a collaborator that they are willing to work with in the clean room private preview. That collaborator must be a Databricks customer (or willing to become one). As an alternate, a customer could also use two metastores for the Private Preview. • MUST be willing to take on egress cost for US-east-2
  12. ©2023 Databricks Inc. — All rights reserved 柔軟性 - お好きな言語とワークロード

    ▪ SQL, R, Scala, Java, Pythonのような任意のワーク ロードや言語を実行 ▪ 全てのパーティで承認されたコードを用いて、 リモートのワークスペースでクリーンルームの ジョブを実行することで、 コラボレーションに おける複雑な法的障壁を排除 ▪ joinやクロスウォークのような シンプルなユースケース や機械学習のような 複雑な計算処理 の両方を実現 ▪ Databricksがホストする信頼された計算資源 でデー タに対する全てのクエリーやジョブを実行
  13. ©2023 Databricks Inc. — All rights reserved スケーラブルな複数パーティのコラボレーション ▪ 最大9つの他のコラボレーター

    と同時に作業 ▪ 一般的なユースケースで洞察の得るための時間を 削減するための事前定義済みのテンプレートの活用 (ジョブ、ワークフロー、ダッシュボードなど ) ▪ アイデンティティサービスプロバイダーからの オファリングなどを活用することで、 クイックに スタートして処理を実行 Coming Soon
  14. ©2023 Databricks Inc. — All rights reserved 相互運用 - 複製なしに全てのデータソースを

    ▪ データを全く移動することなしに クラウド横断、リージョ ン横断、データプラットフォームさえも 横断して 一緒に動作します ▪ Delta Sharingによって、いかなるデータ複製も行うこと なしに、他の参加者に セキュアにあなたの データレイクのデータを共有 ▪ クリーンルーム参加者としてのあなたのデータの 利用を集中的に監査、監視 ▪ データに対するきめ細かいアクセス管理を実現 するこ とで、プライバシー要件に適合 ▪ Unity Catalogでフェデレーションされるクエリーによっ てDatabricks外のデータソース を活用 Coming Soon Coming Soon
  15. ©2024 Databricks Inc. — All rights reserved LiveRamp provides Databricks

    Clean Rooms customers identity-powered data infrastructure for customer modeling and analytics “LiveRamp and Databricks Clean Rooms give marketers the tools they need to create amazing customer experiences, all while protecting privacy. Databricks customers can harness LiveRamp’s identity-powered data infrastructure to fuel better personalization, stronger collaboration, and greater accuracy for customer modeling and analytics — the dream combination for any marketing team.” – Mike Moreau, VP Operations, LiveRamp Data Sharing + Collaboration Partner
  16. ©2023 Databricks Inc. — All rights reserved Databricks Clean Rooms

    require a great ecosystem Industry & technology partners as well as customers “LiveRamp is a recognized global leader in data collaboration, helping companies build enduring brand and business value by collaborating safely, accurately and efficiently. By integrating Databricks’ advanced analytics technology with LiveRamp’s foundational identity framework — which offers quick access to sophisticated extensive person- and household-based identity graphs — businesses can unlock the full value of their data partnerships and gain a comprehensive understanding of their customers, improve marketing performance, and enrich data for better ML model training and effectiveness.” — Erin Boelkens, VP of Product, Liveramp “Datavant’s mission is to connect the world’s health data for better patient outcomes. Datavant enables healthcare and life science organizations to bring together disparate data sets in a controlled and compliant way. By partnering with Databricks, we natively enable our connectivity tools on the Databricks platform, reducing friction and accelerating time to insight in a privacy-preserving manner.” — Tal Rosenberg, President of Life Science, Ecosystem, and Public Sector, Datavant “As healthcare data lake owners, we would like to be able to apply and adjust privacy rules as needed depending on the data set, but without the exposure to potentially sensitive data. A clean room environment with Databricks allows us to own the processing of sensitive data from data suppliers and apply customized privacy rules in a secured environment without accessing the data directly. It also allows us to spin up a collaborative environment for sensitive data while quickly cutting infrastructure build time from days to minutes.” — Anfisa Kaydak, VP, Data Product and Engineering, HealthVerity
  17. Robust set of partnerships and integrations Powerful compute for any

    workload from simple joins to AI Streamlined user experience for both power and business users Habu Clean Room powered by Databricks “Habu is the interoperable data clean room solution that unifies insights, activation and measurement across walled gardens, major retailers, media/CTV channels, identity/activation platforms, and other disparate sources. We’re excited to continue our partnership with Databricks, providing the orchestration, no/low-code interface, and privacy-centric automated workflows that make their new data clean room offering more accessible to business users.” —Matt Kilmartin, Co-Founder and CEO, Habu
  18. ©2023 Databricks Inc. — All rights reserved Learn more about

    Databricks Clean Rooms Visit our website → Join our private preview Sign up → <add LP snip when live> Databricks Clean Rooms How are you solving sensitive data use cases today?
  19. ©2023 Databricks Inc. — All rights reserved The Definitive Guide

    to Data Clean Rooms Learn why data clean rooms are key to businesses in today’s privacy-centric world. Check out the guide → Data Clean Rooms eBook
  20. Databricks Unity Catalog Discovery Data Sharing Access Control Auditing Lineage

    Monitoring Tables Files Models Notebooks Dashboards Unified governance for data & AI Users Apps Databricks Unity Catalog Unified visibility into data and AI Simple permission model for data and AI AI-powered monitoring and observability Open data sharing
  21. ©2023 Databricks Inc. — All rights reserved ▪ Avoid vendor

    lock-in with open source Delta Sharing for seamless data sharing across clouds, regions, and platforms, without replication ▪ Share more than just data - Notebooks, ML models dashboards, applications ▪ Explore and monetize data products through an open marketplace ▪ Collaborate securely on sensitive data with scalable data clean rooms Unity Catalog: Open data sharing
  22. ©2022 Databricks Inc. — All rights reserved Streamlined Sharing with

    Delta Sharing Open cross-platform sharing Share live data with no replication Centralized governance Data Provider Data Consumer Delta Lake table Delta Sharing server Delta Sharing protocol … Any compatible client
  23. ©2023 Databricks Inc. — All rights reserved ▪ Discover more

    than just data - ML models, notebooks, applications and solutions ▪ Evaluate data products faster with prebuilt notebooks and sample data ▪ Avoid vendor lock-in Databricks Marketplace Open marketplace for data, analytics and AI
  24. ©2023 Databricks Inc. — All rights reserved Secure Data Sharing

    with Databricks Powered by Delta Sharing: Open, cross-platform data sharing Databricks Marketplace Private Exchange Databricks White Label Databricks Clean Rooms Private Preview on AWS Private Preview on AWS GA on all clouds Allows data providers to make certain data products discoverable only to a specified group of data consumers in the Databricks Marketplace. Compute required: No. Data sharing only. Privacy requirements: Medium. Need to gate who can access data you share on the Marketplace. No limitations to what data consumers can use that data for. You do not want your data available on the public Marketplace. Use case example: A beverage company lists their data products on the marketplace and specifies only that their bottling partners can see and access that data for future analysis. Allows ISVs to offer the full capabilities of the Databricks platform combined with their product/data to create a unique solution to their end customers. Compute required: Yes. Solution needs to execute jobs for customers. Privacy requirements: Med/High. Need to provide an environment that gives specific access to customers regarding what data they can see and what jobs they can run on that data in that environment. Use case example: An analytics solution company provides an insights platform from ingested customer data with Databricks as a backend. Their end customers now have an environment to mix other data sets with those results. Collaborate on data in a secure environment, where multiple parties can safely combine sensitive data without compromising privacy or security. Compute required: Yes. Clean room owner will execute jobs in the clean room. Privacy requirements: High. Parties need an environment that ensures raw data cannot not be exposed to each other and only see outputs after analysis. Need control over what analysis can be done on raw data. Use case example: A media company can securely share their audience data with advertisers in a clean room. It allows them to perform overlap analysis without directly exposing user information they each have collected. Secure data collaboration with Databricks