Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksによるセキュアで効率的なデータエンジニアリングの実現

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

 Databricksによるセキュアで効率的なデータエンジニアリングの実現

Avatar for Databricks Japan

Databricks Japan

May 10, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. 目次 - 分析基盤イントロダクション
 - Databricksの用途
 - 前環境の課題点
 - セキュリティ要件への対応 


    - データ利用の最適化 
 - チューニングされたSparkによるパフォーマンス向上 
 - 閉塞環境下での工夫
 - DevOpsの改善とコード管理
 - 効果的な権限管理とリソースの最適化 
 - 今後の展望
 - まとめと要望

  2. 分析基盤 全体像 3つの分析環境
 - AWS databricks
 - セキュアな分析環境
 - GCP Bigquery

    in tokyo
 - フォーマルな分析環境
 - GCP Bigquery in US
 - カジュアルな分析環境

  3. 3つの分析環境
 - AWS databricks
 - セキュアな分析環境
 - 論文
 - 管理会計


    - MLモデル開発
 - GCP Bigquery in tokyo
 - フォーマルな分析環境
 - GCP Bigquery in US
 - カジュアルな分析環境
 分析基盤 全体像
  4. AWS Cloud AWS account AWS account VDI : : Source

    DB Databricksの用途 前環境の課題点
  5. AWS Cloud AWS account AWS account VDI : : Source

    DB Squid Domain list Databricksの用途 前環境の課題点 プロキシサーバの管理が大変
 • 疎通可能なドメインをホワイトリスト管理
 
 ◦ サービス追加のたびに確認が必要
 ◦ 意図しないドメイン変更なども発生

  6. AWS Cloud AWS account AWS account VDI : : Source

    DB Databricksの用途 前環境の課題点 データフローが煩雑
 • 論文執筆用途で過去断面への 参照用途がある
 
 • 煩雑ゆえエラー対応の
 工数も多くかかっていた

  7. AWS Cloud AWS account AWS account VDI : : Source

    DB Databricksの用途 前環境の課題点 ユーザ環境の管理コストが高い
 • Jupyter on EMRとAthenaで構築
 ◦ リソースとユーザごとの権限管理が必 要
 ◦ 単一クラスタのため、各用途最適の環 境を用意することが難しい
 

  8. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI Databricksの用途 移行後
  9. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI Databricksの用途 セキュリティ要件への対応 Squid Domain list 管理ドメインの単一化
 • ワークスペースのドメインを許可
 ◦ Databricks の各サービスを 利用可能
 →メンテナンスフリー
 →Privatelinkで安心

  10. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI Squid Domain list Databricksの用途 データ利用の最適化 NotebookをDatabricksで管理
 • ユーザ自身でNotebookを自由に
 ◦ 作成
 ◦ 共有
 ◦ 秘匿
 • またクラスタのRestart権限を付与 することで、使う時間帯だけ立ち上 げる運用が効率化

  11. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI Squid Domain list Databricksの用途 チューニングされた Sparkによるパフォーマンス向上 ETLをマネージドSpark
 • バッチ処理が2~3時間 から1時間以内に
 
 • Delta化処理が簡単 に
 

  12. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI 閉塞環境下での工夫 移行後
  13. AWS Cloud AWS account Control Plane Data Plane Notebook :

    閉塞環境下での工夫 git連携 Push Github actions Git管理を実現
 • Notebook
 • ETL
 

  14. AWS account AWS Cloud Control Plane Data Plane Notebook :

    VDI 閉塞環境下での工夫 クラスタ管理 SSO Division A Division B Common クラスタ最適化
 • ユーザをチーム単位でグ ループ化
 • グループ毎にクラスタを 用意 
 • ユースケースに沿って 調整
 ◦ ライブラリ
 ◦ インスタンスタイプ
 ◦ スケール数
 • Jobクラスタの利用

  15. 今後の展望 first scope 閉塞環境からのMLOps → MLflowで生成したモデルをsagemakerエンドポイントでホスティング second scope 全環境でのML環境の提供 →

    Databricks on GCPでノウハウを引き継ぎつつ汎用化していく 泥臭い部分はDatabricksをフル活用してユーザ側に滲み出ないように スマートでセキュアなML環境構築の実現を目指しています