Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Search
Databricks Japan
May 10, 2024
Technology
0
210
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Databricks Japan
May 10, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
Azure Databricksアカウント & Unity Catalogメタストア概要 / Azure Databricks Account and Unity Catalog Metastore Overview
databricksjapan
0
15
[2024年12月版] Unity Catalogセットアップガイド / Unity Catalog Setup Guide
databricksjapan
0
270
[2024年12月版] Databricks Express Setup手順 / Databricks Express Setup
databricksjapan
1
96
Azure Databricksの最新機能アップデート
databricksjapan
1
98
Databricks Appのご紹介
databricksjapan
1
1.2k
Databricks AI/BI Genie 自然言語を用いたインテリジェンスなデータ分析
databricksjapan
1
320
生成AIとレイクハウス・ガバナンス
databricksjapan
1
180
データプロダクトにおけるCI/CD: Databricks Asset Bundleとは?
databricksjapan
0
270
Databricks クリーンルームについてのご紹介
databricksjapan
0
320
Other Decks in Technology
See All in Technology
ABWGのRe:Cap!
hm5ug
1
120
The future we create with our own MVV
matsukurou
0
2k
iPadOS18でフローティングタブバーを解除してみた
sansantech
PRO
1
130
comilioとCloudflare、そして未来へと向けて
oliver_diary
6
440
#TRG24 / David Cuartielles / Post Open Source
tarugoconf
0
570
三菱電機で社内コミュニティを立ち上げた話
kurebayashi
1
350
20250116_JAWS_Osaka
takuyay0ne
2
200
2025年に挑戦したいこと
molmolken
0
150
月間60万ユーザーを抱える 個人開発サービス「Walica」の 技術スタック変遷
miyachin
1
130
When Windows Meets Kubernetes…
pichuang
0
300
My small contributions - Fujiwara Tech Conference 2025
ijin
0
1.4k
Oracle Base Database Service:サービス概要のご紹介
oracle4engineer
PRO
1
16k
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
133
9k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.8k
What's in a price? How to price your products and services
michaelherold
244
12k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
Building an army of robots
kneath
302
45k
Making Projects Easy
brettharned
116
6k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
570
VelocityConf: Rendering Performance Case Studies
addyosmani
327
24k
Being A Developer After 40
akosma
89
590k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Transcript
Databricksによる セキュアで効率的なデータエ ンジニアリングの実現
山崎 隼也 Yamazaki Junya 株式会社マネーフォワード データ戦略室 データエンジニアリング部 2021年2月にマネーフォワードに入社、全社横 断分析基盤のリプレイスを実施、現在の分析基 盤を作成。 最近は社内のRAG環境のインフラ構築に従事
しています。
目次 - 分析基盤イントロダクション - Databricksの用途 - 前環境の課題点 - セキュリティ要件への対応
- データ利用の最適化 - チューニングされたSparkによるパフォーマンス向上 - 閉塞環境下での工夫 - DevOpsの改善とコード管理 - 効果的な権限管理とリソースの最適化 - 今後の展望 - まとめと要望
分析環境 イントロダクション
分析基盤 全体像 3つの分析環境 - AWS databricks - セキュアな分析環境 - GCP Bigquery
in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境
3つの分析環境 - AWS databricks - セキュアな分析環境 - 論文 - 管理会計
- MLモデル開発 - GCP Bigquery in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境 分析基盤 全体像
Databricksの用途
注釈 https://www.databricks.com/jp/customers/moneyforward ここで触れてます
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点
AWS Cloud AWS account AWS account VDI : : Source
DB Squid Domain list Databricksの用途 前環境の課題点 プロキシサーバの管理が大変 • 疎通可能なドメインをホワイトリスト管理 ◦ サービス追加のたびに確認が必要 ◦ 意図しないドメイン変更なども発生
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 データフローが煩雑 • 論文執筆用途で過去断面への 参照用途がある • 煩雑ゆえエラー対応の 工数も多くかかっていた
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 ユーザ環境の管理コストが高い • Jupyter on EMRとAthenaで構築 ◦ リソースとユーザごとの権限管理が必 要 ◦ 単一クラスタのため、各用途最適の環 境を用意することが難しい
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 移行後
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 セキュリティ要件への対応 Squid Domain list 管理ドメインの単一化 • ワークスペースのドメインを許可 ◦ Databricks の各サービスを 利用可能 →メンテナンスフリー →Privatelinkで安心
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 データ利用の最適化 NotebookをDatabricksで管理 • ユーザ自身でNotebookを自由に ◦ 作成 ◦ 共有 ◦ 秘匿 • またクラスタのRestart権限を付与 することで、使う時間帯だけ立ち上 げる運用が効率化
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 チューニングされた Sparkによるパフォーマンス向上 ETLをマネージドSpark • バッチ処理が2~3時間 から1時間以内に • Delta化処理が簡単 に
Databricksの用途 移行後 • セキュリティ要件への対応 • データ利用の最適化 • チューニングされたSparkによ るパフォーマンス向上 • クラウドベンダーからの分離によ
るポータビリティ向上
https://www.databricks.com/jp/customers/moneyforward ここで触れてます Databricksの用途 移行後
閉塞環境下での 工夫
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI 閉塞環境下での工夫 移行後
AWS Cloud AWS account Control Plane Data Plane Notebook :
閉塞環境下での工夫 git連携 Push Github actions Git管理を実現 • Notebook • ETL
AWS account AWS Cloud Control Plane Data Plane Notebook :
VDI 閉塞環境下での工夫 クラスタ管理 SSO Division A Division B Common クラスタ最適化 • ユーザをチーム単位でグ ループ化 • グループ毎にクラスタを 用意 • ユースケースに沿って 調整 ◦ ライブラリ ◦ インスタンスタイプ ◦ スケール数 • Jobクラスタの利用
今後の展望
今後の展望 first scope 閉塞環境からのMLOps → MLflowで生成したモデルをsagemakerエンドポイントでホスティング second scope 全環境でのML環境の提供 →
Databricks on GCPでノウハウを引き継ぎつつ汎用化していく 泥臭い部分はDatabricksをフル活用してユーザ側に滲み出ないように スマートでセキュアなML環境構築の実現を目指しています
まとめと要望
まとめと要望 まとめ • セキュアな分析、ML環境を低運用コストで • ユーザの声を聞く時間ができた • 浮いた時間でユーザビリティの向上 • クラウドベンダーとの依存が切れてポータビリティ向上
要望 • サーバレスのprivate link対応 • unity catalogへの移行を簡単に
We are hiring!