Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Databricks Japan
May 10, 2024
Technology
0
480
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Databricks Japan
May 10, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
DatabricksホストモデルでAIコーディング環境を構築する
databricksjapan
0
350
[Iceberg Meetup #4] ゼロからはじめる: Apache Icebergとはなにか? / Apache Iceberg for Beginners
databricksjapan
0
610
Microsoft Tech Brief : Microsoft Fabric × Databricks × Microsoft Foundry が切り拓く Agentic Analytics 革命 ― Microsoft Ignite & Databricks 社 主催 DATA+AI World Tour Tokyo 最新アップデート総括
databricksjapan
1
190
Money Forwardにおける Databricks利⽤の現状と今後の展望
databricksjapan
0
130
Databricks Lakeflow クイックワークショップ / lakeflow-workshop
databricksjapan
0
240
NEXT弥⽣を⽀えるAI‧データ基盤構想 とシルバー構築について
databricksjapan
0
72
世界をつなぐ、SEGAのグローバルデータメッシュ 〜Databricksで進化する基盤とゲーム運営〜
databricksjapan
0
200
JEDAI認定プログラム JEDAI Order 2026 エントリーのご案内 / JEDAI Order 2026 Entry
databricksjapan
0
300
評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発
databricksjapan
2
390
Other Decks in Technology
See All in Technology
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
760
こんなところでも(地味に)活躍するImage Modeさんを知ってるかい?- Image Mode for OpenShift -
tsukaman
1
170
Context Engineeringの取り組み
nutslove
0
380
AIが実装する時代、人間は仕様と検証を設計する
gotalab555
1
290
AIエージェントに必要なのはデータではなく文脈だった/ai-agent-context-graph-mybest
jonnojun
1
250
OpenShiftでllm-dを動かそう!
jpishikawa
0
140
旅先で iPad + Neovim で iOS 開発・執筆した話
zozotech
PRO
0
100
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.4k
Why Organizations Fail: ノーベル経済学賞「国家はなぜ衰退するのか」から考えるアジャイル組織論
kawaguti
PRO
1
190
ファインディの横断SREがTakumi byGMOと取り組む、セキュリティと開発スピードの両立
rvirus0817
1
1.6k
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
130
SRE Enabling戦記 - 急成長する組織にSREを浸透させる戦いの歴史
markie1009
0
170
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
50
14k
Designing for Timeless Needs
cassininazir
0
130
Automating Front-end Workflow
addyosmani
1371
200k
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
170
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
120
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
590
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
50k
Darren the Foodie - Storyboard
khoart
PRO
2
2.4k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7k
Transcript
Databricksによる セキュアで効率的なデータエ ンジニアリングの実現
山崎 隼也 Yamazaki Junya 株式会社マネーフォワード データ戦略室 データエンジニアリング部 2021年2月にマネーフォワードに入社、全社横 断分析基盤のリプレイスを実施、現在の分析基 盤を作成。 最近は社内のRAG環境のインフラ構築に従事
しています。
目次 - 分析基盤イントロダクション - Databricksの用途 - 前環境の課題点 - セキュリティ要件への対応
- データ利用の最適化 - チューニングされたSparkによるパフォーマンス向上 - 閉塞環境下での工夫 - DevOpsの改善とコード管理 - 効果的な権限管理とリソースの最適化 - 今後の展望 - まとめと要望
分析環境 イントロダクション
分析基盤 全体像 3つの分析環境 - AWS databricks - セキュアな分析環境 - GCP Bigquery
in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境
3つの分析環境 - AWS databricks - セキュアな分析環境 - 論文 - 管理会計
- MLモデル開発 - GCP Bigquery in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境 分析基盤 全体像
Databricksの用途
注釈 https://www.databricks.com/jp/customers/moneyforward ここで触れてます
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点
AWS Cloud AWS account AWS account VDI : : Source
DB Squid Domain list Databricksの用途 前環境の課題点 プロキシサーバの管理が大変 • 疎通可能なドメインをホワイトリスト管理 ◦ サービス追加のたびに確認が必要 ◦ 意図しないドメイン変更なども発生
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 データフローが煩雑 • 論文執筆用途で過去断面への 参照用途がある • 煩雑ゆえエラー対応の 工数も多くかかっていた
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 ユーザ環境の管理コストが高い • Jupyter on EMRとAthenaで構築 ◦ リソースとユーザごとの権限管理が必 要 ◦ 単一クラスタのため、各用途最適の環 境を用意することが難しい
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 移行後
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 セキュリティ要件への対応 Squid Domain list 管理ドメインの単一化 • ワークスペースのドメインを許可 ◦ Databricks の各サービスを 利用可能 →メンテナンスフリー →Privatelinkで安心
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 データ利用の最適化 NotebookをDatabricksで管理 • ユーザ自身でNotebookを自由に ◦ 作成 ◦ 共有 ◦ 秘匿 • またクラスタのRestart権限を付与 することで、使う時間帯だけ立ち上 げる運用が効率化
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 チューニングされた Sparkによるパフォーマンス向上 ETLをマネージドSpark • バッチ処理が2~3時間 から1時間以内に • Delta化処理が簡単 に
Databricksの用途 移行後 • セキュリティ要件への対応 • データ利用の最適化 • チューニングされたSparkによ るパフォーマンス向上 • クラウドベンダーからの分離によ
るポータビリティ向上
https://www.databricks.com/jp/customers/moneyforward ここで触れてます Databricksの用途 移行後
閉塞環境下での 工夫
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI 閉塞環境下での工夫 移行後
AWS Cloud AWS account Control Plane Data Plane Notebook :
閉塞環境下での工夫 git連携 Push Github actions Git管理を実現 • Notebook • ETL
AWS account AWS Cloud Control Plane Data Plane Notebook :
VDI 閉塞環境下での工夫 クラスタ管理 SSO Division A Division B Common クラスタ最適化 • ユーザをチーム単位でグ ループ化 • グループ毎にクラスタを 用意 • ユースケースに沿って 調整 ◦ ライブラリ ◦ インスタンスタイプ ◦ スケール数 • Jobクラスタの利用
今後の展望
今後の展望 first scope 閉塞環境からのMLOps → MLflowで生成したモデルをsagemakerエンドポイントでホスティング second scope 全環境でのML環境の提供 →
Databricks on GCPでノウハウを引き継ぎつつ汎用化していく 泥臭い部分はDatabricksをフル活用してユーザ側に滲み出ないように スマートでセキュアなML環境構築の実現を目指しています
まとめと要望
まとめと要望 まとめ • セキュアな分析、ML環境を低運用コストで • ユーザの声を聞く時間ができた • 浮いた時間でユーザビリティの向上 • クラウドベンダーとの依存が切れてポータビリティ向上
要望 • サーバレスのprivate link対応 • unity catalogへの移行を簡単に
We are hiring!