Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Search
Databricks Japan
May 10, 2024
Technology
0
460
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Databricks Japan
May 10, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発
databricksjapan
1
120
MLflowで始めるプロンプト管理、評価、最適化
databricksjapan
1
140
JEDAI Meetup! Data + AI World Tour Tokyo 2025
databricksjapan
1
41
[2025年10月版] AI/BI 最新機能アップデート / AIBI update on Oct
databricksjapan
1
170
[2025年10月版] Databricks Data + AI Boot Camp
databricksjapan
2
520
Microsoft Tech Brief 【2025年10月最新版!】 Fabric & Databricks が導く "未来型 AI Agentic Analytics" の最新アップデートを徹底解説!
databricksjapan
1
390
動画データのポテンシャルを引き出す! Databricks と AI活用への奮闘記(現在進行形)
databricksjapan
2
290
RedshiftからDatabricksに引っ越してみたら、 想像以上に良かった話
databricksjapan
1
330
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
databricksjapan
1
460
Other Decks in Technology
See All in Technology
AWS CLIの新しい認証情報設定方法aws loginコマンドの実態
wkm2
6
700
生成AI時代の自動E2Eテスト運用とPlaywright実践知_引持力哉
legalontechnologies
PRO
0
220
エンジニアリングをやめたくないので問い続ける
estie
2
1.1k
Sansanが実践する Platform EngineeringとSREの協創
sansantech
PRO
2
780
日本Rubyの会の構造と実行とあと何か / hokurikurk01
takahashim
4
1k
形式手法特論:CEGAR を用いたモデル検査の状態空間削減 #kernelvm / Kernel VM Study Hokuriku Part 8
ytaka23
2
450
コミューンのデータ分析AIエージェント「Community Sage」の紹介
fufufukakaka
0
470
[JAWS-UG 横浜支部 #91]DevOps Agent vs CloudWatch Investigations -比較と実践-
sh_fk2
1
250
Playwrightのソースコードに見る、自動テストを自動で書く技術
yusukeiwaki
13
5.2k
第4回 「メタデータ通り」 リアル開催
datayokocho
0
120
研究開発×プロダクトマネジメントへの挑戦 / ly_mlpm_meetup
sansan_randd
0
110
生成AI活用の型ハンズオン〜顧客課題起点で設計する7つのステップ
yushin_n
0
130
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
698
190k
Typedesign – Prime Four
hannesfritz
42
2.9k
Writing Fast Ruby
sferik
630
62k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Done Done
chrislema
186
16k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
4 Signs Your Business is Dying
shpigford
186
22k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.3k
The Invisible Side of Design
smashingmag
302
51k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Designing for humans not robots
tammielis
254
26k
Transcript
Databricksによる セキュアで効率的なデータエ ンジニアリングの実現
山崎 隼也 Yamazaki Junya 株式会社マネーフォワード データ戦略室 データエンジニアリング部 2021年2月にマネーフォワードに入社、全社横 断分析基盤のリプレイスを実施、現在の分析基 盤を作成。 最近は社内のRAG環境のインフラ構築に従事
しています。
目次 - 分析基盤イントロダクション - Databricksの用途 - 前環境の課題点 - セキュリティ要件への対応
- データ利用の最適化 - チューニングされたSparkによるパフォーマンス向上 - 閉塞環境下での工夫 - DevOpsの改善とコード管理 - 効果的な権限管理とリソースの最適化 - 今後の展望 - まとめと要望
分析環境 イントロダクション
分析基盤 全体像 3つの分析環境 - AWS databricks - セキュアな分析環境 - GCP Bigquery
in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境
3つの分析環境 - AWS databricks - セキュアな分析環境 - 論文 - 管理会計
- MLモデル開発 - GCP Bigquery in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境 分析基盤 全体像
Databricksの用途
注釈 https://www.databricks.com/jp/customers/moneyforward ここで触れてます
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点
AWS Cloud AWS account AWS account VDI : : Source
DB Squid Domain list Databricksの用途 前環境の課題点 プロキシサーバの管理が大変 • 疎通可能なドメインをホワイトリスト管理 ◦ サービス追加のたびに確認が必要 ◦ 意図しないドメイン変更なども発生
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 データフローが煩雑 • 論文執筆用途で過去断面への 参照用途がある • 煩雑ゆえエラー対応の 工数も多くかかっていた
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 ユーザ環境の管理コストが高い • Jupyter on EMRとAthenaで構築 ◦ リソースとユーザごとの権限管理が必 要 ◦ 単一クラスタのため、各用途最適の環 境を用意することが難しい
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 移行後
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 セキュリティ要件への対応 Squid Domain list 管理ドメインの単一化 • ワークスペースのドメインを許可 ◦ Databricks の各サービスを 利用可能 →メンテナンスフリー →Privatelinkで安心
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 データ利用の最適化 NotebookをDatabricksで管理 • ユーザ自身でNotebookを自由に ◦ 作成 ◦ 共有 ◦ 秘匿 • またクラスタのRestart権限を付与 することで、使う時間帯だけ立ち上 げる運用が効率化
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 チューニングされた Sparkによるパフォーマンス向上 ETLをマネージドSpark • バッチ処理が2~3時間 から1時間以内に • Delta化処理が簡単 に
Databricksの用途 移行後 • セキュリティ要件への対応 • データ利用の最適化 • チューニングされたSparkによ るパフォーマンス向上 • クラウドベンダーからの分離によ
るポータビリティ向上
https://www.databricks.com/jp/customers/moneyforward ここで触れてます Databricksの用途 移行後
閉塞環境下での 工夫
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI 閉塞環境下での工夫 移行後
AWS Cloud AWS account Control Plane Data Plane Notebook :
閉塞環境下での工夫 git連携 Push Github actions Git管理を実現 • Notebook • ETL
AWS account AWS Cloud Control Plane Data Plane Notebook :
VDI 閉塞環境下での工夫 クラスタ管理 SSO Division A Division B Common クラスタ最適化 • ユーザをチーム単位でグ ループ化 • グループ毎にクラスタを 用意 • ユースケースに沿って 調整 ◦ ライブラリ ◦ インスタンスタイプ ◦ スケール数 • Jobクラスタの利用
今後の展望
今後の展望 first scope 閉塞環境からのMLOps → MLflowで生成したモデルをsagemakerエンドポイントでホスティング second scope 全環境でのML環境の提供 →
Databricks on GCPでノウハウを引き継ぎつつ汎用化していく 泥臭い部分はDatabricksをフル活用してユーザ側に滲み出ないように スマートでセキュアなML環境構築の実現を目指しています
まとめと要望
まとめと要望 まとめ • セキュアな分析、ML環境を低運用コストで • ユーザの声を聞く時間ができた • 浮いた時間でユーザビリティの向上 • クラウドベンダーとの依存が切れてポータビリティ向上
要望 • サーバレスのprivate link対応 • unity catalogへの移行を簡単に
We are hiring!