Slide 1

Slide 1 text

Databricksによる セキュアで効率的なデータエ ンジニアリングの実現

Slide 2

Slide 2 text

山崎 隼也 Yamazaki Junya 株式会社マネーフォワード データ戦略室 データエンジニアリング部 2021年2月にマネーフォワードに入社、全社横 断分析基盤のリプレイスを実施、現在の分析基 盤を作成。 最近は社内のRAG環境のインフラ構築に従事 しています。

Slide 3

Slide 3 text

目次 - 分析基盤イントロダクション
 - Databricksの用途
 - 前環境の課題点
 - セキュリティ要件への対応 
 - データ利用の最適化 
 - チューニングされたSparkによるパフォーマンス向上 
 - 閉塞環境下での工夫
 - DevOpsの改善とコード管理
 - 効果的な権限管理とリソースの最適化 
 - 今後の展望
 - まとめと要望


Slide 4

Slide 4 text

分析環境 イントロダクション

Slide 5

Slide 5 text

分析基盤 全体像 3つの分析環境
 - AWS databricks
 - セキュアな分析環境
 - GCP Bigquery in tokyo
 - フォーマルな分析環境
 - GCP Bigquery in US
 - カジュアルな分析環境


Slide 6

Slide 6 text

3つの分析環境
 - AWS databricks
 - セキュアな分析環境
 - 論文
 - 管理会計
 - MLモデル開発
 - GCP Bigquery in tokyo
 - フォーマルな分析環境
 - GCP Bigquery in US
 - カジュアルな分析環境
 分析基盤 全体像

Slide 7

Slide 7 text

Databricksの用途

Slide 8

Slide 8 text

注釈 https://www.databricks.com/jp/customers/moneyforward ここで触れてます

Slide 9

Slide 9 text

AWS Cloud AWS account AWS account VDI : : Source DB Databricksの用途 前環境の課題点

Slide 10

Slide 10 text

AWS Cloud AWS account AWS account VDI : : Source DB Squid Domain list Databricksの用途 前環境の課題点 プロキシサーバの管理が大変
 ● 疎通可能なドメインをホワイトリスト管理
 
 ○ サービス追加のたびに確認が必要
 ○ 意図しないドメイン変更なども発生


Slide 11

Slide 11 text

AWS Cloud AWS account AWS account VDI : : Source DB Databricksの用途 前環境の課題点 データフローが煩雑
 ● 論文執筆用途で過去断面への 参照用途がある
 
 ● 煩雑ゆえエラー対応の
 工数も多くかかっていた


Slide 12

Slide 12 text

AWS Cloud AWS account AWS account VDI : : Source DB Databricksの用途 前環境の課題点 ユーザ環境の管理コストが高い
 ● Jupyter on EMRとAthenaで構築
 ○ リソースとユーザごとの権限管理が必 要
 ○ 単一クラスタのため、各用途最適の環 境を用意することが難しい
 


Slide 13

Slide 13 text

AWS account AWS Cloud AWS account Control Plane Data Plane Notebook : : Source DB VDI Databricksの用途 移行後

Slide 14

Slide 14 text

AWS account AWS Cloud AWS account Control Plane Data Plane Notebook : : Source DB VDI Databricksの用途 セキュリティ要件への対応 Squid Domain list 管理ドメインの単一化
 ● ワークスペースのドメインを許可
 ○ Databricks の各サービスを 利用可能
 →メンテナンスフリー
 →Privatelinkで安心


Slide 15

Slide 15 text

AWS account AWS Cloud AWS account Control Plane Data Plane Notebook : : Source DB VDI Squid Domain list Databricksの用途 データ利用の最適化 NotebookをDatabricksで管理
 ● ユーザ自身でNotebookを自由に
 ○ 作成
 ○ 共有
 ○ 秘匿
 ● またクラスタのRestart権限を付与 することで、使う時間帯だけ立ち上 げる運用が効率化


Slide 16

Slide 16 text

AWS account AWS Cloud AWS account Control Plane Data Plane Notebook : : Source DB VDI Squid Domain list Databricksの用途 チューニングされた Sparkによるパフォーマンス向上 ETLをマネージドSpark
 ● バッチ処理が2~3時間 から1時間以内に
 
 ● Delta化処理が簡単 に
 


Slide 17

Slide 17 text

Databricksの用途 移行後 ● セキュリティ要件への対応 ● データ利用の最適化 ● チューニングされたSparkによ るパフォーマンス向上 ● クラウドベンダーからの分離によ るポータビリティ向上

Slide 18

Slide 18 text

https://www.databricks.com/jp/customers/moneyforward ここで触れてます Databricksの用途 移行後

Slide 19

Slide 19 text

閉塞環境下での 工夫

Slide 20

Slide 20 text

AWS account AWS Cloud AWS account Control Plane Data Plane Notebook : : Source DB VDI 閉塞環境下での工夫 移行後

Slide 21

Slide 21 text

AWS Cloud AWS account Control Plane Data Plane Notebook : 閉塞環境下での工夫 git連携 Push Github actions Git管理を実現
 ● Notebook
 ● ETL
 


Slide 22

Slide 22 text

AWS account AWS Cloud Control Plane Data Plane Notebook : VDI 閉塞環境下での工夫 クラスタ管理 SSO Division A Division B Common クラスタ最適化
 ● ユーザをチーム単位でグ ループ化
 ● グループ毎にクラスタを 用意 
 ● ユースケースに沿って 調整
 ○ ライブラリ
 ○ インスタンスタイプ
 ○ スケール数
 ● Jobクラスタの利用


Slide 23

Slide 23 text

今後の展望

Slide 24

Slide 24 text

今後の展望 first scope 閉塞環境からのMLOps → MLflowで生成したモデルをsagemakerエンドポイントでホスティング second scope 全環境でのML環境の提供 → Databricks on GCPでノウハウを引き継ぎつつ汎用化していく 泥臭い部分はDatabricksをフル活用してユーザ側に滲み出ないように スマートでセキュアなML環境構築の実現を目指しています

Slide 25

Slide 25 text

まとめと要望

Slide 26

Slide 26 text

まとめと要望 まとめ ● セキュアな分析、ML環境を低運用コストで
 ● ユーザの声を聞く時間ができた
 ● 浮いた時間でユーザビリティの向上
 ● クラウドベンダーとの依存が切れてポータビリティ向上
 要望 ● サーバレスのprivate link対応 ● unity catalogへの移行を簡単に 


Slide 27

Slide 27 text

We are hiring!