Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MeetUP1_大規模データ処理の基盤構築_20220209.pptx.pdf
Search
BrainPad
March 10, 2022
Programming
1
540
MeetUP1_大規模データ処理の基盤構築_20220209.pptx.pdf
BrainPad
March 10, 2022
Tweet
Share
More Decks by BrainPad
See All by BrainPad
白金鉱業Meetup Vol.16_数理最適化案件のはじめかた・すすめかた
brainpadpr
3
950
白金鉱業Meetup Vol.16_【初学者向け発表】 数理最適化のはじめの一歩 〜身近な問題で学ぶ最適化の面白さ〜
brainpadpr
10
1.6k
BrainPad_AC_202411
brainpadpr
2
9.2k
BrainPad_Company_20241105
brainpadpr
1
220k
ブレインパッドXaaSユニット紹介資料(キャリア採用向けweb公開版 )
brainpadpr
0
15k
エンジニア応募者様向け_会社説明資料_202410
brainpadpr
0
1.8k
Pythonを活用したLLMによる構造的データ生成の手法と実践
brainpadpr
6
780
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
2
590
白金鉱業Meetup Vol.15 効果検証の怖い話_tomokazuABE_20240919
brainpadpr
4
1.2k
Other Decks in Programming
See All in Programming
[JAWS-UG横浜 #76] イケてるアップデートを宇宙いち早く紹介するよ!
maroon1st
0
460
Webエンジニア主体のモバイルチームの 生産性を高く保つためにやったこと
igreenwood
0
340
Amazon S3 NYJavaSIG 2024-12-12
sullis
0
100
RWC 2024 DICOM & ISO/IEC 2022
m_seki
0
210
PHPで作るWebSocketサーバー ~リアクティブなアプリケーションを知るために~ / WebSocket Server in PHP - To know reactive applications
seike460
PRO
2
410
良いユニットテストを書こう
mototakatsu
8
2.4k
Beyond ORM
77web
7
840
テストコード書いてみませんか?
onopon
2
120
Scalaから始めるOpenFeature入門 / Scalaわいわい勉強会 #4
arthur1
1
330
Go の GC の不得意な部分を克服したい
taiyow
3
790
生成AIでGitHubソースコード取得して仕様書を作成
shukob
0
430
LLM Supervised Fine-tuningの理論と実践
datanalyticslabo
6
1.3k
Featured
See All Featured
A Tale of Four Properties
chriscoyier
157
23k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.1k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
28
900
Fashionably flexible responsive web design (full day workshop)
malarkey
405
66k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.2k
What's in a price? How to price your products and services
michaelherold
243
12k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
A Philosophy of Restraint
colly
203
16k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
It's Worth the Effort
3n
183
28k
Transcript
Analytics Innovation Company 株式会社ブレインパッド 吉田 史也 2022年2月9日 大規模データ処理の基盤構築
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 1 自己紹介|吉田史也 所属
• 株式会社ブレインパッド プロダクトビジネス本部 開発部 • リードエンジニア 趣味 • 自転車 • ゲーム(FPS関連)
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 2 本日お話すること データ基盤をどうやって作ってきたのか
• プロダクトの立ち上げからプロトタイプの作成、開発にまつわる苦労したこと • 現行のデータ処理基盤の開発について 新規プロダクトの開発にまつわる悩み データ処理基盤構築時に発生したことについてお伝えします。 https://blog.brainpad.co.jp/entry/2021/07/21/111850
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 3 Rtoaster insight+とは
データを統合し、顧客のインサイトをつかんでデータから価値を引き出す 柔軟なカスタマーデータプラットフォーム(CDP)
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 4 Rtoaster insight+とは
データを統合し、顧客のインサイトをつかんでデータから価値を引き出す 柔軟なカスタマーデータプラットフォーム(CDP) 「システム連携・出力」(ジョブ機能)の開発に ついてお話をします
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 5 開発のフェーズイメージ •
開発の始まり - 2019年10月~2019年12月 • β版作成 - 2020年1月~ • リリース案内 - 2020年10月 • GA版提供開始 - 2021年5月~
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 6 開発の始まり •
企業がデータを元に意思決定ができるようオンライン・オフライン上のデータを統合するための基盤として CDPである「insight+(仮)」を作ってみよう企画段階 • 何を作って、何を作らないのかを決めている段階でもあった • プロトタイプの作成ではエンジニア内での技術調査込みで実施する →エンジニア2名がデータ処理の基盤を作る
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 7 開発の始まり •
技術スタックを確定させる • データを入出力、ETLの処理ができる基盤作り、検証できる
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 8 開発の始まり| 技術スタックを確定させる
新たなプロダクトづくり、部内が持つ技術要素で作る 技術的な挑戦を込みで、プロトタイプを作成する (メンバーはAWSでの環境構築経験のみ)
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 9 ETL処理とは 各種データソースからデータを抽出、加工(変換)、書き込みを行う一連の処理のこと
抽出 変換 書き込み データソース例
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 10 ETLの処理ができる基盤作り •
データソースは実態のファイルである点 • GAEで構築しようとすると諸々の問題がこの後発生していく 抽出 いろんなデータソースに格納されている 10~100GBなど大量データで読み書きが行われる ファイルのタイプも様々 インメモリでしか扱えない(当時F2インスタンス、256MB程度) Basic scaling で1リクエストデッドラインは24時間 etc... Cloud Run に逃がすなどの可能性はないか検討
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 11 プロトタイプ •
Basic scalingでバッチ環境(データ処理基盤)構築 • アプリレイヤーは、NuxtJS+Python3 定期実行
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 12 苦労した話 •
データ読み取りはチャンクダウンロードで行う • 10MBごとにBigQueryに書き込みを行っていく処理実装 • そもそもGAEなどのサービス理解がメンバー全員高い状態ではない • このプロトタイプは要求に応えるレベルだったか • (技術的な課題)加工・変換部分での課題 • (機能的な課題)ファイル中身が見えない課題 定期実行
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 13 苦労した話 •
データ読み取りはチャンクダウンロードで行う • 10MBごとにBigQueryに書き込みを行っていく処理実装 • そもそもGAEなどのサービス理解がメンバー全員高い状態ではない • このプロトタイプは要求に応えるレベルだったか • (技術的な課題)加工・変換部分での課題 • (機能的な課題)ファイル中身が見えない課題 のちに ・プレビュー機能などに技術転用 定期実行
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 14 β版作成 •
メンバーを増やし、プロトタイプで把握できた点を実装する • チャンクダウンロードの問題で発生した諸々の問題から「cliboa」を導入、アーキテクチャを刷新する この開発でやっていたこと 1.テストコードを書いていく 2.ドキュメントを書いていく 3.人を増やしたのは「cliboa」の知見を持つ人、GCP開発を経験した人 4.データ処理基盤のアーキテクチャは部内の知見を活かす、最新技術でサービスは作らない方針
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 15 β版作成 •
メンバーを増やし、プロトタイプで把握できた点を実装する • チャンクダウンロードの問題で発生した諸々の問題から「cliboa」を導入、アーキテクチャを刷新する 抽出・書き込み データソース例 抽出・書き込み 加工
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 16 まとめ|知ってほしいこと •
データ処理基盤構築でも、同じような開発の悩みを抱えて開発を行っている • プロトタイプの作成から技術的課題、機能的課題を出していくことができた • できること、できないことを取捨選択して、挑戦できる部分は挑戦をすることは大事
本資料は、未刊行文書として日本及び各国の著作権法に基づき保護されております。本資料には、株式会社ブレインパッド所有の特定情報 が含まれており、これら情報に基づく本資料の内容は、御社以外の第三者に開示されること、また、本資料を評価する以外の目的で、その一 部または全文を複製、使用、公開することは、禁止されています。また、株式会社ブレインパッドによる書面での許可なく、それら情報の一部ま たは全文を使用または公開することは、いかなる場合も禁じられております。 株式会社ブレインパッド 〒108-0071 東京都港区白金台3-2-10 白金台ビル3F TEL:03-6721-7002 FAX:03-6721-7010 www.brainpad.co.jp
[email protected]
Analytics Innovation Company