Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MeetUP1_大規模データ処理の基盤構築_20220209.pptx.pdf
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
BrainPad
March 10, 2022
Programming
1
660
MeetUP1_大規模データ処理の基盤構築_20220209.pptx.pdf
BrainPad
March 10, 2022
Tweet
Share
More Decks by BrainPad
See All by BrainPad
DTD_AIエージェント開発プロジェクトのメソッドを体系化してみる
brainpadpr
1
110
DTD_Databricksことはじめ
brainpadpr
0
120
【採用候補者向け】BrainPad AAAご紹介資料
brainpadpr
0
1k
DTD_はじめての因子分析_理論とビジネス活用.pdf
brainpadpr
2
2.3k
DTD_TensorRTを用いた自然言語処理モデルの高速化
brainpadpr
0
39
DTD_生成AIアシスタントのコスト最適化
brainpadpr
1
160
白金鉱業Vol.21【初学者向け発表枠】身近な例から学ぶ数理最適化の基礎 / Learning the Basics of Mathematical Optimization Through Everyday Examples
brainpadpr
1
610
三田データ_BrainPadAAA_AIエージェント元年を振り返る
brainpadpr
1
180
DTD_メタデータ管理とデータ品質管理の具体化
brainpadpr
0
190
Other Decks in Programming
See All in Programming
QAフローを最適化し、品質水準を満たしながらリリースまでの期間を最短化する #RSGT2026
shibayu36
2
4.4k
Amazon Bedrockを活用したRAGの品質管理パイプライン構築
tosuri13
5
800
Smart Handoff/Pickup ガイド - Claude Code セッション管理
yukiigarashi
0
150
高速開発のためのコード整理術
sutetotanuki
1
410
コントリビューターによるDenoのすゝめ / Deno Recommendations by a Contributor
petamoriken
0
210
CSC307 Lecture 01
javiergs
PRO
0
690
「ブロックテーマでは再現できない」は本当か?
inc2734
0
1k
CSC307 Lecture 09
javiergs
PRO
1
840
Vibe Coding - AI 驅動的軟體開發
mickyp100
0
180
20260127_試行錯誤の結晶を1冊に。著者が解説 先輩データサイエンティストからの指南書 / author's_commentary_ds_instructions_guide
nash_efp
1
1k
副作用をどこに置くか問題:オブジェクト指向で整理する設計判断ツリー
koxya
1
620
IFSによる形状設計/デモシーンの魅力 @ 慶應大学SFC
gam0022
1
310
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
68
How STYLIGHT went responsive
nonsquared
100
6k
What does AI have to do with Human Rights?
axbom
PRO
0
2k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
Utilizing Notion as your number one productivity tool
mfonobong
3
220
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Un-Boring Meetings
codingconduct
0
200
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
58
50k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
120
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
310
Transcript
Analytics Innovation Company 株式会社ブレインパッド 吉田 史也 2022年2月9日 大規模データ処理の基盤構築
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 1 自己紹介|吉田史也 所属
• 株式会社ブレインパッド プロダクトビジネス本部 開発部 • リードエンジニア 趣味 • 自転車 • ゲーム(FPS関連)
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 2 本日お話すること データ基盤をどうやって作ってきたのか
• プロダクトの立ち上げからプロトタイプの作成、開発にまつわる苦労したこと • 現行のデータ処理基盤の開発について 新規プロダクトの開発にまつわる悩み データ処理基盤構築時に発生したことについてお伝えします。 https://blog.brainpad.co.jp/entry/2021/07/21/111850
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 3 Rtoaster insight+とは
データを統合し、顧客のインサイトをつかんでデータから価値を引き出す 柔軟なカスタマーデータプラットフォーム(CDP)
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 4 Rtoaster insight+とは
データを統合し、顧客のインサイトをつかんでデータから価値を引き出す 柔軟なカスタマーデータプラットフォーム(CDP) 「システム連携・出力」(ジョブ機能)の開発に ついてお話をします
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 5 開発のフェーズイメージ •
開発の始まり - 2019年10月~2019年12月 • β版作成 - 2020年1月~ • リリース案内 - 2020年10月 • GA版提供開始 - 2021年5月~
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 6 開発の始まり •
企業がデータを元に意思決定ができるようオンライン・オフライン上のデータを統合するための基盤として CDPである「insight+(仮)」を作ってみよう企画段階 • 何を作って、何を作らないのかを決めている段階でもあった • プロトタイプの作成ではエンジニア内での技術調査込みで実施する →エンジニア2名がデータ処理の基盤を作る
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 7 開発の始まり •
技術スタックを確定させる • データを入出力、ETLの処理ができる基盤作り、検証できる
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 8 開発の始まり| 技術スタックを確定させる
新たなプロダクトづくり、部内が持つ技術要素で作る 技術的な挑戦を込みで、プロトタイプを作成する (メンバーはAWSでの環境構築経験のみ)
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 9 ETL処理とは 各種データソースからデータを抽出、加工(変換)、書き込みを行う一連の処理のこと
抽出 変換 書き込み データソース例
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 10 ETLの処理ができる基盤作り •
データソースは実態のファイルである点 • GAEで構築しようとすると諸々の問題がこの後発生していく 抽出 いろんなデータソースに格納されている 10~100GBなど大量データで読み書きが行われる ファイルのタイプも様々 インメモリでしか扱えない(当時F2インスタンス、256MB程度) Basic scaling で1リクエストデッドラインは24時間 etc... Cloud Run に逃がすなどの可能性はないか検討
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 11 プロトタイプ •
Basic scalingでバッチ環境(データ処理基盤)構築 • アプリレイヤーは、NuxtJS+Python3 定期実行
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 12 苦労した話 •
データ読み取りはチャンクダウンロードで行う • 10MBごとにBigQueryに書き込みを行っていく処理実装 • そもそもGAEなどのサービス理解がメンバー全員高い状態ではない • このプロトタイプは要求に応えるレベルだったか • (技術的な課題)加工・変換部分での課題 • (機能的な課題)ファイル中身が見えない課題 定期実行
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 13 苦労した話 •
データ読み取りはチャンクダウンロードで行う • 10MBごとにBigQueryに書き込みを行っていく処理実装 • そもそもGAEなどのサービス理解がメンバー全員高い状態ではない • このプロトタイプは要求に応えるレベルだったか • (技術的な課題)加工・変換部分での課題 • (機能的な課題)ファイル中身が見えない課題 のちに ・プレビュー機能などに技術転用 定期実行
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 14 β版作成 •
メンバーを増やし、プロトタイプで把握できた点を実装する • チャンクダウンロードの問題で発生した諸々の問題から「cliboa」を導入、アーキテクチャを刷新する この開発でやっていたこと 1.テストコードを書いていく 2.ドキュメントを書いていく 3.人を増やしたのは「cliboa」の知見を持つ人、GCP開発を経験した人 4.データ処理基盤のアーキテクチャは部内の知見を活かす、最新技術でサービスは作らない方針
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 15 β版作成 •
メンバーを増やし、プロトタイプで把握できた点を実装する • チャンクダウンロードの問題で発生した諸々の問題から「cliboa」を導入、アーキテクチャを刷新する 抽出・書き込み データソース例 抽出・書き込み 加工
Analytics Innovation Company ©BrainPad Inc. Strictly Confidential 16 まとめ|知ってほしいこと •
データ処理基盤構築でも、同じような開発の悩みを抱えて開発を行っている • プロトタイプの作成から技術的課題、機能的課題を出していくことができた • できること、できないことを取捨選択して、挑戦できる部分は挑戦をすることは大事
本資料は、未刊行文書として日本及び各国の著作権法に基づき保護されております。本資料には、株式会社ブレインパッド所有の特定情報 が含まれており、これら情報に基づく本資料の内容は、御社以外の第三者に開示されること、また、本資料を評価する以外の目的で、その一 部または全文を複製、使用、公開することは、禁止されています。また、株式会社ブレインパッドによる書面での許可なく、それら情報の一部ま たは全文を使用または公開することは、いかなる場合も禁じられております。 株式会社ブレインパッド 〒108-0071 東京都港区白金台3-2-10 白金台ビル3F TEL:03-6721-7002 FAX:03-6721-7010 www.brainpad.co.jp
[email protected]
Analytics Innovation Company