Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
小さく始めるデータ基盤
Search
Reiji Kainuma
February 07, 2022
Programming
1.5k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
小さく始めるデータ基盤
https://github.com/reizist/slide/tree/master/datatech_casual%231
Reiji Kainuma
February 07, 2022
More Decks by Reiji Kainuma
See All by Reiji Kainuma
Airflow1=>Airflow2へのupgrade 事例紹介
reizist
0
910
lambdaのソース管理@meguro.dev#5/infrastructure as code of lambda
reizist
0
300
Other Decks in Programming
See All in Programming
[2026年度第1回ORセミナー] 計画最適化ベンチャーと競技プログラミング人材
terryu16
0
270
任せる範囲はこう広がった / How the Scope of AI Delegation Has Expanded
nrslib
0
130
act1-costs.pdf
sumedhbala
0
120
トークンをケチるな、設計しろ:GitHub Copilotを賢く使うコンテキスト戦略
ochtum
0
190
キャリア迷子上等 ─ "ない道"は自分で作ればいい
16bitidol
3
2.3k
LaravelLive Japan の裏方のすべて — 第188回 PHP勉強会@東京 (2026-06-24)
suguruooki
2
120
Skillsは効率化、Agentsは"自分の拡張"——Builder時代のエージェント編成(CC Night 2026)
wemra
1
170
はてなアカウント基盤 State of the Union
cockscomb
1
860
「AIで開発し、AIを届ける」をEvalでつなぐ 〜AIネイティブに始めるプロダクト開発の実践〜 / Connecting "Develop with AI, deliver AI" with Eval
rkaga
4
5.4k
正しくソフトウェアを作る、前提を疑うための認知の視点 / doubt-premise
minodriven
21
7k
Honoでのサプライチェーン侵害対策 〜 3つのライブラリに学ぶ
yusukebe
7
1.4k
ローカルLLMを使ってB2Bサービスを作っていての学び
yaotti
0
220
Featured
See All Featured
Visualization
eitanlees
152
17k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
A designer walks into a library…
pauljervisheath
211
24k
Heart Work Chapter 1 - Part 1
lfama
PRO
8
36k
Mind Mapping
helmedeiros
PRO
1
260
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Automating Front-end Workflow
addyosmani
1370
210k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
280
Writing Fast Ruby
sferik
630
63k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
Transcript
小さく始めるデータ基盤 @reizist 1 / 18
自己紹介 @reizist Web Backend / Infra / Data (Infra) R
なんとかという会社で データエンジニア 最近CloudComposer2 と戯れています 2 / 18
背景 データ基盤はもはや大規模サービスにのみ必要なものではない スタートアップでもデータ基盤の需要は増えてきている 今回 副業で enpay.Inc で構築した事例を紹介します 3 / 18
事前制約 外部にダッシュボードを埋め込みで提供したい Looker を採用したい 4 / 18
重要視した方針 汎用化 エンハンス/ リプレイスしやすい技術を採用 作り込まない Airflow, Argo Workflow 等ワークフローエンジンの採用を見送る リスク最小化
DWH には個人情報を一切入れない「全部なし戦略」 5 / 18
どんなデータを集める? 1. クライアントログ 2. DB 3. 各SaaS(kintone) 6 / 18
どこにデータを集める? BigQuery エコシステムが整って枯れているBigQuery に不満がなかった 権限周り/cli 周りの取り回し Snowflake のtrial してみたいと思いつつ.. 7
/ 18
Q. どうやってデータを集める? 真っ先にtrocco をtrial で導入し検討した あらゆるデータソースに対応していて要件(DB, SaaS からのデー タ取り込み) は満たせた
が要件に対してはコストが見合わなかったので断念 Embulk on CloudRun を採用 コンテナベースなので安心 8 / 18
Amazon S3 Amazon RDS Cloud Build Cloud Storage db-importer Cloud
Run Push AWS Step Functions workflow rds-exporter Create DBClusterSnapshot StartExportTask EventBridge run-embulk Cloud Run BigQuery DB SaaS ClientLog 9 / 18
DB Aurora instance から個人情報をすべてマスク済のsnapshot を作成 snapshot からS3 にParquet でexport S3
に DB のデータがリスクのない状態で配置 CloudRun 上で実行されるbq load によりS3 のParquet をBQ にimport 10 / 18
SaaS Embulk on CloudRun CloudRun のroot endpoint にアクセスすると実装済のすべての embulk config
をsequential にembulk run する 環境変数によって個別に実行可能 SaaS 毎のendpoint を作る等自由に拡張可能 11 / 18
ClientLog Google Analytics 必要な箇所で trackEvent を呼ぶだけでBQ にほぼリアルタイムにロ ギングされる export const
EventTracker = { trackEvent: function (event_name: string, payload: any) { try { gtag('event', event_name, payload) 12 / 18
どうやって使っている? まずはsales/cs メンバー向けのkintone ダッシュボード上でLooker ダ ッシュボードを埋め込み表示 今後エンドユーザーに便利ダッシュボードを公開予定 13 / 18
14 / 18
稼働状況 StepFunction, CloudRun 共に daily job は実装完了後一度も落ちていない 15 / 18
ランニングコスト 実質無料 CloudRun & BQ (& CloudBuild) で200 円くらい CloudRun
最高! 16 / 18
enpay のプロダクト/ データに興味がある方はこちらへどうぞ! Looker 採用決定したCTO がカジュアルにトークします 17 / 18
まずは小さく始めよう 18 / 18