小さく始めるデータ基盤

小さく始めるデータ基盤 @reizist 1 / 18

自己紹介 @reizist Web Backend / Infra / Data (Infra) R
なんとかという会社でデータエンジニア最近CloudComposer2 と戯れています 2 / 18

背景データ基盤はもはや大規模サービスにのみ必要なものではないスタートアップでもデータ基盤の需要は増えてきている今回副業で enpay.Inc で構築した事例を紹介します 3 / 18

事前制約外部にダッシュボードを埋め込みで提供したい Looker を採用したい 4 / 18

重要視した方針汎用化エンハンス/ リプレイスしやすい技術を採用作り込まない Airflow, Argo Workflow 等ワークフローエンジンの採用を見送るリスク最小化
DWH には個人情報を一切入れない「全部なし戦略」 5 / 18

どんなデータを集める？ 1. クライアントログ 2. DB 3. 各SaaS(kintone) 6 / 18

どこにデータを集める？ BigQuery エコシステムが整って枯れているBigQuery に不満がなかった権限周り/cli 周りの取り回し Snowflake のtrial してみたいと思いつつ.. 7
/ 18

Q. どうやってデータを集める？真っ先にtrocco をtrial で導入し検討したあらゆるデータソースに対応していて要件(DB, SaaS からのデータ取り込み) は満たせた
が要件に対してはコストが見合わなかったので断念 Embulk on CloudRun を採用コンテナベースなので安心 8 / 18

Amazon S3 Amazon RDS Cloud Build Cloud Storage db-importer Cloud
Run Push AWS Step Functions workﬂow rds-exporter Create DBClusterSnapshot StartExportTask EventBridge run-embulk Cloud Run BigQuery DB SaaS ClientLog 9 / 18

DB Aurora instance から個人情報をすべてマスク済のsnapshot を作成 snapshot からS3 にParquet でexport S3
に DB のデータがリスクのない状態で配置 CloudRun 上で実行されるbq load によりS3 のParquet をBQ にimport 10 / 18

SaaS Embulk on CloudRun CloudRun のroot endpoint にアクセスすると実装済のすべての embulk config
をsequential にembulk run する環境変数によって個別に実行可能 SaaS 毎のendpoint を作る等自由に拡張可能 11 / 18

ClientLog Google Analytics 必要な箇所で trackEvent を呼ぶだけでBQ にほぼリアルタイムにロギングされる export const
EventTracker = { trackEvent: function (event_name: string, payload: any) { try { gtag('event', event_name, payload) 12 / 18

どうやって使っている？まずはsales/cs メンバー向けのkintone ダッシュボード上でLooker ダッシュボードを埋め込み表示今後エンドユーザーに便利ダッシュボードを公開予定 13 / 18

14 / 18

稼働状況 StepFunction, CloudRun 共に daily job は実装完了後一度も落ちていない 15 / 18

ランニングコスト実質無料 CloudRun & BQ (& CloudBuild) で200 円くらい CloudRun
最高！ 16 / 18

enpay のプロダクト/ データに興味がある方はこちらへどうぞ！ Looker 採用決定したCTO がカジュアルにトークします 17 / 18

まずは小さく始めよう 18 / 18

小さく始めるデータ基盤

小さく始めるデータ基盤

Reiji Kainuma

More Decks by Reiji Kainuma

Other Decks in Programming

Featured

Transcript