Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Business Intelligence Engineer in Mercari
Search
Shu Suzuki
May 29, 2019
Programming
0
130
Business Intelligence Engineer in Mercari
2018年12月から、BI組織の技術側面をリードする専属データエンジニアの募集用資料
https://mercari.connpass.com/event/130642/
Shu Suzuki
May 29, 2019
Tweet
Share
More Decks by Shu Suzuki
See All by Shu Suzuki
Data & Analytics 井戸端会議 #02
shoe116
0
340
Data & Analytics 井戸端会議 #01
shoe116
1
27
財務データを題材に、 ETLとは何であるかを考える
shoe116
9
3k
Ruby on Railsで作る銘柄スクリーニング
shoe116
0
660
Creating Stream DataPipeline on GCP Using Apache Beam
shoe116
3
2.8k
Creating a New Stream Data Pipeline on Google Cloud Platform 20190719
shoe116
1
3.8k
Other Decks in Programming
See All in Programming
TanStack DB ~状態管理の新しい考え方~
bmthd
2
320
大規模FlutterプロジェクトのCI実行時間を約8割削減した話
teamlab
PRO
0
490
The State of Fluid (2025)
s2b
0
200
CSC305 Summer Lecture 12
javiergs
PRO
0
110
decksh - a little language for decks
ajstarks
4
21k
【第4回】関東Kaggler会「Kaggleは執筆に役立つ」
mipypf
0
770
Kiroの仕様駆動開発から見えてきたAIコーディングとの正しい付き合い方
clshinji
1
140
『リコリス・リコイル』に学ぶ!! 〜キャリア戦略における計画的偶発性理論と変わる勇気の重要性〜
wanko_it
1
590
MLH State of the League: 2026 Season
theycallmeswift
0
160
KessokuでDIでもgoroutineを活用する / Go Connect #6
mazrean
0
110
AIレビュアーをスケールさせるには / Scaling AI Reviewers
technuma
2
230
STUNMESH-go: Wireguard NAT穿隧工具的源起與介紹
tjjh89017
0
380
Featured
See All Featured
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
820
Fireside Chat
paigeccino
39
3.6k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
KATA
mclloyd
32
14k
Docker and Python
trallard
45
3.5k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
We Have a Design System, Now What?
morganepeng
53
7.7k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.8k
The World Runs on Bad Software
bkeepers
PRO
70
11k
Transcript
1 Confidential - Do Not Share mercariのデータパイプライン開発 {“id”: “@shoe116”, “team”:
“SRE/Data Processing”}
2 Confidential - Do Not Share mercariのデータパイプラインの歴史 mercariのデータパイプライン開発 Streamなデータパイプライン Batchなデータパイプライン
今日のまとめ 02 03 04 01
3 Confidential - Do Not Share - Mercari SRE -
Stream/Batch Pipeline Developer - Scala, Python, Java, Go, etc - Apache Beam, Kafka, Hadoop… Shu Suzuki @shoe116
4 Confidential - Do Not Share 指定された区間(data sources - data
sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2. 3. 1. 今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
5 Confidential - Do Not Share mercariのデータパイプラインの歴史
6 Confidential - Do Not Share 既存のStreamデータパイプライン モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理
7 Confidential - Do Not Share 既存のbatchデータパイプライン ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery Production DB-1
slaves DB-1 backup DB-1 master DB-2 slaves DB-2 backup DB-2 master DB-3 slaves DB-3 backup DB-3 master anon-db active anon-db standby anon-db batch multi-source replication
8 Confidential - Do Not Share マイクロサービス化とデータパイプライン
9 Confidential - Do Not Share マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??
10 Confidential - Do Not Share 新しい Stream データパイプライン 各MSのRamp
TopicからDataHubへ集約、スキーマ変換してBigQueryへ
11 Confidential - Do Not Share 新しい batch データパイプライン 各MSのデータストアからAvro
Fileをdump、集約してBigQueryへ
12 Confidential - Do Not Share サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中
Google Cloud Pratformのマネージドサービスを活用 We are hiring! 02 03 04 01