Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Business Intelligence Engineer in Mercari
Search
Shu Suzuki
May 29, 2019
Programming
0
88
Business Intelligence Engineer in Mercari
2018年12月から、BI組織の技術側面をリードする専属データエンジニアの募集用資料
https://mercari.connpass.com/event/130642/
Shu Suzuki
May 29, 2019
Tweet
Share
More Decks by Shu Suzuki
See All by Shu Suzuki
Creating Stream DataPipeline on GCP Using Apache Beam
shoe116
3
2.6k
Creating a New Stream Data Pipeline on Google Cloud Platform 20190719
shoe116
1
3.7k
Other Decks in Programming
See All in Programming
『ドメイン駆動設計をはじめよう』のモデリングアプローチ
masuda220
PRO
8
440
Webの技術スタックで マルチプラットフォームアプリ開発を可能にするElixirDesktopの紹介
thehaigo
2
910
Identifying User Idenity
moro
6
7.8k
僕がつくった48個のWebサービス達
yusukebe
18
17k
qmuntal/stateless のススメ
sgash708
0
120
Nuxtベースの「WXT」でChrome拡張を作成する | Vue Fes 2024 ランチセッション
moshi1121
1
510
カスタムしながら理解するGraphQL Connection
yanagii
1
1.2k
Pinia Colada が実現するスマートな非同期処理
naokihaba
2
150
Macとオーディオ再生 2024/11/02
yusukeito
0
150
CSC509 Lecture 08
javiergs
PRO
0
110
VR HMDとしてのVision Pro+ゲーム開発について
yasei_no_otoko
0
100
Snowflake x dbtで作るセキュアでアジャイルなデータ基盤
tsoshiro
2
430
Featured
See All Featured
How to Ace a Technical Interview
jacobian
275
23k
Teambox: Starting and Learning
jrom
132
8.7k
For a Future-Friendly Web
brad_frost
175
9.4k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
41
2.1k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
Fontdeck: Realign not Redesign
paulrobertlloyd
81
5.2k
GitHub's CSS Performance
jonrohan
1030
460k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
YesSQL, Process and Tooling at Scale
rocio
167
14k
Designing for humans not robots
tammielis
249
25k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
Transcript
1 Confidential - Do Not Share mercariのデータパイプライン開発 {“id”: “@shoe116”, “team”:
“SRE/Data Processing”}
2 Confidential - Do Not Share mercariのデータパイプラインの歴史 mercariのデータパイプライン開発 Streamなデータパイプライン Batchなデータパイプライン
今日のまとめ 02 03 04 01
3 Confidential - Do Not Share - Mercari SRE -
Stream/Batch Pipeline Developer - Scala, Python, Java, Go, etc - Apache Beam, Kafka, Hadoop… Shu Suzuki @shoe116
4 Confidential - Do Not Share 指定された区間(data sources - data
sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2. 3. 1. 今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
5 Confidential - Do Not Share mercariのデータパイプラインの歴史
6 Confidential - Do Not Share 既存のStreamデータパイプライン モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理
7 Confidential - Do Not Share 既存のbatchデータパイプライン ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery Production DB-1
slaves DB-1 backup DB-1 master DB-2 slaves DB-2 backup DB-2 master DB-3 slaves DB-3 backup DB-3 master anon-db active anon-db standby anon-db batch multi-source replication
8 Confidential - Do Not Share マイクロサービス化とデータパイプライン
9 Confidential - Do Not Share マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??
10 Confidential - Do Not Share 新しい Stream データパイプライン 各MSのRamp
TopicからDataHubへ集約、スキーマ変換してBigQueryへ
11 Confidential - Do Not Share 新しい batch データパイプライン 各MSのデータストアからAvro
Fileをdump、集約してBigQueryへ
12 Confidential - Do Not Share サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中
Google Cloud Pratformのマネージドサービスを活用 We are hiring! 02 03 04 01