Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Business Intelligence Engineer in Mercari
Search
Shu Suzuki
May 29, 2019
Programming
0
88
Business Intelligence Engineer in Mercari
2018年12月から、BI組織の技術側面をリードする専属データエンジニアの募集用資料
https://mercari.connpass.com/event/130642/
Shu Suzuki
May 29, 2019
Tweet
Share
More Decks by Shu Suzuki
See All by Shu Suzuki
Creating Stream DataPipeline on GCP Using Apache Beam
shoe116
3
2.6k
Creating a New Stream Data Pipeline on Google Cloud Platform 20190719
shoe116
1
3.7k
Other Decks in Programming
See All in Programming
「今のプロジェクトいろいろ大変なんですよ、app/services とかもあって……」/After Kaigi on Rails 2024 LT Night
junk0612
5
2.2k
AI時代におけるSRE、 あるいはエンジニアの生存戦略
pyama86
6
1.2k
タクシーアプリ『GO』のリアルタイムデータ分析基盤における機械学習サービスの活用
mot_techtalk
4
1.4k
as(型アサーション)を書く前にできること
marokanatani
10
2.7k
What’s New in Compose Multiplatform - A Live Tour (droidcon London 2024)
zsmb
1
470
ローコードSaaSのUXを向上させるためのTypeScript
taro28
1
620
エンジニアとして関わる要件と仕様(公開用)
murabayashi
0
290
RubyLSPのマルチバイト文字対応
notfounds
0
120
AWS IaCの注目アップデート 2024年10月版
konokenj
3
3.3k
[Do iOS '24] Ship your app on a Friday...and enjoy your weekend!
polpielladev
0
110
見せてあげますよ、「本物のLaravel批判」ってやつを。
77web
7
7.8k
Less waste, more joy, and a lot more green: How Quarkus makes Java better
hollycummins
0
100
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
Thoughts on Productivity
jonyablonski
67
4.3k
How to Ace a Technical Interview
jacobian
276
23k
The Cult of Friendly URLs
andyhume
78
6k
[RailsConf 2023] Rails as a piece of cake
palkan
52
4.9k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Writing Fast Ruby
sferik
627
61k
Adopting Sorbet at Scale
ufuk
73
9.1k
Navigating Team Friction
lara
183
14k
Raft: Consensus for Rubyists
vanstee
136
6.6k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Transcript
1 Confidential - Do Not Share mercariのデータパイプライン開発 {“id”: “@shoe116”, “team”:
“SRE/Data Processing”}
2 Confidential - Do Not Share mercariのデータパイプラインの歴史 mercariのデータパイプライン開発 Streamなデータパイプライン Batchなデータパイプライン
今日のまとめ 02 03 04 01
3 Confidential - Do Not Share - Mercari SRE -
Stream/Batch Pipeline Developer - Scala, Python, Java, Go, etc - Apache Beam, Kafka, Hadoop… Shu Suzuki @shoe116
4 Confidential - Do Not Share 指定された区間(data sources - data
sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2. 3. 1. 今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
5 Confidential - Do Not Share mercariのデータパイプラインの歴史
6 Confidential - Do Not Share 既存のStreamデータパイプライン モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理
7 Confidential - Do Not Share 既存のbatchデータパイプライン ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery Production DB-1
slaves DB-1 backup DB-1 master DB-2 slaves DB-2 backup DB-2 master DB-3 slaves DB-3 backup DB-3 master anon-db active anon-db standby anon-db batch multi-source replication
8 Confidential - Do Not Share マイクロサービス化とデータパイプライン
9 Confidential - Do Not Share マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??
10 Confidential - Do Not Share 新しい Stream データパイプライン 各MSのRamp
TopicからDataHubへ集約、スキーマ変換してBigQueryへ
11 Confidential - Do Not Share 新しい batch データパイプライン 各MSのデータストアからAvro
Fileをdump、集約してBigQueryへ
12 Confidential - Do Not Share サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中
Google Cloud Pratformのマネージドサービスを活用 We are hiring! 02 03 04 01