Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Business Intelligence Engineer in Mercari
Search
Shu Suzuki
May 29, 2019
Programming
0
130
Business Intelligence Engineer in Mercari
2018年12月から、BI組織の技術側面をリードする専属データエンジニアの募集用資料
https://mercari.connpass.com/event/130642/
Shu Suzuki
May 29, 2019
Tweet
Share
More Decks by Shu Suzuki
See All by Shu Suzuki
Data & Analytics 井戸端会議 #02
shoe116
0
320
Data & Analytics 井戸端会議 #01
shoe116
1
26
財務データを題材に、 ETLとは何であるかを考える
shoe116
9
3k
Ruby on Railsで作る銘柄スクリーニング
shoe116
0
620
Creating Stream DataPipeline on GCP Using Apache Beam
shoe116
3
2.8k
Creating a New Stream Data Pipeline on Google Cloud Platform 20190719
shoe116
1
3.8k
Other Decks in Programming
See All in Programming
Strands Agents で実現する名刺解析アーキテクチャ
omiya0555
1
110
あまり知られていない MCP 仕様たち / MCP specifications that aren’t widely known
ktr_0731
0
220
What's new in Adaptive Android development
fornewid
0
130
SQLアンチパターン第2版 データベースプログラミングで陥りがちな失敗とその対策 / Intro to SQL Antipatterns 2nd
twada
PRO
36
11k
202507_ADKで始めるエージェント開発の基本 〜デモを通じて紹介〜(奥田りさ)The Basics of Agent Development with ADK — A Demo-Focused Introduction
risatube
PRO
6
1.4k
CEDEC 2025 『ゲームにおけるリアルタイム通信への QUIC導入事例の紹介』
segadevtech
2
740
リバースエンジニアリング新時代へ! GhidraとClaude DesktopをMCPで繋ぐ/findy202507
tkmru
7
1.7k
リッチエディターを安全に開発・運用するために
unachang113
1
350
Jakarta EE Meets AI
ivargrimstad
0
570
実践!App Intents対応
yuukiw00w
0
110
MySQL9でベクトルカラム登場!PHP×AWSでのAI/類似検索はこう変わる
suguruooki
1
280
LLMは麻雀を知らなすぎるから俺が教育してやる
po3rin
3
1.9k
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Faster Mobile Websites
deanohume
308
31k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.5k
Gamification - CAS2011
davidbonilla
81
5.4k
A Tale of Four Properties
chriscoyier
160
23k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
How GitHub (no longer) Works
holman
314
140k
Writing Fast Ruby
sferik
628
62k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Docker and Python
trallard
45
3.5k
Transcript
1 Confidential - Do Not Share mercariのデータパイプライン開発 {“id”: “@shoe116”, “team”:
“SRE/Data Processing”}
2 Confidential - Do Not Share mercariのデータパイプラインの歴史 mercariのデータパイプライン開発 Streamなデータパイプライン Batchなデータパイプライン
今日のまとめ 02 03 04 01
3 Confidential - Do Not Share - Mercari SRE -
Stream/Batch Pipeline Developer - Scala, Python, Java, Go, etc - Apache Beam, Kafka, Hadoop… Shu Suzuki @shoe116
4 Confidential - Do Not Share 指定された区間(data sources - data
sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2. 3. 1. 今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
5 Confidential - Do Not Share mercariのデータパイプラインの歴史
6 Confidential - Do Not Share 既存のStreamデータパイプライン モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理
7 Confidential - Do Not Share 既存のbatchデータパイプライン ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery Production DB-1
slaves DB-1 backup DB-1 master DB-2 slaves DB-2 backup DB-2 master DB-3 slaves DB-3 backup DB-3 master anon-db active anon-db standby anon-db batch multi-source replication
8 Confidential - Do Not Share マイクロサービス化とデータパイプライン
9 Confidential - Do Not Share マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??
10 Confidential - Do Not Share 新しい Stream データパイプライン 各MSのRamp
TopicからDataHubへ集約、スキーマ変換してBigQueryへ
11 Confidential - Do Not Share 新しい batch データパイプライン 各MSのデータストアからAvro
Fileをdump、集約してBigQueryへ
12 Confidential - Do Not Share サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中
Google Cloud Pratformのマネージドサービスを活用 We are hiring! 02 03 04 01