1
Confidential - Do Not Share
mercariのデータパイプライン開発
{“id”: “@shoe116”, “team”: “SRE/Data Processing”}
Slide 2
Slide 2 text
2
Confidential - Do Not Share
mercariのデータパイプラインの歴史
mercariのデータパイプライン開発
Streamなデータパイプライン
Batchなデータパイプライン
今日のまとめ
02
03
04
01
Slide 3
Slide 3 text
3
Confidential - Do Not Share
- Mercari SRE
- Stream/Batch Pipeline Developer
- Scala, Python, Java, Go, etc
- Apache Beam, Kafka, Hadoop…
Shu Suzuki @shoe116
Slide 4
Slide 4 text
4
Confidential - Do Not Share
指定された区間(data sources - data sinks)で
データパイプライン?
信頼性のあるデータ処理やデータ転送を
安定的に提供する仕組み
2.
3.
1.
今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを
主眼にしたデータパイプラインについて話します。
Slide 5
Slide 5 text
5
Confidential - Do Not Share
mercariのデータパイプラインの歴史
Slide 6
Slide 6 text
6
Confidential - Do Not Share
既存のStreamデータパイプライン
モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理
Slide 7
Slide 7 text
7
Confidential - Do Not Share
既存のbatchデータパイプライン
ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery
Production
DB-1
slaves
DB-1
backup
DB-1
master
DB-2
slaves
DB-2
backup
DB-2
master
DB-3
slaves
DB-3
backup
DB-3
master
anon-db
active
anon-db
standby
anon-db
batch
multi-source
replication
Slide 8
Slide 8 text
8
Confidential - Do Not Share
マイクロサービス化とデータパイプライン
Slide 9
Slide 9 text
9
Confidential - Do Not Share
マイクロサービスのアーキテクチャ
データパイプライン的に言うと、data-sourceが不特定多数になる
??
Slide 10
Slide 10 text
10
Confidential - Do Not Share
新しい Stream データパイプライン
各MSのRamp TopicからDataHubへ集約、スキーマ変換してBigQueryへ
Slide 11
Slide 11 text
11
Confidential - Do Not Share
新しい batch データパイプライン
各MSのデータストアからAvro Fileをdump、集約してBigQueryへ
Slide 12
Slide 12 text
12
Confidential - Do Not Share
サービスのMS化に伴いパイプラインも進化が求められる
今日のまとめ
不特定多数のdata sourceを想定して設計、開発中
Google Cloud Pratformのマネージドサービスを活用
We are hiring!
02
03
04
01