Slide 1

Slide 1 text

1 Confidential - Do Not Share mercariのデータパイプライン開発 {“id”: “@shoe116”, “team”: “SRE/Data Processing”}

Slide 2

Slide 2 text

2 Confidential - Do Not Share mercariのデータパイプラインの歴史 mercariのデータパイプライン開発 Streamなデータパイプライン Batchなデータパイプライン 今日のまとめ 02 03 04 01

Slide 3

Slide 3 text

3 Confidential - Do Not Share - Mercari SRE - Stream/Batch Pipeline Developer - Scala, Python, Java, Go, etc - Apache Beam, Kafka, Hadoop… Shu Suzuki @shoe116

Slide 4

Slide 4 text

4 Confidential - Do Not Share 指定された区間(data sources - data sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2. 3. 1. 今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。

Slide 5

Slide 5 text

5 Confidential - Do Not Share mercariのデータパイプラインの歴史

Slide 6

Slide 6 text

6 Confidential - Do Not Share 既存のStreamデータパイプライン モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理

Slide 7

Slide 7 text

7 Confidential - Do Not Share 既存のbatchデータパイプライン ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery Production DB-1 slaves DB-1 backup DB-1 master DB-2 slaves DB-2 backup DB-2 master DB-3 slaves DB-3 backup DB-3 master anon-db active anon-db standby anon-db batch multi-source replication

Slide 8

Slide 8 text

8 Confidential - Do Not Share マイクロサービス化とデータパイプライン

Slide 9

Slide 9 text

9 Confidential - Do Not Share マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??

Slide 10

Slide 10 text

10 Confidential - Do Not Share 新しい Stream データパイプライン 各MSのRamp TopicからDataHubへ集約、スキーマ変換してBigQueryへ

Slide 11

Slide 11 text

11 Confidential - Do Not Share 新しい batch データパイプライン 各MSのデータストアからAvro Fileをdump、集約してBigQueryへ

Slide 12

Slide 12 text

12 Confidential - Do Not Share サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中 Google Cloud Pratformのマネージドサービスを活用 We are hiring! 02 03 04 01