Business Intelligence Engineer in Mercari

Business Intelligence Engineer in Mercari

2018年12月から、BI組織の技術側面をリードする専属データエンジニアの募集用資料

https://mercari.connpass.com/event/130642/

5e70fc45fb6bcca87416c112a9e7e679?s=128

Shu Suzuki

May 29, 2019
Tweet

Transcript

  1. 1 Confidential - Do Not Share mercariのデータパイプライン開発 {“id”: “@shoe116”, “team”:

    “SRE/Data Processing”}
  2. 2 Confidential - Do Not Share mercariのデータパイプラインの歴史 mercariのデータパイプライン開発 Streamなデータパイプライン Batchなデータパイプライン

    今日のまとめ 02 03 04 01
  3. 3 Confidential - Do Not Share - Mercari SRE -

    Stream/Batch Pipeline Developer - Scala, Python, Java, Go, etc - Apache Beam, Kafka, Hadoop… Shu Suzuki @shoe116
  4. 4 Confidential - Do Not Share 指定された区間(data sources - data

    sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2. 3. 1. 今回は「本番環境のデータを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
  5. 5 Confidential - Do Not Share mercariのデータパイプラインの歴史

  6. 6 Confidential - Do Not Share 既存のStreamデータパイプライン モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理

  7. 7 Confidential - Do Not Share 既存のbatchデータパイプライン ProductionのMySQLを匿名化した、ReadReplicaを経由してBigQuery Production DB-1

    slaves DB-1 backup DB-1 master DB-2 slaves DB-2 backup DB-2 master DB-3 slaves DB-3 backup DB-3 master anon-db active anon-db standby anon-db batch multi-source replication
  8. 8 Confidential - Do Not Share マイクロサービス化とデータパイプライン

  9. 9 Confidential - Do Not Share マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??

  10. 10 Confidential - Do Not Share 新しい Stream データパイプライン 各MSのRamp

    TopicからDataHubへ集約、スキーマ変換してBigQueryへ
  11. 11 Confidential - Do Not Share 新しい batch データパイプライン 各MSのデータストアからAvro

    Fileをdump、集約してBigQueryへ
  12. 12 Confidential - Do Not Share サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中

    Google Cloud Pratformのマネージドサービスを活用 We are hiring! 02 03 04 01