Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Creating a New Stream Data Pipeline on Google Cloud Platform 20190719

Creating a New Stream Data Pipeline on Google Cloud Platform 20190719

大量のログデータを、より効率的に、より柔軟に扱うためのパイプラインをGCP使って作った話

5e70fc45fb6bcca87416c112a9e7e679?s=128

Shu Suzuki

July 19, 2019
Tweet

Transcript

  1. 1 GCPでStreamなデータパイプライン作った {“id”: “@shoe116”, “team”: “Data Platform”}

  2. 2 mercariのlog収集の歴史とマイクロサービス化 GCPでStreamなデータパイプライン作った GCPで作ったStreamなデータパイプラインの概要 AvroとDataFlowを使ったETL処理 今日のまとめ 02 03 04 01

  3. 3 - Mercari Data Platform - Stream/Batch Pipeline Developer -

    Scala, Python, Java, Go, etc - Apache Beam, Kafka, Storm, Hive, Hadoop… Shu Suzuki @shoe116
  4. 4 指定された区間(data sources - data sinks)で データパイプライン? 信頼性のあるデータ処理やデータ転送を 安定的に提供する仕組み 2.

    3. 1. 今回は「本番環境のlogを、DWH等の分析環境に届ける」ことを 主眼にしたデータパイプラインについて話します。
  5. 5 Mercariのlog収集の歴史と マイクロサービス化

  6. 6 既存のlog収集の仕組み モノリスのWebアプリケーションのlogをfluentdで伝搬しbatch処理

  7. 7 マイクロサービスのアーキテクチャ データパイプライン的に言うと、data-sourceが不特定多数になる ??

  8. 8 GCPで作った Streamなデータパイプラインの概要

  9. 9 メッセージ志向ミドルウェア(G製Kafka) 使っているGCPのサービス Beamで記述できる処理エンジン(G製Flink) Cloud Dataflow Cloud Pub/Sub Cloud Storage

    マルチリージョナルなオブジェクトストレージ BigQuery 大量データ向けのG製DWH、GCSからも読める。
  10. 10 新しい Stream データパイプライン 各MSのRamp TopicからDataHubへ集約、GCSとBigQueryへStore

  11. 11 各MSごとに設けられたデータの投入口 各Cloud Pub/SubのTopicの役割 Rampsのデータを1つのTopicに集約したTopic Raw DataHub Ramps 構造化されたSchema付きAvroが流れるTopic Structured

    DataHub
  12. 12 Raw DataHubのデータを出力するGCS bucket 各データストアの役割 Structurd Datahubのデータを出力するGCS bucket Structured DataLake

    Raw DataLake Structured DataHubのデータを出力するBig Query DWH
  13. 13 AvroとDataflowを使ったETL処理

  14. 14 DataHub Avro format {"type": "record", "name": "DataHubAvro", "namespace": "com.mercari.data.model.v3",

    "fields": [{ {"name": "uuid", "type": "string"}, {"name": "timestamp", "type": { "type": "long", "logicalType": "timestamp-micros" }}, {"name": "topic_name", "type": "string"}, {"name": "service_name", "type": "string"}, {"name": "log_name", "type": "string"}, {"name": "content_type", "type": ["null", "string"], "default": null}, {"name": "user_agent", "type": ["null", "string"], "default": null}, {"name": "payload","type": "bytes"} ]} } パイプラインの共通フォーマット Avroを採用した理由 - AvroはそのままGCSに書ける - AvroはそのままBQに書ける - Avro fileはBQから直接読める DataHub Avro に含まれるもの - パイプラインのdestination - Schemaの引き当て情報 - データ本体
  15. 15 Map処理でRampsからデータを読む Ramps -> Raw DataHubのETL 共通のDataHub Avro formatに変換 全レコードをRaw

    DataHubにwrite T L E
  16. 16 Raw DataHubからデータを読む Raw DataHub -> Structured DataHub のETL DataHub

    Avroのpayloadのbyte[]を、 構造化されたAvroに変換する T L E 全レコードをStructured DataHubにwrite
  17. 17 サービスのMS化に伴いパイプラインも進化が求められる 今日のまとめ 不特定多数のdata sourceを想定して設計、開発中 Google Cloud Pratformの各サービスとAvroを利用 We are

    hiring! 02 03 04 01 https://mercari.workable.com/jobs/765272