Slide 14
Slide 14 text
14
DataHub Avro format
{"type": "record",
"name": "DataHubAvro",
"namespace": "com.mercari.data.model.v3",
"fields": [{
{"name": "uuid", "type": "string"},
{"name": "timestamp",
"type": {
"type": "long",
"logicalType": "timestamp-micros"
}},
{"name": "topic_name", "type": "string"},
{"name": "service_name", "type": "string"},
{"name": "log_name", "type": "string"},
{"name": "content_type", "type": ["null", "string"],
"default": null},
{"name": "user_agent", "type": ["null", "string"],
"default": null},
{"name": "payload","type": "bytes"}
]}
}
パイプラインの共通フォーマット
Avroを採用した理由
- AvroはそのままGCSに書ける
- AvroはそのままBQに書ける
- Avro fileはBQから直接読める
DataHub Avro に含まれるもの
- パイプラインのdestination
- Schemaの引き当て情報
- データ本体