Upgrade to Pro — share decks privately, control downloads, hide ads and more …

水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -

hase-ryo
December 22, 2020

水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -

・メルカリ・メルペイのデータ分析環境の話をします
・データの品質とその未来像について知ってもらうのが目的です
・半分以上は歴史の話です。

hase-ryo

December 22, 2020
Tweet

More Decks by hase-ryo

Other Decks in Business

Transcript

  1. 江戸(1654, Tokyo) の水道事情 @Google Map 2020 多摩川→ 玉川上水 井の頭池 善福寺池

     →神田上水 1590年ごろ 井の頭池、善福寺池(現在の吉祥寺あたり)を水源とする神田上水を敷設 1654年ごろ 人口増加と共に増えた水需要に対応するため、多摩川を水源とする玉川上水を敷設  →江戸の中心地で水道の水を井戸に汲み入れ、飲料水として使えるようにした
  2. 一方、メルカリ・メルペイのデータ事情(2019~現在) 決済サービスというセンシティブな情報を扱うこともあり、連携時に個人情報のマスキン グもできるようにしています。
 メルペイにおける大規模バッチ処理 → MicroServiceアーキテクチャでのデータ分析需要に対応 > Dataplatform Team →個人情報などの情報を取らない

    or パイプラインの途中でろ過して見れなくする メルカリではデータの活用が盛んな一方で、実はデータ処理を専門にやるエンジニアが最近まで存在し ておらず、そんなこんなで僕がSREチームにデータエンジニア第1号としてjoinしました(実はこのあたりは メルペイのが少し先んじていて、あっちにはすでにデータプラットフォームチームがあって、僕は今彼らと 一緒に並んでコードを書いている)
 GCPでStreamなデータパイプライン始めました