Slide 1

Slide 1 text

水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して - merpay data management @hase-ryo

Slide 2

Slide 2 text

何の話をするか ・メルカリ・メルペイのデータ分析環境の話をします ・データの品質とその未来像について知ってもらうのが目的です ・半分以上は歴史の話です。  TechTalkの息抜きとして聞いてください

Slide 3

Slide 3 text

Data Management Team Mission データをインフラのように使えるようにする Objective データをあんしん、あんぜん、かんたんに使えるようにする

Slide 4

Slide 4 text

メルカリにおけるデータ分析環境の過去・現在・未来 身近なインフラである都水道の歴史になぞらえて説明します!

Slide 5

Slide 5 text

江戸(1654, Tokyo) の水道事情 @Google Map 2020 多摩川→ 玉川上水 井の頭池 善福寺池  →神田上水 1590年ごろ 井の頭池、善福寺池(現在の吉祥寺あたり)を水源とする神田上水を敷設 1654年ごろ 人口増加と共に増えた水需要に対応するため、多摩川を水源とする玉川上水を敷設  →江戸の中心地で水道の水を井戸に汲み入れ、飲料水として使えるようにした

Slide 6

Slide 6 text

江戸(1654, Tokyo) の水道事情 水道の水で産湯を使う →誰でも水道の水を利用できる江戸生まれであることを自慢した言葉

Slide 7

Slide 7 text

一方、メルカリのデータ事情(〜2018) メルカリでは「データドリブンな文化」がすでに根付いていて、個人情報を除いたプロダ クト関連データが一か所に集められ、社内メンバーであれば誰でも分析できる環境が ありました。
 「メルカリを“もっと”データドリブンにする、VP of Analyticsが掲げた2つのミッション」 →誰でもデータを利用できるメルカリ →mercari-apiのデータ、Client logのデータなどがBigQueryに集約  Data Analystに限らずPMやCSメンバーもBigQueryでデータを活用できる環境

Slide 8

Slide 8 text

明治維新後(1866 ~ )の水道事情 明治維新後、近代化&人口増加により水需要も増加 一方で木や石の水道が腐食して水質悪化 さらに1886年、コレラが流行 → 近代的な水道の需要&敷設が加速 1887年の横浜に続き、1898年に 河川の水をろ過し、鉄製の管に圧力をかけて流す近代水道が完成 →汲み上げる水道から湧き出す水道へ

Slide 9

Slide 9 text

1890年 水道条例の制定 「水道トハ市町村ノ住民ノ需要ニ應シ給水ノ目的ヲ以テ布設スル水道ヲ云ヒ…」
 
 明治維新後(1866 ~ )の水道事情 →住民の給水需要に答えるものとして水道を規定。  公営化、水源の水質検査などを定めた

Slide 10

Slide 10 text

一方、メルカリ・メルペイのデータ事情(2019~現在) 決済サービスというセンシティブな情報を扱うこともあり、連携時に個人情報のマスキン グもできるようにしています。
 メルペイにおける大規模バッチ処理 → MicroServiceアーキテクチャでのデータ分析需要に対応 > Dataplatform Team →個人情報などの情報を取らない or パイプラインの途中でろ過して見れなくする メルカリではデータの活用が盛んな一方で、実はデータ処理を専門にやるエンジニアが最近まで存在し ておらず、そんなこんなで僕がSREチームにデータエンジニア第1号としてjoinしました(実はこのあたりは メルペイのが少し先んじていて、あっちにはすでにデータプラットフォームチームがあって、僕は今彼らと 一緒に並んでコードを書いている)
 GCPでStreamなデータパイプライン始めました

Slide 11

Slide 11 text

これからのデータ分析環境が目指す姿は・・?

Slide 12

Slide 12 text

1945年から1970年にかけて東京都の人口が3倍に&高度経済成長 → 水需要がさらに増加 → ダム建設による奥多摩湖の誕生、 利根川水系からの取水開始など 需要に対応する 新たなパイプラインの敷設 WW2後(1945 ~ )の水道事情 @Google Map 2020

Slide 13

Slide 13 text

1957年 水道条例廃止、水道法制定 WW2後(1945 ~ )の水道事情 清浄にして豊富低廉な水の供給を図り、もつて公衆衛生の向上と生活環境の改善とに寄与すること 
 →きれいな水を安く大量に供給して環境を改善する 水質基準、施設基準、認可基準、供給条件(供給規程)等の事業要件を規定
 →提供する水の品質や供給基準を決めた  (例:蛇口から出た水の残留塩素濃度が0.1mg/L以上=衛生面の基準)

Slide 14

Slide 14 text

これからのメルカリ・メルペイのデータ分析環境 ● 新たなデータ活用需要に対応するパイプライン敷設(CRM, AML, ML, etc..) ● 十分なデータを安全に、使いやすく供給する ● 提供するデータの品質基準(SLA)やモニタリング方法を決める →DataManagementTeamは  データをあんしん、あんぜん、かんたんに使えるようにするために  様々な基準やルールを作っていく  =データガバナンス活動

Slide 15

Slide 15 text

具体的に何をやっているのか データをあんしんして使うために・・・ ● 一意性(Uniqueness) ● 完全性(Integrity) ● 適時性(Timeliness) ● 有効性(Validity) などの機械的に判定できるデータ品質を計測するFramework導入 →Deequ - Unit Tests for Data

Slide 16

Slide 16 text

具体的に何をやっているのか データをあんぜんに使うために・・・ セキュリティグループの定める情報の機密レベルに即したデータ管理 ● 住所氏名 ● 信用情報 などのTopSecret級データを、 一般にアクセスできるデータ分析環境から取り除く →Filteringによる安全性(Security)確保

Slide 17

Slide 17 text

具体的に何をやっているのか データをかんたんに使うために・・・ データを説明するデータ = メタデータのプラットフォームを作成。→ dbt & 複雑なMSのデータを複数層に分けて加工、使いやすくする raw data → component層 → data_model層

Slide 18

Slide 18 text

その他にも必要なこと Monitoring Maintainance

Slide 19

Slide 19 text

東京都水道局「水道水の安定供給を支える人」 より引用 インフラとして提供できるデータを目指して

Slide 20

Slide 20 text

Reference ● 「世界と日本の水道・下水道の起源」 ● 東京水道の歴史 ● 東京都水道局 ● PROJECT TOEI