Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
Search
hase-ryo
December 22, 2020
Business
0
280
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
・メルカリ・メルペイのデータ分析環境の話をします
・データの品質とその未来像について知ってもらうのが目的です
・半分以上は歴史の話です。
hase-ryo
December 22, 2020
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
haseryo
2
290
20230725_データエンジニアに求められるソフトスキル
haseryo
4
5.1k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
230
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.2k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.8k
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
51k
Concept of Data Management
haseryo
1
380
Other Decks in Business
See All in Business
おこす株式会社 Culture Deck
okos
0
210
会社紹介資料 / ProfileBook
gpol
4
27k
Works Human Intelligence
whisaiyo
1
84k
北海道スバル株式会社 採用資料
recruithokkaidousubaru
0
230
情報整理ゲーム「野球のポジション当てゲーム カード版」
chibanba1982
PRO
0
980
かさね社会保険労務士事務所_事業紹介
kasane_sr
0
140
ゲーム型ビジネスマナー研修「マナーストーリーカード版」
chibanba1982
PRO
0
230
家族アルバム みてね 事業紹介 / Our Business
familyalbum
4
29k
IT業界向けグループワーク「THEクリティカルパス オンライン版」
chibanba1982
PRO
0
320
ゲーム型ダイバーシティ&インクルージョン研修「バルーンバ人文化を探れ」
chibanba1982
PRO
0
140
株式会社B4A 会社紹介
b4a
0
6k
コンセンサスゲーム「無人島での出来事」
chibanba1982
PRO
0
470
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1030
460k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.2k
Docker and Python
trallard
43
3.2k
Automating Front-end Workflow
addyosmani
1366
200k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Agile that works and the tools we love
rasmusluckow
328
21k
Writing Fast Ruby
sferik
628
61k
Music & Morning Musume
bryan
46
6.3k
Why Our Code Smells
bkeepers
PRO
335
57k
Optimizing for Happiness
mojombo
376
70k
Rails Girls Zürich Keynote
gr2m
94
13k
GraphQLとの向き合い方2022年版
quramy
44
13k
Transcript
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して - merpay data management @hase-ryo
何の話をするか ・メルカリ・メルペイのデータ分析環境の話をします ・データの品質とその未来像について知ってもらうのが目的です ・半分以上は歴史の話です。 TechTalkの息抜きとして聞いてください
Data Management Team Mission データをインフラのように使えるようにする Objective データをあんしん、あんぜん、かんたんに使えるようにする
メルカリにおけるデータ分析環境の過去・現在・未来 身近なインフラである都水道の歴史になぞらえて説明します!
江戸(1654, Tokyo) の水道事情 @Google Map 2020 多摩川→ 玉川上水 井の頭池 善福寺池
→神田上水 1590年ごろ 井の頭池、善福寺池(現在の吉祥寺あたり)を水源とする神田上水を敷設 1654年ごろ 人口増加と共に増えた水需要に対応するため、多摩川を水源とする玉川上水を敷設 →江戸の中心地で水道の水を井戸に汲み入れ、飲料水として使えるようにした
江戸(1654, Tokyo) の水道事情 水道の水で産湯を使う →誰でも水道の水を利用できる江戸生まれであることを自慢した言葉
一方、メルカリのデータ事情(〜2018) メルカリでは「データドリブンな文化」がすでに根付いていて、個人情報を除いたプロダ クト関連データが一か所に集められ、社内メンバーであれば誰でも分析できる環境が ありました。 「メルカリを“もっと”データドリブンにする、VP of Analyticsが掲げた2つのミッション」 →誰でもデータを利用できるメルカリ →mercari-apiのデータ、Client logのデータなどがBigQueryに集約
Data Analystに限らずPMやCSメンバーもBigQueryでデータを活用できる環境
明治維新後(1866 ~ )の水道事情 明治維新後、近代化&人口増加により水需要も増加 一方で木や石の水道が腐食して水質悪化 さらに1886年、コレラが流行 → 近代的な水道の需要&敷設が加速 1887年の横浜に続き、1898年に 河川の水をろ過し、鉄製の管に圧力をかけて流す近代水道が完成 →汲み上げる水道から湧き出す水道へ
1890年 水道条例の制定 「水道トハ市町村ノ住民ノ需要ニ應シ給水ノ目的ヲ以テ布設スル水道ヲ云ヒ…」 明治維新後(1866 ~ )の水道事情 →住民の給水需要に答えるものとして水道を規定。 公営化、水源の水質検査などを定めた
一方、メルカリ・メルペイのデータ事情(2019~現在) 決済サービスというセンシティブな情報を扱うこともあり、連携時に個人情報のマスキン グもできるようにしています。 メルペイにおける大規模バッチ処理 → MicroServiceアーキテクチャでのデータ分析需要に対応 > Dataplatform Team →個人情報などの情報を取らない
or パイプラインの途中でろ過して見れなくする メルカリではデータの活用が盛んな一方で、実はデータ処理を専門にやるエンジニアが最近まで存在し ておらず、そんなこんなで僕がSREチームにデータエンジニア第1号としてjoinしました(実はこのあたりは メルペイのが少し先んじていて、あっちにはすでにデータプラットフォームチームがあって、僕は今彼らと 一緒に並んでコードを書いている) GCPでStreamなデータパイプライン始めました
これからのデータ分析環境が目指す姿は・・?
1945年から1970年にかけて東京都の人口が3倍に&高度経済成長 → 水需要がさらに増加 → ダム建設による奥多摩湖の誕生、 利根川水系からの取水開始など 需要に対応する 新たなパイプラインの敷設 WW2後(1945 ~ )の水道事情 @Google
Map 2020
1957年 水道条例廃止、水道法制定 WW2後(1945 ~ )の水道事情 清浄にして豊富低廉な水の供給を図り、もつて公衆衛生の向上と生活環境の改善とに寄与すること →きれいな水を安く大量に供給して環境を改善する 水質基準、施設基準、認可基準、供給条件(供給規程)等の事業要件を規定 →提供する水の品質や供給基準を決めた
(例:蛇口から出た水の残留塩素濃度が0.1mg/L以上=衛生面の基準)
これからのメルカリ・メルペイのデータ分析環境 • 新たなデータ活用需要に対応するパイプライン敷設(CRM, AML, ML, etc..) • 十分なデータを安全に、使いやすく供給する • 提供するデータの品質基準(SLA)やモニタリング方法を決める
→DataManagementTeamは データをあんしん、あんぜん、かんたんに使えるようにするために 様々な基準やルールを作っていく =データガバナンス活動
具体的に何をやっているのか データをあんしんして使うために・・・ • 一意性(Uniqueness) • 完全性(Integrity) • 適時性(Timeliness) • 有効性(Validity)
などの機械的に判定できるデータ品質を計測するFramework導入 →Deequ - Unit Tests for Data
具体的に何をやっているのか データをあんぜんに使うために・・・ セキュリティグループの定める情報の機密レベルに即したデータ管理 • 住所氏名 • 信用情報 などのTopSecret級データを、 一般にアクセスできるデータ分析環境から取り除く →Filteringによる安全性(Security)確保
具体的に何をやっているのか データをかんたんに使うために・・・ データを説明するデータ = メタデータのプラットフォームを作成。→ dbt & 複雑なMSのデータを複数層に分けて加工、使いやすくする raw data → component層 → data_model層
その他にも必要なこと Monitoring Maintainance
東京都水道局「水道水の安定供給を支える人」 より引用 インフラとして提供できるデータを目指して
Reference • 「世界と日本の水道・下水道の起源」 • 東京水道の歴史 • 東京都水道局 • PROJECT TOEI