Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
Search
hase-ryo
December 22, 2020
Business
0
270
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
・メルカリ・メルペイのデータ分析環境の話をします
・データの品質とその未来像について知ってもらうのが目的です
・半分以上は歴史の話です。
hase-ryo
December 22, 2020
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
haseryo
2
280
20230725_データエンジニアに求められるソフトスキル
haseryo
4
5k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
230
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.1k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.8k
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
51k
Concept of Data Management
haseryo
1
370
Other Decks in Business
See All in Business
2024.12_中途採用資料.pdf
superstudio
PRO
0
56k
SHONAIグループ_コーポレートブック
shonai9107
0
2k
Ampersand Company Profile
cuebicventures
PRO
0
480
コーポレートストーリー(新規投資家様向け会社説明資料)
gatechnologies
1
9.5k
_RINGの会_令和の時代の保険募集実務とプロ代理店の対応.pdf
hakusansai
0
150
Sasuke Financial Lab_会社説明資料
mayuko_nishida
1
5k
株式会社JMDC データウェアハウス開発部 採用ピッチ資料
jmdc
3
1.2k
Mercari-Fact-book_en
mercari_inc
1
23k
Go See!で見つけるプロダクト開発の突破口とその実践法
ta0o_o0821
0
140
スーパーマーケットのこれまでとこれから
10xinc
3
1.9k
AWS re:Invent参加のリアル 〜女性目線で考える健康・美容・安全のベストプラクティス〜
o2mami
1
320
よいPM定例はPM組織を強くする ~ 共有から共創へ、悩みを共に解決する場づくり ~
jouykw
1
6.3k
Featured
See All Featured
RailsConf 2023
tenderlove
29
940
GitHub's CSS Performance
jonrohan
1030
460k
The Pragmatic Product Professional
lauravandoore
32
6.3k
Rails Girls Zürich Keynote
gr2m
94
13k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Imperfection Machines: The Place of Print at Facebook
scottboms
266
13k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Typedesign – Prime Four
hannesfritz
40
2.4k
Become a Pro
speakerdeck
PRO
26
5k
BBQ
matthewcrist
85
9.4k
Transcript
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して - merpay data management @hase-ryo
何の話をするか ・メルカリ・メルペイのデータ分析環境の話をします ・データの品質とその未来像について知ってもらうのが目的です ・半分以上は歴史の話です。 TechTalkの息抜きとして聞いてください
Data Management Team Mission データをインフラのように使えるようにする Objective データをあんしん、あんぜん、かんたんに使えるようにする
メルカリにおけるデータ分析環境の過去・現在・未来 身近なインフラである都水道の歴史になぞらえて説明します!
江戸(1654, Tokyo) の水道事情 @Google Map 2020 多摩川→ 玉川上水 井の頭池 善福寺池
→神田上水 1590年ごろ 井の頭池、善福寺池(現在の吉祥寺あたり)を水源とする神田上水を敷設 1654年ごろ 人口増加と共に増えた水需要に対応するため、多摩川を水源とする玉川上水を敷設 →江戸の中心地で水道の水を井戸に汲み入れ、飲料水として使えるようにした
江戸(1654, Tokyo) の水道事情 水道の水で産湯を使う →誰でも水道の水を利用できる江戸生まれであることを自慢した言葉
一方、メルカリのデータ事情(〜2018) メルカリでは「データドリブンな文化」がすでに根付いていて、個人情報を除いたプロダ クト関連データが一か所に集められ、社内メンバーであれば誰でも分析できる環境が ありました。 「メルカリを“もっと”データドリブンにする、VP of Analyticsが掲げた2つのミッション」 →誰でもデータを利用できるメルカリ →mercari-apiのデータ、Client logのデータなどがBigQueryに集約
Data Analystに限らずPMやCSメンバーもBigQueryでデータを活用できる環境
明治維新後(1866 ~ )の水道事情 明治維新後、近代化&人口増加により水需要も増加 一方で木や石の水道が腐食して水質悪化 さらに1886年、コレラが流行 → 近代的な水道の需要&敷設が加速 1887年の横浜に続き、1898年に 河川の水をろ過し、鉄製の管に圧力をかけて流す近代水道が完成 →汲み上げる水道から湧き出す水道へ
1890年 水道条例の制定 「水道トハ市町村ノ住民ノ需要ニ應シ給水ノ目的ヲ以テ布設スル水道ヲ云ヒ…」 明治維新後(1866 ~ )の水道事情 →住民の給水需要に答えるものとして水道を規定。 公営化、水源の水質検査などを定めた
一方、メルカリ・メルペイのデータ事情(2019~現在) 決済サービスというセンシティブな情報を扱うこともあり、連携時に個人情報のマスキン グもできるようにしています。 メルペイにおける大規模バッチ処理 → MicroServiceアーキテクチャでのデータ分析需要に対応 > Dataplatform Team →個人情報などの情報を取らない
or パイプラインの途中でろ過して見れなくする メルカリではデータの活用が盛んな一方で、実はデータ処理を専門にやるエンジニアが最近まで存在し ておらず、そんなこんなで僕がSREチームにデータエンジニア第1号としてjoinしました(実はこのあたりは メルペイのが少し先んじていて、あっちにはすでにデータプラットフォームチームがあって、僕は今彼らと 一緒に並んでコードを書いている) GCPでStreamなデータパイプライン始めました
これからのデータ分析環境が目指す姿は・・?
1945年から1970年にかけて東京都の人口が3倍に&高度経済成長 → 水需要がさらに増加 → ダム建設による奥多摩湖の誕生、 利根川水系からの取水開始など 需要に対応する 新たなパイプラインの敷設 WW2後(1945 ~ )の水道事情 @Google
Map 2020
1957年 水道条例廃止、水道法制定 WW2後(1945 ~ )の水道事情 清浄にして豊富低廉な水の供給を図り、もつて公衆衛生の向上と生活環境の改善とに寄与すること →きれいな水を安く大量に供給して環境を改善する 水質基準、施設基準、認可基準、供給条件(供給規程)等の事業要件を規定 →提供する水の品質や供給基準を決めた
(例:蛇口から出た水の残留塩素濃度が0.1mg/L以上=衛生面の基準)
これからのメルカリ・メルペイのデータ分析環境 • 新たなデータ活用需要に対応するパイプライン敷設(CRM, AML, ML, etc..) • 十分なデータを安全に、使いやすく供給する • 提供するデータの品質基準(SLA)やモニタリング方法を決める
→DataManagementTeamは データをあんしん、あんぜん、かんたんに使えるようにするために 様々な基準やルールを作っていく =データガバナンス活動
具体的に何をやっているのか データをあんしんして使うために・・・ • 一意性(Uniqueness) • 完全性(Integrity) • 適時性(Timeliness) • 有効性(Validity)
などの機械的に判定できるデータ品質を計測するFramework導入 →Deequ - Unit Tests for Data
具体的に何をやっているのか データをあんぜんに使うために・・・ セキュリティグループの定める情報の機密レベルに即したデータ管理 • 住所氏名 • 信用情報 などのTopSecret級データを、 一般にアクセスできるデータ分析環境から取り除く →Filteringによる安全性(Security)確保
具体的に何をやっているのか データをかんたんに使うために・・・ データを説明するデータ = メタデータのプラットフォームを作成。→ dbt & 複雑なMSのデータを複数層に分けて加工、使いやすくする raw data → component層 → data_model層
その他にも必要なこと Monitoring Maintainance
東京都水道局「水道水の安定供給を支える人」 より引用 インフラとして提供できるデータを目指して
Reference • 「世界と日本の水道・下水道の起源」 • 東京水道の歴史 • 東京都水道局 • PROJECT TOEI