Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DMBOKを参考にしたデータマネジメントの取り組み
Search
Toshiki Tsuchikawa
November 16, 2023
Technology
6
2.9k
DMBOKを参考にしたデータマネジメントの取り組み
データマネジメントチームのマネジメントの方が難しかった話 のイベント登壇用
https://timeedev.connpass.com/event/299088/
Toshiki Tsuchikawa
November 16, 2023
Tweet
Share
More Decks by Toshiki Tsuchikawa
See All by Toshiki Tsuchikawa
タイミーのデータモデリング事例と今後のチャレンジ
ttccddtoki
6
2.4k
タイミーのデータ活用を支えるdbt Cloud導入とこれから
ttccddtoki
2
930
タイミーにおけるデータ活用の未来
ttccddtoki
0
190
急成長する組織を支えるデータ基盤のこれまで、これから
ttccddtoki
6
790
アジリティの高いデータ基盤を目指して
ttccddtoki
4
1.7k
dbt_Cloudとdbt_Core併用の試み
ttccddtoki
3
1.4k
データ品質を重視したデータ基盤プロダクト開発
ttccddtoki
8
2.5k
タイミーの未来を支えるデータ基盤プロダクト
ttccddtoki
1
920
datatech-jp Casual Talks #3
ttccddtoki
0
1.1k
Other Decks in Technology
See All in Technology
マネジメントって難しい、けどおもしろい / Management is tough, but fun! #em_findy
ar_tama
7
1.2k
開発生産性を測る前にやるべきこと - 組織改善の実践 / Before Measuring Dev Productivity
kaonavi
13
6.1k
American airlines ®️ USA Contact Numbers: Complete 2025 Support Guide
airhelpsupport
0
390
SEQUENCE object comparison - db tech showcase 2025 LT2
nori_shinoda
0
150
高速なプロダクト開発を実現、創業期から掲げるエンタープライズアーキテクチャ
kawauso
3
9.6k
Contributing to Rails? Start with the Gems You Already Use
yahonda
2
100
成長し続けるアプリのためのテストと設計の関係、そして意思決定の記録。
sansantech
PRO
0
130
事例で学ぶ!B2B SaaSにおけるSREの実践例/SRE for B2B SaaS: A Real-World Case Study
bitkey
0
110
開発生産性を組織全体の「生産性」へ! 部門間連携の壁を越える実践的ステップ
sudo5in5k
3
7.4k
CDK Vibe Coding Fes
tomoki10
0
140
american aa airlines®️ USA Contact Numbers: Complete 2025 Support Guide
aaguide
0
320
PO初心者が考えた ”POらしさ”
nb_rady
0
220
Featured
See All Featured
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
Statistics for Hackers
jakevdp
799
220k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
A Modern Web Designer's Workflow
chriscoyier
695
190k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
A designer walks into a library…
pauljervisheath
207
24k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.3k
Rails Girls Zürich Keynote
gr2m
95
14k
Side Projects
sachag
455
42k
Unsuck your backbone
ammeep
671
58k
Transcript
2023/11/16 土川稔生 DMBOKを参考にしたデータマネジメントの取り組み @tvtg_24 データマネジメントチームのマネジメントの方が難しかった話
目次 • DMBOKとは? • DMBOKに取り掛かる順番 • 13章 データ品質
土川 稔生 (Tsuchikawa Toshiki) 株式会社タイミーに2020年入社 DRE (Data Reliability Engineering) チーム
1人目データエンジニアとしてデータ基盤を構築 現在はプロダクトオーナーとして、データ基盤プロダクト作りに 励む 3 自己紹介
4
5
6
DMBOKとは? 「Data Management Body Of Knowledge」の略で、「データマネジメント知識体系ガイド」と訳される。 データマネジメントプロフェッショナルにとって有益な資料かつ指針となることを目指し、 データ管理のもっとも信頼できる入門書となるよう編集される。 2nd editionであるDMBOK
2は全17章からなり、 データマネジメントの知識領域を定義した DAMAホイール図で元に説明される。
DMBOKとは? https://www.dama-japan.org/Introduction.html より画像引用
どれからやったらいいの???
DMBOKピラミッド (Aiken) Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4
そんな順序よく進まなかった...
タイミー初期 (2020年ごろ) 💡様々なデータを統合したデータ分析ニーズ Redashがプロダクトのデータベースに接続されていて、データ分析・可視化業務がされていた。 少し経つとユーザー行動ログ、広告、 CRMツールなどのデータが溜まり、データの統合ニーズが出てきた。 → この頃はエンタープライズなデータウェアハウス製品がすでにあった。 embulk, digdagなどの収集ツールを利用しながらデータを統合する。
データをひたすら収集しながら社内データ利用ユーザーのニーズをひたすら叶えていくフェーズ。 収集 活用 ・・・
DMBOKピラミッドでみると...? Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 取り組めていそうな項目 •
Data Storage & Operations データストレージ周りは、データソース管理者であるプロダ クト側などで多く運用されていた。 一部のログなどのデータについてはデータを利用可能にする ため、データの生成・収集なども行った。 • Data Integration & interoperability ETL、オーケストレーションツールを用いて、データ ソースごとに転送頻度、変換・マスキング要件を適用。 • Data warehousing / Business intelligence 統合データの分析環境・可視化ツールなどを準備した。 • Data Security マスキングなどにより一部取り組めた。
データパイプラインの増加によって... 🔥特にデータ品質周りにおいてたくさんの問題が起こった データソースの抽出しているツールがバラバラだったため、たくさんのパイプラインができる。 当時は選択肢も少なく仕方がなかった ... 自分たちでインフラ管理していることもあり、色々なパイプラインで障害が発生する。 データエンジニアも少なかった (ほぼ1人) ため、必死の対応が続く。 収集
活用 ・・・ 🔥 🔥 🔥 🔥
他のデータマネジメント領域に取り 組む余裕がない...
早めにデータ品質に取り組んだ!
データ品質 (Data Quality) における取り組み フェーズ1 フェーズ2 フェーズ3 フェーズ4 💡データ品質とは...データ利用者の期待と要求を満たす度合い データパイプラインに何か障害が発生した際の即対応により、
品質が高いデータが保守できていそう。 しかし、品質高いデータは分析ユーザーにとって本当に必要なのか ? 必死に守っている品質の高さは分析のその先にあるビジネス価値に 繋がっているのだろうか?
データ品質 (Data Quality) とは?? 一意性 データに重複はないか THE SIX PRIMARY DIMENSIONS
FOR DATA QUALITY ASSESSMENT より 適時性 一意性 完全性 一貫性 正確性 有効性
データ品質 (Data Quality) における取り組み 適時性の定義と保守 データが日々の業務での意思決定に利用されることが多かった。 その時点で利用しているデータが、いつ時点のデータを示すかが大事な指標とな るため、適時性を最初に保守対象に選定した。 正確に測ると、1つの行データごとに (ユーザーにデータが届いた時刻
- データが生成された時刻) を比較して計測を行うことになる。 工数軽くするために、BigQueryの最終更新日時メタデータと現在時刻を比較する ことで、適時性の保守を試みた。 SLI, SLO, SLAを分析ユーザーと定義、公開し保守・改善を行った 適時性 元データが更新されてからどの くらいの遅延で分析可能になる か
20 Service Level Indicator データパイプラインの適時性 (データソースの更新からど のくらい遅れて転送先で実用可能になるか) SLI SLA SLO
Service Level Agreement データソースごとにデータ使用者と結ばれた適時性 に関する契約 破った場合はポストモーテムを実施 例: データソースAは1日の適時性での転送 Service Level Objective DREチーム内で決定されたデータソースごとの適 時性の目標 例: データソースAは2hourの適時性での転送 データ品質 (Data Quality) における取り組み
21 データ品質 (Data Quality) における取り組み SLAを決める際、気をつけたこと。 ユーザーが求める品質と、こちら側が提供できる品質で時間を調整する必要がある。 ユーザーは基本的に品質が高ければ高いほど嬉しくはあるので、データを利用したビジネスの目的を把握し、 こちらから品質を提案しにいくことが大切そう。 またSLAはデータ利用ユーザからアクセスしやすい場所においておき、データ利用の目的やデータの種類に
よってアップデートしていくことが必要。 (難しい...)
22 データ品質 (Data Quality) における取り組み こうして、DRE (データ基盤開発チーム) は障害対応を計画的に行うことができるようになった。 空いた余力で、他の開発に取り組む時間の確保にも成功した。 また、データ品質が可視化されたことにより、品質改善への取り組みも多く発生した。
データ利用ユーザーもどれくらいの期待値でデータが利用できるのか把握できるし、改善が回っていくので、 信頼してデータを利用できるようになる。 → 早めにデータ品質に取り組んでよかった !!!
現在やっている取り組みの紹介 Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 データサイエンス・MLOps 利用者アセスメントレベル測定
・向上 dbtによるデータモデリング Lookerによる BIユーザービリティ向上
まとめ DMBOKはデータマネジメントの知識や、取り組むべき順番などがまとめられている。 しかし、順番通りこなすのは難しかった ... タイミーでは障害が頻発していた関係で、 13章のデータ品質に早急に取り組まざるをえなかった。 結果としては、データ基盤開発側もデータ利用ユーザー側にもポジティブなことは多く、 とても良い取り組みになった。 そのおかげで、その他のデータマネジメント関連の取り組みを行う余裕が生まれ、 データマネジメントの向上ができている
!!
まだまだ道半ばなのでお力を貸してください!!! https://hrmos.co/pages/timee/jobs/1682251404118319115 積極的に採用中です!!!