Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DMBOKを参考にしたデータマネジメントの取り組み
Search
Toshiki Tsuchikawa
November 16, 2023
Technology
6
3k
DMBOKを参考にしたデータマネジメントの取り組み
データマネジメントチームのマネジメントの方が難しかった話 のイベント登壇用
https://timeedev.connpass.com/event/299088/
Toshiki Tsuchikawa
November 16, 2023
Tweet
Share
More Decks by Toshiki Tsuchikawa
See All by Toshiki Tsuchikawa
タイミーのデータモデリング事例と今後のチャレンジ
ttccddtoki
6
3.1k
タイミーのデータ活用を支えるdbt Cloud導入とこれから
ttccddtoki
2
1.1k
タイミーにおけるデータ活用の未来
ttccddtoki
0
250
急成長する組織を支えるデータ基盤のこれまで、これから
ttccddtoki
6
810
アジリティの高いデータ基盤を目指して
ttccddtoki
4
1.7k
dbt_Cloudとdbt_Core併用の試み
ttccddtoki
3
1.5k
データ品質を重視したデータ基盤プロダクト開発
ttccddtoki
8
2.5k
タイミーの未来を支えるデータ基盤プロダクト
ttccddtoki
1
970
datatech-jp Casual Talks #3
ttccddtoki
0
1.1k
Other Decks in Technology
See All in Technology
stupid jj tricks
indirect
0
7.9k
成長自己責任時代のあるきかた/How to navigate the era of personal responsibility for growth
kwappa
3
260
Goに育てられ開発者向けセキュリティ事業を立ち上げた僕が今向き合う、AI × セキュリティの最前線 / Go Conference 2025
flatt_security
0
350
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
databricksjapan
0
140
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
2
5.4k
VCC 2025 Write-up
bata_24
0
180
「Verify with Wallet API」を アプリに導入するために
hinakko
1
230
空間を設計する力を考える / 20251004 Naoki Takahashi
shift_evolve
PRO
3
330
GA technologiesでのAI-Readyの取り組み@DataOps Night
yuto16
0
260
PLaMoの事後学習を支える技術 / PFN LLMセミナー
pfn
PRO
9
3.8k
Azure Well-Architected Framework入門
tomokusaba
0
280
PLaMo2シリーズのvLLM実装 / PFN LLM セミナー
pfn
PRO
2
970
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
75
5k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
Being A Developer After 40
akosma
91
590k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.7k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
32
2.2k
The Language of Interfaces
destraynor
162
25k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
9
580
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
Agile that works and the tools we love
rasmusluckow
331
21k
Transcript
2023/11/16 土川稔生 DMBOKを参考にしたデータマネジメントの取り組み @tvtg_24 データマネジメントチームのマネジメントの方が難しかった話
目次 • DMBOKとは? • DMBOKに取り掛かる順番 • 13章 データ品質
土川 稔生 (Tsuchikawa Toshiki) 株式会社タイミーに2020年入社 DRE (Data Reliability Engineering) チーム
1人目データエンジニアとしてデータ基盤を構築 現在はプロダクトオーナーとして、データ基盤プロダクト作りに 励む 3 自己紹介
4
5
6
DMBOKとは? 「Data Management Body Of Knowledge」の略で、「データマネジメント知識体系ガイド」と訳される。 データマネジメントプロフェッショナルにとって有益な資料かつ指針となることを目指し、 データ管理のもっとも信頼できる入門書となるよう編集される。 2nd editionであるDMBOK
2は全17章からなり、 データマネジメントの知識領域を定義した DAMAホイール図で元に説明される。
DMBOKとは? https://www.dama-japan.org/Introduction.html より画像引用
どれからやったらいいの???
DMBOKピラミッド (Aiken) Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4
そんな順序よく進まなかった...
タイミー初期 (2020年ごろ) 💡様々なデータを統合したデータ分析ニーズ Redashがプロダクトのデータベースに接続されていて、データ分析・可視化業務がされていた。 少し経つとユーザー行動ログ、広告、 CRMツールなどのデータが溜まり、データの統合ニーズが出てきた。 → この頃はエンタープライズなデータウェアハウス製品がすでにあった。 embulk, digdagなどの収集ツールを利用しながらデータを統合する。
データをひたすら収集しながら社内データ利用ユーザーのニーズをひたすら叶えていくフェーズ。 収集 活用 ・・・
DMBOKピラミッドでみると...? Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 取り組めていそうな項目 •
Data Storage & Operations データストレージ周りは、データソース管理者であるプロダ クト側などで多く運用されていた。 一部のログなどのデータについてはデータを利用可能にする ため、データの生成・収集なども行った。 • Data Integration & interoperability ETL、オーケストレーションツールを用いて、データ ソースごとに転送頻度、変換・マスキング要件を適用。 • Data warehousing / Business intelligence 統合データの分析環境・可視化ツールなどを準備した。 • Data Security マスキングなどにより一部取り組めた。
データパイプラインの増加によって... 🔥特にデータ品質周りにおいてたくさんの問題が起こった データソースの抽出しているツールがバラバラだったため、たくさんのパイプラインができる。 当時は選択肢も少なく仕方がなかった ... 自分たちでインフラ管理していることもあり、色々なパイプラインで障害が発生する。 データエンジニアも少なかった (ほぼ1人) ため、必死の対応が続く。 収集
活用 ・・・ 🔥 🔥 🔥 🔥
他のデータマネジメント領域に取り 組む余裕がない...
早めにデータ品質に取り組んだ!
データ品質 (Data Quality) における取り組み フェーズ1 フェーズ2 フェーズ3 フェーズ4 💡データ品質とは...データ利用者の期待と要求を満たす度合い データパイプラインに何か障害が発生した際の即対応により、
品質が高いデータが保守できていそう。 しかし、品質高いデータは分析ユーザーにとって本当に必要なのか ? 必死に守っている品質の高さは分析のその先にあるビジネス価値に 繋がっているのだろうか?
データ品質 (Data Quality) とは?? 一意性 データに重複はないか THE SIX PRIMARY DIMENSIONS
FOR DATA QUALITY ASSESSMENT より 適時性 一意性 完全性 一貫性 正確性 有効性
データ品質 (Data Quality) における取り組み 適時性の定義と保守 データが日々の業務での意思決定に利用されることが多かった。 その時点で利用しているデータが、いつ時点のデータを示すかが大事な指標とな るため、適時性を最初に保守対象に選定した。 正確に測ると、1つの行データごとに (ユーザーにデータが届いた時刻
- データが生成された時刻) を比較して計測を行うことになる。 工数軽くするために、BigQueryの最終更新日時メタデータと現在時刻を比較する ことで、適時性の保守を試みた。 SLI, SLO, SLAを分析ユーザーと定義、公開し保守・改善を行った 適時性 元データが更新されてからどの くらいの遅延で分析可能になる か
20 Service Level Indicator データパイプラインの適時性 (データソースの更新からど のくらい遅れて転送先で実用可能になるか) SLI SLA SLO
Service Level Agreement データソースごとにデータ使用者と結ばれた適時性 に関する契約 破った場合はポストモーテムを実施 例: データソースAは1日の適時性での転送 Service Level Objective DREチーム内で決定されたデータソースごとの適 時性の目標 例: データソースAは2hourの適時性での転送 データ品質 (Data Quality) における取り組み
21 データ品質 (Data Quality) における取り組み SLAを決める際、気をつけたこと。 ユーザーが求める品質と、こちら側が提供できる品質で時間を調整する必要がある。 ユーザーは基本的に品質が高ければ高いほど嬉しくはあるので、データを利用したビジネスの目的を把握し、 こちらから品質を提案しにいくことが大切そう。 またSLAはデータ利用ユーザからアクセスしやすい場所においておき、データ利用の目的やデータの種類に
よってアップデートしていくことが必要。 (難しい...)
22 データ品質 (Data Quality) における取り組み こうして、DRE (データ基盤開発チーム) は障害対応を計画的に行うことができるようになった。 空いた余力で、他の開発に取り組む時間の確保にも成功した。 また、データ品質が可視化されたことにより、品質改善への取り組みも多く発生した。
データ利用ユーザーもどれくらいの期待値でデータが利用できるのか把握できるし、改善が回っていくので、 信頼してデータを利用できるようになる。 → 早めにデータ品質に取り組んでよかった !!!
現在やっている取り組みの紹介 Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 データサイエンス・MLOps 利用者アセスメントレベル測定
・向上 dbtによるデータモデリング Lookerによる BIユーザービリティ向上
まとめ DMBOKはデータマネジメントの知識や、取り組むべき順番などがまとめられている。 しかし、順番通りこなすのは難しかった ... タイミーでは障害が頻発していた関係で、 13章のデータ品質に早急に取り組まざるをえなかった。 結果としては、データ基盤開発側もデータ利用ユーザー側にもポジティブなことは多く、 とても良い取り組みになった。 そのおかげで、その他のデータマネジメント関連の取り組みを行う余裕が生まれ、 データマネジメントの向上ができている
!!
まだまだ道半ばなのでお力を貸してください!!! https://hrmos.co/pages/timee/jobs/1682251404118319115 積極的に採用中です!!!