Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DMBOKを参考にしたデータマネジメントの取り組み
Search
Toshiki Tsuchikawa
November 16, 2023
Technology
6
3.1k
DMBOKを参考にしたデータマネジメントの取り組み
データマネジメントチームのマネジメントの方が難しかった話 のイベント登壇用
https://timeedev.connpass.com/event/299088/
Toshiki Tsuchikawa
November 16, 2023
Tweet
Share
More Decks by Toshiki Tsuchikawa
See All by Toshiki Tsuchikawa
タイミーのデータモデリング事例と今後のチャレンジ
ttccddtoki
8
4k
タイミーのデータ活用を支えるdbt Cloud導入とこれから
ttccddtoki
2
1.3k
タイミーにおけるデータ活用の未来
ttccddtoki
0
370
急成長する組織を支えるデータ基盤のこれまで、これから
ttccddtoki
6
880
アジリティの高いデータ基盤を目指して
ttccddtoki
4
1.8k
dbt_Cloudとdbt_Core併用の試み
ttccddtoki
3
1.6k
データ品質を重視したデータ基盤プロダクト開発
ttccddtoki
8
2.5k
タイミーの未来を支えるデータ基盤プロダクト
ttccddtoki
1
1k
datatech-jp Casual Talks #3
ttccddtoki
0
1.2k
Other Decks in Technology
See All in Technology
Digitization部 紹介資料
sansan33
PRO
1
6.8k
FinTech SREのAWSサービス活用/Leveraging AWS Services in FinTech SRE
maaaato
0
120
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
2
810
セキュリティについて学ぶ会 / 2026 01 25 Takamatsu WordPress Meetup
rocketmartue
1
270
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
140
Mosaic AI Gatewayでコーディングエージェントを配るための運用Tips / JEDAI 2026 新春 Meetup! AIコーディング特集
genda
0
150
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
540
0205_Claude_CodeでSEOを最適化する_AI_Ops_Community_Vol.2__マーケティングx_AIはここまで進化した__.pdf
riku_423
0
140
What happened to RubyGems and what can we learn?
mikemcquaid
0
220
日本の85%が使う公共SaaSは、どう育ったのか
taketakekaho
1
120
データ民主化のための LLM 活用状況と課題紹介(IVRy の場合)
wxyzzz
2
640
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
130
Featured
See All Featured
Ethics towards AI in product and experience design
skipperchong
2
190
How to Talk to Developers About Accessibility
jct
2
120
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.8k
The agentic SEO stack - context over prompts
schlessera
0
620
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
720
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
71
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
The Cost Of JavaScript in 2023
addyosmani
55
9.5k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
Skip the Path - Find Your Career Trail
mkilby
0
52
Transcript
2023/11/16 土川稔生 DMBOKを参考にしたデータマネジメントの取り組み @tvtg_24 データマネジメントチームのマネジメントの方が難しかった話
目次 • DMBOKとは? • DMBOKに取り掛かる順番 • 13章 データ品質
土川 稔生 (Tsuchikawa Toshiki) 株式会社タイミーに2020年入社 DRE (Data Reliability Engineering) チーム
1人目データエンジニアとしてデータ基盤を構築 現在はプロダクトオーナーとして、データ基盤プロダクト作りに 励む 3 自己紹介
4
5
6
DMBOKとは? 「Data Management Body Of Knowledge」の略で、「データマネジメント知識体系ガイド」と訳される。 データマネジメントプロフェッショナルにとって有益な資料かつ指針となることを目指し、 データ管理のもっとも信頼できる入門書となるよう編集される。 2nd editionであるDMBOK
2は全17章からなり、 データマネジメントの知識領域を定義した DAMAホイール図で元に説明される。
DMBOKとは? https://www.dama-japan.org/Introduction.html より画像引用
どれからやったらいいの???
DMBOKピラミッド (Aiken) Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4
そんな順序よく進まなかった...
タイミー初期 (2020年ごろ) 💡様々なデータを統合したデータ分析ニーズ Redashがプロダクトのデータベースに接続されていて、データ分析・可視化業務がされていた。 少し経つとユーザー行動ログ、広告、 CRMツールなどのデータが溜まり、データの統合ニーズが出てきた。 → この頃はエンタープライズなデータウェアハウス製品がすでにあった。 embulk, digdagなどの収集ツールを利用しながらデータを統合する。
データをひたすら収集しながら社内データ利用ユーザーのニーズをひたすら叶えていくフェーズ。 収集 活用 ・・・
DMBOKピラミッドでみると...? Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 取り組めていそうな項目 •
Data Storage & Operations データストレージ周りは、データソース管理者であるプロダ クト側などで多く運用されていた。 一部のログなどのデータについてはデータを利用可能にする ため、データの生成・収集なども行った。 • Data Integration & interoperability ETL、オーケストレーションツールを用いて、データ ソースごとに転送頻度、変換・マスキング要件を適用。 • Data warehousing / Business intelligence 統合データの分析環境・可視化ツールなどを準備した。 • Data Security マスキングなどにより一部取り組めた。
データパイプラインの増加によって... 🔥特にデータ品質周りにおいてたくさんの問題が起こった データソースの抽出しているツールがバラバラだったため、たくさんのパイプラインができる。 当時は選択肢も少なく仕方がなかった ... 自分たちでインフラ管理していることもあり、色々なパイプラインで障害が発生する。 データエンジニアも少なかった (ほぼ1人) ため、必死の対応が続く。 収集
活用 ・・・ 🔥 🔥 🔥 🔥
他のデータマネジメント領域に取り 組む余裕がない...
早めにデータ品質に取り組んだ!
データ品質 (Data Quality) における取り組み フェーズ1 フェーズ2 フェーズ3 フェーズ4 💡データ品質とは...データ利用者の期待と要求を満たす度合い データパイプラインに何か障害が発生した際の即対応により、
品質が高いデータが保守できていそう。 しかし、品質高いデータは分析ユーザーにとって本当に必要なのか ? 必死に守っている品質の高さは分析のその先にあるビジネス価値に 繋がっているのだろうか?
データ品質 (Data Quality) とは?? 一意性 データに重複はないか THE SIX PRIMARY DIMENSIONS
FOR DATA QUALITY ASSESSMENT より 適時性 一意性 完全性 一貫性 正確性 有効性
データ品質 (Data Quality) における取り組み 適時性の定義と保守 データが日々の業務での意思決定に利用されることが多かった。 その時点で利用しているデータが、いつ時点のデータを示すかが大事な指標とな るため、適時性を最初に保守対象に選定した。 正確に測ると、1つの行データごとに (ユーザーにデータが届いた時刻
- データが生成された時刻) を比較して計測を行うことになる。 工数軽くするために、BigQueryの最終更新日時メタデータと現在時刻を比較する ことで、適時性の保守を試みた。 SLI, SLO, SLAを分析ユーザーと定義、公開し保守・改善を行った 適時性 元データが更新されてからどの くらいの遅延で分析可能になる か
20 Service Level Indicator データパイプラインの適時性 (データソースの更新からど のくらい遅れて転送先で実用可能になるか) SLI SLA SLO
Service Level Agreement データソースごとにデータ使用者と結ばれた適時性 に関する契約 破った場合はポストモーテムを実施 例: データソースAは1日の適時性での転送 Service Level Objective DREチーム内で決定されたデータソースごとの適 時性の目標 例: データソースAは2hourの適時性での転送 データ品質 (Data Quality) における取り組み
21 データ品質 (Data Quality) における取り組み SLAを決める際、気をつけたこと。 ユーザーが求める品質と、こちら側が提供できる品質で時間を調整する必要がある。 ユーザーは基本的に品質が高ければ高いほど嬉しくはあるので、データを利用したビジネスの目的を把握し、 こちらから品質を提案しにいくことが大切そう。 またSLAはデータ利用ユーザからアクセスしやすい場所においておき、データ利用の目的やデータの種類に
よってアップデートしていくことが必要。 (難しい...)
22 データ品質 (Data Quality) における取り組み こうして、DRE (データ基盤開発チーム) は障害対応を計画的に行うことができるようになった。 空いた余力で、他の開発に取り組む時間の確保にも成功した。 また、データ品質が可視化されたことにより、品質改善への取り組みも多く発生した。
データ利用ユーザーもどれくらいの期待値でデータが利用できるのか把握できるし、改善が回っていくので、 信頼してデータを利用できるようになる。 → 早めにデータ品質に取り組んでよかった !!!
現在やっている取り組みの紹介 Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 データサイエンス・MLOps 利用者アセスメントレベル測定
・向上 dbtによるデータモデリング Lookerによる BIユーザービリティ向上
まとめ DMBOKはデータマネジメントの知識や、取り組むべき順番などがまとめられている。 しかし、順番通りこなすのは難しかった ... タイミーでは障害が頻発していた関係で、 13章のデータ品質に早急に取り組まざるをえなかった。 結果としては、データ基盤開発側もデータ利用ユーザー側にもポジティブなことは多く、 とても良い取り組みになった。 そのおかげで、その他のデータマネジメント関連の取り組みを行う余裕が生まれ、 データマネジメントの向上ができている
!!
まだまだ道半ばなのでお力を貸してください!!! https://hrmos.co/pages/timee/jobs/1682251404118319115 積極的に採用中です!!!