Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DMBOKを参考にしたデータマネジメントの取り組み
Search
Toshiki Tsuchikawa
November 16, 2023
Technology
5
1.9k
DMBOKを参考にしたデータマネジメントの取り組み
データマネジメントチームのマネジメントの方が難しかった話 のイベント登壇用
https://timeedev.connpass.com/event/299088/
Toshiki Tsuchikawa
November 16, 2023
Tweet
Share
More Decks by Toshiki Tsuchikawa
See All by Toshiki Tsuchikawa
dbt_Cloudとdbt_Core併用の試み
ttccddtoki
3
1.1k
データ品質を重視したデータ基盤プロダクト開発
ttccddtoki
8
2k
タイミーの未来を支えるデータ基盤プロダクト
ttccddtoki
1
520
datatech-jp Casual Talks #3
ttccddtoki
0
910
Lookerとdbtの共存
ttccddtoki
0
1.3k
[輪読会]実践的データ基盤への処方箋
ttccddtoki
0
240
データ基盤品質向上のための一年
ttccddtoki
0
7.5k
embulk, digdagによるデータ基盤構築
ttccddtoki
4
2k
Other Decks in Technology
See All in Technology
LLMアプリケーションの評価の実践と課題 ~PharmaXにおける今後の展望~
pharma_x_tech
2
160
目標設定は好きですか? アジャイルとともに目標と向き合い続ける方法 / Do you like target Management?
kakehashi
10
3k
Azure AI ことはじめ
tsubakimoto_s
0
130
JBUG岡山 #6 WordCamp男木島の チームビルディング
takeshifurusato
0
150
Github Actions 로 Android 팀의 효율성 극대화
hadonghyun
0
160
年間一億円削減した時系列データベースのアーキテクチャ改善~不確実性の高いプロジェクトへの挑戦~
lycorptech_jp
PRO
3
2.9k
クラウド利用者の「責任」をどう果たす?AWSセキュリティ対策のススメ #AWSSummit
hiashisan
0
270
AWS IAMのアンチパターン/AWSが考える最低権限実現へのアプローチ概略(JAWS-UG朝会#59資料改修20分版)
htan
0
330
シフトレフトで挑む セキュリティの生産性向上
sekido
PRO
0
270
エンジニアの生存戦略 〜クラウド潮流の経験から紐解く技術トレンドのメカニズムと乗りこなし方〜
shimy
9
1.9k
開発と事業を繋ぐ!SREのオブザーバビリティ戦略 ~ Developers Summit 2024 Summer ~
leveragestech
0
620
Amazon FSx for NetApp ONTAPのパフォーマンスチューニング要素をまとめてみた #cm_odyssey #devio2024
non97
0
220
Featured
See All Featured
It's Worth the Effort
3n
181
27k
We Have a Design System, Now What?
morganepeng
46
7k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.3k
Side Projects
sachag
451
42k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
18
1.2k
GraphQLの誤解/rethinking-graphql
sonatard
59
9.6k
What the flash - Photography Introduction
edds
65
11k
Designing Experiences People Love
moore
136
23k
The Cult of Friendly URLs
andyhume
75
5.9k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
90
47k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
20
7.2k
Transcript
2023/11/16 土川稔生 DMBOKを参考にしたデータマネジメントの取り組み @tvtg_24 データマネジメントチームのマネジメントの方が難しかった話
目次 • DMBOKとは? • DMBOKに取り掛かる順番 • 13章 データ品質
土川 稔生 (Tsuchikawa Toshiki) 株式会社タイミーに2020年入社 DRE (Data Reliability Engineering) チーム
1人目データエンジニアとしてデータ基盤を構築 現在はプロダクトオーナーとして、データ基盤プロダクト作りに 励む 3 自己紹介
4
5
6
DMBOKとは? 「Data Management Body Of Knowledge」の略で、「データマネジメント知識体系ガイド」と訳される。 データマネジメントプロフェッショナルにとって有益な資料かつ指針となることを目指し、 データ管理のもっとも信頼できる入門書となるよう編集される。 2nd editionであるDMBOK
2は全17章からなり、 データマネジメントの知識領域を定義した DAMAホイール図で元に説明される。
DMBOKとは? https://www.dama-japan.org/Introduction.html より画像引用
どれからやったらいいの???
DMBOKピラミッド (Aiken) Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4
そんな順序よく進まなかった...
タイミー初期 (2020年ごろ) 💡様々なデータを統合したデータ分析ニーズ Redashがプロダクトのデータベースに接続されていて、データ分析・可視化業務がされていた。 少し経つとユーザー行動ログ、広告、 CRMツールなどのデータが溜まり、データの統合ニーズが出てきた。 → この頃はエンタープライズなデータウェアハウス製品がすでにあった。 embulk, digdagなどの収集ツールを利用しながらデータを統合する。
データをひたすら収集しながら社内データ利用ユーザーのニーズをひたすら叶えていくフェーズ。 収集 活用 ・・・
DMBOKピラミッドでみると...? Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 取り組めていそうな項目 •
Data Storage & Operations データストレージ周りは、データソース管理者であるプロダ クト側などで多く運用されていた。 一部のログなどのデータについてはデータを利用可能にする ため、データの生成・収集なども行った。 • Data Integration & interoperability ETL、オーケストレーションツールを用いて、データ ソースごとに転送頻度、変換・マスキング要件を適用。 • Data warehousing / Business intelligence 統合データの分析環境・可視化ツールなどを準備した。 • Data Security マスキングなどにより一部取り組めた。
データパイプラインの増加によって... 🔥特にデータ品質周りにおいてたくさんの問題が起こった データソースの抽出しているツールがバラバラだったため、たくさんのパイプラインができる。 当時は選択肢も少なく仕方がなかった ... 自分たちでインフラ管理していることもあり、色々なパイプラインで障害が発生する。 データエンジニアも少なかった (ほぼ1人) ため、必死の対応が続く。 収集
活用 ・・・ 🔥 🔥 🔥 🔥
他のデータマネジメント領域に取り 組む余裕がない...
早めにデータ品質に取り組んだ!
データ品質 (Data Quality) における取り組み フェーズ1 フェーズ2 フェーズ3 フェーズ4 💡データ品質とは...データ利用者の期待と要求を満たす度合い データパイプラインに何か障害が発生した際の即対応により、
品質が高いデータが保守できていそう。 しかし、品質高いデータは分析ユーザーにとって本当に必要なのか ? 必死に守っている品質の高さは分析のその先にあるビジネス価値に 繋がっているのだろうか?
データ品質 (Data Quality) とは?? 一意性 データに重複はないか THE SIX PRIMARY DIMENSIONS
FOR DATA QUALITY ASSESSMENT より 適時性 一意性 完全性 一貫性 正確性 有効性
データ品質 (Data Quality) における取り組み 適時性の定義と保守 データが日々の業務での意思決定に利用されることが多かった。 その時点で利用しているデータが、いつ時点のデータを示すかが大事な指標とな るため、適時性を最初に保守対象に選定した。 正確に測ると、1つの行データごとに (ユーザーにデータが届いた時刻
- データが生成された時刻) を比較して計測を行うことになる。 工数軽くするために、BigQueryの最終更新日時メタデータと現在時刻を比較する ことで、適時性の保守を試みた。 SLI, SLO, SLAを分析ユーザーと定義、公開し保守・改善を行った 適時性 元データが更新されてからどの くらいの遅延で分析可能になる か
20 Service Level Indicator データパイプラインの適時性 (データソースの更新からど のくらい遅れて転送先で実用可能になるか) SLI SLA SLO
Service Level Agreement データソースごとにデータ使用者と結ばれた適時性 に関する契約 破った場合はポストモーテムを実施 例: データソースAは1日の適時性での転送 Service Level Objective DREチーム内で決定されたデータソースごとの適 時性の目標 例: データソースAは2hourの適時性での転送 データ品質 (Data Quality) における取り組み
21 データ品質 (Data Quality) における取り組み SLAを決める際、気をつけたこと。 ユーザーが求める品質と、こちら側が提供できる品質で時間を調整する必要がある。 ユーザーは基本的に品質が高ければ高いほど嬉しくはあるので、データを利用したビジネスの目的を把握し、 こちらから品質を提案しにいくことが大切そう。 またSLAはデータ利用ユーザからアクセスしやすい場所においておき、データ利用の目的やデータの種類に
よってアップデートしていくことが必要。 (難しい...)
22 データ品質 (Data Quality) における取り組み こうして、DRE (データ基盤開発チーム) は障害対応を計画的に行うことができるようになった。 空いた余力で、他の開発に取り組む時間の確保にも成功した。 また、データ品質が可視化されたことにより、品質改善への取り組みも多く発生した。
データ利用ユーザーもどれくらいの期待値でデータが利用できるのか把握できるし、改善が回っていくので、 信頼してデータを利用できるようになる。 → 早めにデータ品質に取り組んでよかった !!!
現在やっている取り組みの紹介 Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用 フェーズ1 フェーズ2 フェーズ3 フェーズ4 データサイエンス・MLOps 利用者アセスメントレベル測定
・向上 dbtによるデータモデリング Lookerによる BIユーザービリティ向上
まとめ DMBOKはデータマネジメントの知識や、取り組むべき順番などがまとめられている。 しかし、順番通りこなすのは難しかった ... タイミーでは障害が頻発していた関係で、 13章のデータ品質に早急に取り組まざるをえなかった。 結果としては、データ基盤開発側もデータ利用ユーザー側にもポジティブなことは多く、 とても良い取り組みになった。 そのおかげで、その他のデータマネジメント関連の取り組みを行う余裕が生まれ、 データマネジメントの向上ができている
!!
まだまだ道半ばなのでお力を貸してください!!! https://hrmos.co/pages/timee/jobs/1682251404118319115 積極的に採用中です!!!