データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ (https://findy.connpass.com/event/278140/) の登壇資料になります。
2023/04/11 土川稔生データ品質を重視したデータ基盤プロダクト開発@tvtg_24データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ
View Slide
土川 稔生 (Tsuchikawa Toshiki)● 株式会社タイミーに2020年入社● DRE (Data Reliability Engineering) チーム○ データエンジニアとしてデータ基盤プロダクトを構築○ 現在はプロダクトオーナーとして、データ基盤プロダクト作りに励む● Twitter: @tvtg_242自己紹介
目次 ● データ品質とは...?● タイミーのデータ品質向上のために
1 データ品質とは...???
データ利用者の期待と要求を満たす度合いDMBOK 13章より
高品質なデータとは...データニーズA経営に関する意思決定● 前日分のデータを用いる● データにズレがあると意思決定を間違い、大きな問題になるデータニーズB機械学習アルゴリズム● リアルタイムに近いデータを用いる● データに多少誤差があっても精度には大きな影響がないデータ基盤プロダクト⭕リアルタイム性 高データの正確性 低リアルタイム性 低データの正確性 高
高品質なデータとは...データニーズA経営に関する意思決定● 前日分のデータを用いる● データにズレがあると意思決定を間違い、大きな問題になるデータニーズB機械学習アルゴリズム● リアルタイムに近いデータを用いる● データに多少誤差があっても精度には大きな影響がないデータ基盤プロダクト❌リアルタイム性 高データの正確性 高
高品質なデータとは...● あらゆるデータに対応できる最強なデータ基盤は高品質なデータを提供しているとは言えない○ データ利用ユーザーはそんなものは求めていない● 余分な時間と工数の投資により、大事な開発に時間が使えなくなる● 運用も辛くなり、開発チームに負担がかかるバランスが大切🥖データの目的と提供データの品質が合致していることが大事
2 タイミーのデータ品質向上のために
現在のデータ基盤概要
品質の高いデータ提供のために適時性 一意性 完全性元データが更新されてからどのくらいの遅延で分析可能になるかデータに重複はないか データに欠損はないか
データ品質目標はバランスが大事データ利用ユーザ適時性???データが新しければ新しいほど嬉しいデータ基盤開発者品質守るために無限労働つらい...ちょうどいい感じのバランスを取る必要がある
データニーズを把握し、品質を交渉していくデータ利用ユーザこういうケースで、こういう課題を解決するためにデータ利用をしてますデータ基盤開発者普段どのようにデータを利用していますか?(他のユーザーも困っていたな...ちょっとチームで話し合おう...)ですが現状の最新データが少し古くて、こういう運用の際に困っています
14Service Level Indicatorサービスの品質を守るための指標SLISLASLOService Level AgreementSLIで定義した指標に関するサービス提供者との契約 (破った時にどうするかなど)Service Level ObjectiveSLIで定義した指標の具体的な目安一般的なSLI, SLA, SLOの定義
15Service Level Indicatorデータパイプラインの適時性 (データソースの更新からどのくらい遅れて転送先で実用可能になるか)SLISLASLOService Level Agreementデータソースごとにデータ使用者と結ばれた適時性に関する契約破った場合はポストモーテムを実施例: データソースAは1日の適時性での転送Service Level ObjectiveDREチーム内で決定されたデータソースごとの適時性の目標例: データソースAは2hourの適時性での転送DREチームにおけるSLI, SLA, SLOの定義
SLAが定義されていると...!データ利用ユーザ データ基盤開発者どんなデータがどんな状態で利用可能なのかがわかりやすい!データの細かい状態まで管理していて信頼して使える...!!!データの品質を無理せず守れる!!品質を担保しながらユーザーのためのデータ基盤開発に時間を使える !!
まだまだ道半ばなのでお力を貸してください!!!Timee Product Org Entrance Bookhttps://timee.notion.site/timee/Timee-Product-Org-Entrance-Book-b7380eb4f6954e29b2664fe6f5e775f9