Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ品質を重視したデータ基盤プロダクト開発

 データ品質を重視したデータ基盤プロダクト開発

データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ (https://findy.connpass.com/event/278140/)
の登壇資料になります。

Toshiki Tsuchikawa

April 11, 2023
Tweet

More Decks by Toshiki Tsuchikawa

Other Decks in Technology

Transcript

  1. 2023/04/11 土川稔生
    データ品質を重視した
    データ基盤プロダクト開発
    @tvtg_24
    データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ

    View Slide

  2. 土川 稔生 (Tsuchikawa Toshiki)
    ● 株式会社タイミーに2020年入社
    ● DRE (Data Reliability Engineering) チーム
    ○ データエンジニアとしてデータ基盤プロダク
    トを構築
    ○ 現在はプロダクトオーナーとして、データ基
    盤プロダクト作りに励む
    ● Twitter: @tvtg_24
    2
    自己紹介

    View Slide

  3. 目次 ● データ品質とは...?
    ● タイミーのデータ品質向上のために

    View Slide

  4. 1 データ品質とは...???

    View Slide

  5. データ利用者の期待と要求を
    満たす度合い
    DMBOK 13章より

    View Slide

  6. 高品質なデータとは...
    データニーズA
    経営に関する意思決定
    ● 前日分のデータを用いる
    ● データにズレがあると意思決定を
    間違い、大きな問題になる
    データニーズB
    機械学習アルゴリズム
    ● リアルタイムに近いデータを用いる
    ● データに多少誤差があっても精度
    には大きな影響がない
    データ基盤プ
    ロダクト

    リアルタイム性 高
    データの正確性 低
    リアルタイム性 低
    データの正確性 高

    View Slide

  7. 高品質なデータとは...
    データニーズA
    経営に関する意思決定
    ● 前日分のデータを用いる
    ● データにズレがあると意思決定を
    間違い、大きな問題になる
    データニーズB
    機械学習アルゴリズム
    ● リアルタイムに近いデータを用いる
    ● データに多少誤差があっても精度
    には大きな影響がない
    データ基盤プ
    ロダクト

    リアルタイム性 高
    データの正確性 高

    View Slide

  8. 高品質なデータとは...
    ● あらゆるデータに対応できる最強なデータ基盤は高品質なデータを提供しているとは言えない
    ○ データ利用ユーザーはそんなものは求めていない
    ● 余分な時間と工数の投資により、大事な開発に時間が使えなくなる
    ● 運用も辛くなり、開発チームに負担がかかる
    バランスが大切🥖
    データの目的と提供データの品質が合致していることが大事

    View Slide

  9. 2 タイミーのデータ品質向上の
    ために

    View Slide

  10. 現在のデータ基盤概要

    View Slide

  11. 品質の高いデータ提供のために
    適時性 一意性 完全性
    元データが更新されてからどの
    くらいの遅延で分析可能になる

    データに重複はないか データに欠損はないか

    View Slide

  12. データ品質目標はバランスが大事
    データ利用ユーザ
    適時性???
    データが新しければ新し
    いほど嬉しい
    データ基盤開発者
    品質守るために無限労
    働つらい...
    ちょうどいい感じのバランスを取る
    必要がある

    View Slide

  13. データニーズを把握し、品質を交渉していく
    データ利用ユーザ
    こういうケースで、こういう
    課題を解決するためにデー
    タ利用をしてます
    データ基盤開発者
    普段どのようにデータを
    利用していますか?
    (他のユーザーも
    困っていたな...
    ちょっとチームで話
    し合おう...)
    ですが現状の最新データ
    が少し古くて、こういう運用
    の際に困っています

    View Slide

  14. 14
    Service Level Indicator
    サービスの品質を守るための指標
    SLI
    SLA
    SLO
    Service Level Agreement
    SLIで定義した指標に関するサービス提供者と
    の契約 (破った時にどうするかなど)
    Service Level Objective
    SLIで定義した指標の具体的な目安
    一般的なSLI, SLA, SLOの定義

    View Slide

  15. 15
    Service Level Indicator
    データパイプラインの適時性 (データソースの更新からど
    のくらい遅れて転送先で実用可能になるか)
    SLI
    SLA
    SLO
    Service Level Agreement
    データソースごとにデータ使用者と結ばれた適時性
    に関する契約
    破った場合はポストモーテムを実施
    例: データソースAは1日の適時性での転送
    Service Level Objective
    DREチーム内で決定されたデータソースごとの適
    時性の目標
    例: データソースAは2hourの適時性での転送
    DREチームにおけるSLI, SLA, SLOの定義

    View Slide

  16. SLAが定義されていると...!
    データ利用ユーザ データ基盤開発者
    どんなデータがどんな状態
    で利用可能なのかがわか
    りやすい!
    データの細かい状態まで
    管理していて信頼して使え
    る...!!!
    データの品質を無理せず
    守れる!!
    品質を担保しながらユー
    ザーのためのデータ基盤
    開発に時間を使える !!

    View Slide

  17. まだまだ道半ばなのでお力を貸してください!!!
    Timee Product Org Entrance Book
    https://timee.notion.site/timee/Timee-Product-Org-Entrance-Book-b7380eb4f6954e29b2664fe6f5e775f9

    View Slide