データ品質を守り続けるためのデータ基盤の考え方

by tenajima

Embed

Start on current slide

Slide 1

Slide 1 text

Slide 2

Slide 2 text

©2023 10X, Inc. 自己紹介 ● 水谷優斗 ○ 各種id: @tenajima ● 株式会社10X データ基盤チーム ○ 2023年2月入社 ○ 小売企業様へのダッシュボードの提供、社内データ基盤の運用 ○ データプロダクトの開発 ● 経歴 ○ Fringe81(現Unipos) にデータサイエンティストとして新卒入社 ○ データサイエンティストとして広告基盤の改善に取り組んだり、 HR SaaSのデータ活用に取り組んだり ○ 2021年4月頃からデータ分析基盤の作成、社内のデータ活用に取り組むようになる ● 趣味 ○ 野球とワンピースはじめに

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

©2023 10X, Inc. 10Xにおけるデータ品質の定義 ● あるデータが実際にある現象をどれだけ正確に再現できているか ○ 正確性: データが実際にある現象を表現できているか ○ 可用性: データ利用者が、利用したいときにデータを利用できるか ○ 信頼性: そのデータはどのように作られ、どのような処理を経てできているかが明瞭か ○ 利用性: 任意のデータを使うときに、そのデータの場所を特定し、理解し、使えるようになっているか ○ 参照: Elementaryを用いたデータ品質の可視化とデータ基盤の運用改善

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

©2023 10X, Inc. 1年半前の10Xのデータ基盤の状況 ● dbt のモデル数: 1,800 ● ネットスーパーの多様な指標 (お客様側、小売事業者側) ● SQL に長けた人材が多く、結果として様々な指標が dbt パイプライン上に存在 ○ 分析をするために必要な SQL の考え方とデータ基盤を作っていくのに必要な SQL の考え方は違う (データ基盤のためのリーダブル SQL) ● 今回の発表内容: データ品質問題の実例とその原因を明らかにし、このような設計だったらスムーズに改善が進んだ・このような設計だったから改善するのに骨が折れたを提示していきます

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

©2023 10X, Inc. 実例3: 指標の横展開の困難さ ● 実例 ○ 特定の小売業者に出していた指標を他の小売業者に展開するときに、 mart の内容をコピペして作る → 修正があるとパートナー数分修正が必要になる ○ 仮名加工化という、全テーブルに対して共通の処理をかけるときにすごく大変だった ■ 仮名加工化の実践: データ分析基盤における挑戦と学び ● 原因 ○ 特定パートナーから小さく試してみるものと、全パートナーに展開する指標の境目が曖昧 ■ 試してみて、良さそうなのであれば全パートナー向けにどの品質で作り直すかが定まっていなかった ○ 指標やビジネスロジックの SSoT が表現されていない ○ レイヤーの責務分割が不十分データ品質問題の実例と原因

Slide 15

Slide 15 text

Slide 16

Slide 16 text

©2023 10X, Inc. 変更容易性が低かった設計と高かった設計変更容易性が低かった設計と高かった設計低かった設計・モデルの参照ルールが不明瞭・mart が mart を参照する構造・社外向けのモデルが社内向けのモデルを参照する構造・共通化が不足している高かった設計・各レイヤーの役割と責任を明確にし、レイヤー間の依存関係がシンプル・上記に制約を設ける・データモデリングの意図が明確・テストによって守られている

Slide 17

Slide 17 text

©2023 10X, Inc. 変更容易性が低かった設計 ● モデルの参照ルールが不明瞭 ○ リネージが複雑に絡み合っていて、どこでなんの処理をしているのかを理解するのがとても大変になる ○ バグが発生していた際に、どこにバグが潜んでいるのかを特定するのが難しい ○ リファクタリングが困難 ● mart が mart を参照する構造 ○ 依存関係の複雑化に繋がる ○ 依存元の要件が変更になった際に、別の mart にも影響がでてしまい、要件を調整し続ける必要がでてきてしまう ○ リファクタリングが困難変更容易性が低かった設計と高かった設計

Slide 18

Slide 18 text

©2023 10X, Inc. 変更容易性が低かった設計 ● 社外向けのモデルが社内向けのモデルを参照する構造 ○ 10X では dimensional modeling 層から社外向けの mart を参照する構造を指す ○ 社内向けにシュッと改善したいものも、社外への影響を調査しなければいけなかったり、「気にしないといけない」状態になっている ● 共通化が不足している ○ 類似の指標が複数存在し、メンテナンスコストが増加 ○ 指標の定義が曖昧になり、データの解釈に齟齬が生じる変更容易性が低かった設計と高かった設計

Slide 19

Slide 19 text

©2023 10X, Inc. 変更容易性が高かった設計 ● 各レイヤーの役割と責任を明確にし、レイヤー間の依存関係がシンプル ● 上記に制約を設ける ○ staging ではビジネスキーの定義しか行わない ○ その次のレイヤーでは履歴を考慮したモデルを一定のルール (data vault) に従って生成する、ここに SQL を書く自由度はない ○ その次のレイヤーでソフトビジネスルール (変わりうるビジネス要件 )を実装する、積み重なるリネージの上限は設定されていて、機械的にチェックされる ○ dimensional modeling の層は社内向けの adhoc な分析のためのレイヤーとする ○ 社外向けに提供する BI は mart 経由しか許さない ○ その mart は社内向けの dimensional modeling 層に依存してはいけない変更容易性が低かった設計と高かった設計

Slide 20

Slide 20 text

©2023 10X, Inc. 変更容易性が高かった設計 ● データモデリングの意図が明確 ○ ビジネスプロセスを明確にすることから始める ○ 共通化できるビジネスルールを共通化する ■ ビジネスルールを司るレイヤーを意識する ■ mart で同じロジックが散見され始めたらそのレイヤーにビジネスルールを固める ● テストによって守られている ○ dbt のテスト、constraints を利用しながら自動テストを入れる ○ レイヤー及びモデルの責務が分割された上で進めていくとテストするものが明確になりやすい変更容易性が低かった設計と高かった設計

Slide 21

Slide 21 text

Slide 22

Slide 22 text

©2023 10X, Inc. 今0からデータパイプラインを作るなら？ ● data vault は必ずしも初期から採用しない ○ 時間に余裕があって、ビジネスキーが明確になっていれば採用してもいいかも ● データモデリング自体を意識する ○ ビジネスキーとして何を用いるのが適切なのかを考えること ○ 自分たちが取り扱うサービスにはどのようなビジネスプロセスがあり、それらはどのようなビジネスイベントとして表現されるかを考えること ● テスト ○ dbt test、constraints を用いて「ここまではテストや制約が保証してくれている」というアンカーポイントを打っていく ○ どのレイヤーでどのようなテストを書くべきかを明確にすること今0からデータパイプラインを作るなら？

Slide 23

Slide 23 text

©2023 10X, Inc. 今0からデータパイプラインを作るなら？ ● 「撤退日、撤退条件、品質担保して作り直す条件」を握らないまま adhoc なモデルを作り続けない ○ データモデリングが整って、あらゆるケースに迅速に対応できるにはそれなりに時間がかかることもある、その中でより短い時間軸でモデルが必要になることもある ○ そのような時にあらゆる制約を無視したモデルを提供することもでてきうる ○ そのような例外的な状況を許容することも必要だが、例外的な状況を許し続けないことを握っておく ○ dbt の deprecation_date を使いながら機械的にチェックしておく ● 「この塊であると便利」な大福帳中間テーブルを作らない ○ そのテーブルが参照の集合体となりモンスターになる ○ 作るのも大変だと思うので、これを作るくらいならそのレイヤーにおけるそのモデルの持つべき役割を考える方が良いと考える今0からデータパイプラインを作るなら？

Slide 24

Slide 24 text

Slide 25

Slide 25 text

©2023 10X, Inc. まとめ ● データ基盤のデータ品質を守り続けるには、変更容易性が高くモデリングを磨いていけることが重要と考える ● 「変更容易性」を高める上で重要になってくるのは「データモデリング」と「制約」である ● データモデリングを怠ると、変更容易性が低いモデルが積み重なっていく ○ 要件ができたから、このモデルを作らないといけなくなる、その影響ははじめのレイヤーまで及ぶことがある ● 制約を怠ると、実装者によって何をどこで書くかの違いが生まれてしまう ○ ただビジネスイベントを記録する部分、ただ履歴を保存する部分に創造性はさほどいらない