広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4

広告レポーティング基盤に、 dbtを導入したら別物になった話 dbtで作る理想のデータパイプライン Tokyo dbt Meetup #4

別物になったのは、運用コスト。本当に楽になった。ありがとうdbt。

理想に近づけるコストが、劇的に下がった。

今日話さないこと dbtの機能説明。

アジェンダ • 自己紹介 • 背景 • 変わったこと

自己紹介ぺい @pei0804 近森淳平(チカモリ　ジュンペイ) CARTA HOLDINGS （旧VOYAGE GROUP） Zucks アドプロダクト事業本部
エンジニア

techblog.cartaholdings.co.jp, The Zen of Zucks, 2022/06/10, https://techblog.cartaholdings.co.jp/entry/the-zen-of-zucks

dbtの導入先 https://speakerdeck.com/pei0804/hokufalsekankaer uzui-gao-falserehoteinkuji-pan-at-awsdeshi-jian- analytics-modernization 一年ほど前に発表したレポーティング基盤のデータ変換部分に導入しました。

どういう基盤？三行まとめ • S3にひたすら吐かれるログをRedshiftへロードし、変換し、レポーティングする。 • 1種類のログで8億/dayレコードになることがある。 • モデリングには、ディメンションモデリングを採用。

なぜ？dbtが必要になったのか？

クエリとワークフローエンジンを、いい感じに調整しながら、モデリングも頑張るのが辛すぎた。

dbt導入前の課題 • 仕事が増えてクエリが分割したくても、ワークフローから見直す気力が湧いてこないので、いまあるクエリでどうにかしたくなる。 • データの依存関係が、実装を見ないと分からない。 • カラム追加・・・うぉおお依存するテーブル全部変更やんけ・・・細かいことを書くと本当に色々ある。

面倒 > いい感じにするモチベ

こうすると良くなるが、見えていても、やるのが非常に面倒。

dbtを導入したことで、アイデアの実行が簡単になった。

様々な課題が解消されましたけど、その中でも、革新的だったものを紹介します。

パイプライン実装が、低コスト。

旧データパイプライン AWS Step FunctionsでECS Fargate（java.sql）をいい感じに依存関係を組んで、Redshiftにクエリして、ELTする素朴な構成だった。当初はこれで十分回っていたけど・・・

旧データパイプラインの構成それぞれのスキーマの説明 • Raw ◦ S3 -> RedshiftへCOPYしたテーブル郡（正確にはちょっと手間加えてる） • Warehouse
◦ ディメンションモデリングをしたテーブル郡 • Reporting ◦ レポート向けのテーブル郡

すごい色んなことするクエリとはこれは歴史的経緯もあるけど、ツギハギで色んな文脈が１クエリになっていた。 • 重複排除 • カラムRename • お値段計算 • JOIN、GROUP
BY • etc… 分けろって感じですよね。わかりますよ。けど、それはワークフローの実装から直すことになって・・・そして・・・

面倒 > いい感じにするモチベ（再掲）

dbtだと、データの依存関係をクエリで書いていけばいいだけなので、あるべき姿を追い求めるコストが低い。

面倒 < いい感じにするモチベ

dbt導入後のデータパイプライン

実際に作ったデータパイプラインと役割 • Raw ◦ 生データ。サーバーから吐き出されたまま。 • Staging [New] ◦ データクリーニング、カラムのrenameやちょっとした変換。
• Warehouse ◦ ディメンションモデリングする。 • Reporting ◦ 用途に合わせたデータを提供する。 • それぞれの層/Intermediate [New] ◦ それぞれの層でややこしい処理などを閉じ込める中間レイヤー

元々仕事を分けたい構想はあった。

面倒 > いい感じにするモチベ（再掲）

データパイプラインを分けたことによる価値それぞれの層（スキーマ）の仕事が明確になった。つまり、どの時点で、どういうデータになっていてほしいかが決まる。故にどこで、どういうクエリを書けばいいかは自明になり、さらにdbt testの機能を組み合わせると、データ品質を強固に担保出来るようになった。そして、トラブルシューティングも簡単になる。例えば、「想定より大きい数値になっている」であれば、「データクリーニングしているStagingが怪しい」が分かる。　

dbtは銀の弾丸ではない。 dbtで勘違いしてほしくないのは、 dbtはあくまでクエリランナーであること。辛いモデリングをすると、辛いクエリは当然生まれる。ゴールイメージがあってこそ、価値を発揮するのがdbt。正解が見えてないなら、dbt使ってもいい感じにはならない。

モデリングは避けて通れない技術 https://speakerdeck.com/pei0804/modeling-over-shiny-tech

テーブルマイグレーションをdbtに任せる。

テーブルマイグレーションをdbtに任せる dbtを使い始めて、すぐに気づいた違和感。テーブルスキーマの更新どうやってやるの？という疑問。アプリケーションデータベースのイメージだと、「テーブルマイグレーションやらない？なるほど？正気か？」となる。 ※正確にはやるんだけど、Flywayなど使わずに、dbtに全部任せるしかし、これが革新的なアイデアであることを伝えたい。

docs.getdbt.com, Why can't I just write DML in my transformations?
, 2022/08/20, https://docs.getdbt.com/faqs/project/why-not-write-dml

従来のマイグレーションツールの課題ディメンションモデリングを真面目にやると、一箇所の変更だけで、済まなくなる（変更が伝播しない）。これにより、ある面倒が発生する。例えば、何らかのテーブルにカラムを追加するといったよくあるストーリーでさえ、かなりの苦痛を伴う。

データ変換の流れ raw -> fact -> 集計みたいなデータフローがあったとします。

ケース：カラム追加 raw_ordersにあるmargin_yensをaggreagte_ordersにも追加したい。

ケース：カラム追加 rawの後段のテーブル全てのカラムを追加していく必要がある。

カラム追加はそれなりに発生する。その都度Alterを複数回実行する必要がある。

面倒 > いい感じにするモチベ（再掲）（仕事だからやるんだけど・・・ね？）

dbtはこの面倒を解消してくれる。

dbtによるカラム追加は非常にスムーズ SELECTに新たなカラムを追加する。これで終わり。

テーブルマイグレーションをdbtに任せるリスク Redshiftと扱っているデータの性質的に、考えられる最大のリスクとしては、意図しないカラム削除だった。データ量がそれなりにあるので、カラムを誤って消す相当のオペレーションをしてしまうと、復元するには、膨大なデータを処理する必要があるため、消してしまった場合の復旧に現実味がない。

安心してください。オプションあります。 > append_new_columns: Append new columns to the existing table.
Note that this setting does not remove columns from the existing table that are not present in the new data. 現状は、急に消されないオプションにして、運用してみてます。 docs.getdbt.com, What if the columns of my incremental model change? , 2022/08/20, https://docs.getdbt.com/docs/building-a-dbt-project/building-models/conﬁguring-incremental-models#what-if-the-columns- of-my-incremental-model-change

詳しくは紹介しないけど、すごいやつ • dbt-labs/dbt-utils ◦ 大体ほしいやつがある。 • dbt test ◦ テストも出来て、ドキュメントにもなるし、拡張も簡単！
• dbt docs ◦ メタデータドキュメントがいい感じに出来上がる。 • dbt関連の記事が学びに溢れている ◦ https://docs.getdbt.com/guides/best-practices/how-we-s tructure/1-guide-overview

まとめ

dbtがない時〜

面倒 > いい感じにするモチベ

dbtがある時〜

面倒 < いい感じにするモチベ

まとめ dbtは銀の弾丸ではない。正解が見えてないなら、意味がない。けど、正解が見えていて、同じことをやるなら楽をしたい。しかも、それが、ワークフロー、クエリランナー的な部分な場合、非常に強力な力を発揮するだろう。一方で、そんなんええから、dbt入れとけっていう気持ちもある。なぜなら、dbtのドキュメント読んで、実装するだけで、それなりに筋が良いデータ基盤になってしまう気がするので・・・ｗ

朗報です。実はエンジニア採用してます。

https://engineering.cartaholdings.co.jp/

広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4

広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4

More Decks by pei0804

Other Decks in Technology

Featured

Transcript