Slide 7
Slide 7 text
7
🔥 ETLのT処理のツール依存性、肥大化、不透明性
- データ量の増加に伴いマスキングなどの加工処理を
行っているembulk内のT処理コードの実行時間が肥大
化してきた
- troccoなどのembulk以外のデータパイプラインの導入
があるが、T処理がembulkに依存している
- embulkのコードを読まないと T処理の内容が把握でき
ず、分析者からすると不透明な処理である
💡 dbt Cloudの導入によって期待すること
- dbt Cloudを用いてembulkで行っていたT処理を代替
- データパイプラインに用いているツールに依存せずに、
BigQueryに収集したデータに対して様々な加工が可能
になる
- SQL記述ができることによる DWH, DM開発メンバーの
増加
マスキングを含めた加工処理
❌
dbtの導入理由