Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dbtの概要
Search
Shasha
June 09, 2022
Technology
1
1k
dbtの概要
Shasha
June 09, 2022
Tweet
Share
More Decks by Shasha
See All by Shasha
20221004_AKIBA.SaaS
shasha48
0
5
MDSを加速する 〜Fivetranとプロフェッショナルサービス〜
shasha48
0
6
データ収集と整理 〜クラウドデータパイプラインの作成〜
shasha48
0
57
データドリブンな小売戦略 〜Snowflakeによるパーソナライズの強化〜
shasha48
0
33
dbtとLookerの 境界線を定めます!
shasha48
0
80
信頼できるデータを届け、使うのは?
shasha48
0
270
DataObserbabilityDevIO2023.pdf
shasha48
0
970
データ分析について考える - 私が考えるデータ分析の必要性
shasha48
0
890
Other Decks in Technology
See All in Technology
Fabric + Databricks 2025.6 の最新情報ピックアップ
ryomaru0825
1
130
Witchcraft for Memory
pocke
1
310
SalesforceArchitectGroupOsaka#20_CNX'25_Report
atomica7sei
0
170
急成長を支える基盤作り〜地道な改善からコツコツと〜 #cre_meetup
stefafafan
0
120
5min GuardDuty Extended Threat Detection EKS
takakuni
0
140
Understanding_Thread_Tuning_for_Inference_Servers_of_Deep_Models.pdf
lycorptech_jp
PRO
0
120
AIの最新技術&テーマをつまんで紹介&フリートークするシリーズ #1 量子機械学習の入門
tkhresk
0
140
BrainPadプログラミングコンテスト記念LT会2025_社内イベント&問題解説
brainpadpr
1
160
M3 Expressiveの思想に迫る
chnotchy
0
100
第9回情シス転職ミートアップ_テックタッチ株式会社
forester3003
0
230
Кто отправит outbox? Валентин Удальцов, автор канала Пых
lamodatech
0
340
データプラットフォーム技術におけるメダリオンアーキテクチャという考え方/DataPlatformWithMedallionArchitecture
smdmts
5
630
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
53
7.7k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
930
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
700
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Faster Mobile Websites
deanohume
307
31k
Documentation Writing (for coders)
carmenintech
72
4.9k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
Transcript
dbtの概要 dbt×Fivetran×SnowflakeによるModern Data Stack~データ 活用までの準備を楽々に~ 2022年6月9日 アライアンス統括部 堀本 理紗
2 自己紹介 氏名 堀本 理紗(ブログは紗紗) 担当業務 Looker、Snowflakeのプロサービス・プリセールス dbtも頑張りたい今日このごろ やめたいけどやめられない インスタパトロール。
動物系から単純作業、ライフハック系などエンドレス
3 本日お話しすること • ETLの時代の話 • ELTとMDS • データモデリングの手法と問題点 • T(変換)の重要性
• dbtが解決すること
4 ETLの時代(2010年代) • ETL ◦ Extract(抽出) ◦ Transform(変換) ◦ Load(ロード)
• データ分析界隈の関心 ◦ ETLをどのように構築するか ◦ どのようにスケールさせるか ◦ ストレージのコストを抑える ◦ DWHのパフォーマンスをあげる方法 DWH ETL Data Source
5 ETLの時代(2010年代) • データ分析界隈の関心 ◦ ETLをどのように構築するか ◦ どのようにスケールさせるか ◦ ストレージのコストを抑える
◦ DWHのパフォーマンスをあげる方法 DWH ETL Data Source こんなことをするために データアナリストになったのではな い!!
6 ELTの時代(2020年代)とMDS • DWHの性能向上で変換(T)の前にデータをロード • Fivetran等のデータインジェストツールによる抽出(E)とロード(L)の自 動化 • データ分析基盤関連のSaaSがさまざま登場
7 MDSとは? • Modern Data Stack • SaaSを組み合わせてデータ分析基盤を構築 • SaaSの組み合わせに正解はない
• それぞれの製品同士の横のつながりがある
8 クラメソが提供するMDS
9 2010年代から変化していないデータモデリング • その1:独自開発コード ◦ ビジネスロジックを表現するのにエネルギーが要る ◦ アクセスに難あり(難しい処理はPython) ◦ 新しいデータセットの作成に3〜4週間かかってしまう
◦ 社内インフラをホスティングする必要がある • その2:GUIでポチポチ ◦ 高額 ◦ 学習コストが高い ◦ アクセスに難あり(Adminなどに限られる)
10 従来のデータモデリングの問題点 • 都市伝説と化すデータの民主化 ◦ 欲しいデータがすぐに手に入らない ◦ そのデータが信頼できるかわからない • 複雑怪奇で属人的なSQL地獄
◦ ELTでSQLでデータにアクセス可能に ◦ 野良SQL、テーブル大量発生
11 T(変換)の重要性 • データ型のクリーニング
• 複数のシステムのデータを統合 • データのフィルタリング • 論理削除されているデータの除外 • キレイなデータをそれぞれ結合
12 dbtの取り組み • dbtの指針その1 ◦ SQLさえ知っていれば誰でもデータパイプラインを開発できる • dbtの指針その2 ◦ ソフトウェアエンジニアのようにデータパイプラインを開発でき
る ▪ バージョン管理、自動テスト、ドキュメンテーション、再利用性
13 dbtが提供するこれからのデータモデリング ・SELECT文を知っていれば、誰でもデータマート開発を行えるサービス ・特別な知識&スキル不要で、アプリ開発の手法を取り入れた開発が可能 (バージョン管理、CI/CD、自動テスト、ドキュメント管理、etc) アプリ開発の手法を取り入れている ・Gitと連携 ・継続的インテグレーション ドキュメントの自動生成 ・データの定義や依存関係等がわかる
・データカタログの役割も Jinjaで高度な処理を開発できる ・SQLだけでは実現できない処理の実現 ・マクロとして処理をモジュール化、再利用可 データに対してテストを実行できる ・not nullや参照整合性等を自動でテスト可能 ・Jinjaで、オリジナルのテストも作成可能 主要なDWHに対応 ・Amazon Redshift、Snowflake、Google BigQuery SQLで開発できる ・必要なのはSELECT文だけ ・プログラミング言語の学習は不要 1 6 5 3 4 2
14 まとめ dbtってすごくいい... • この10年で進化のなかったデータモデリングに新たな手 法を提案するツール • データカオス、バイバイ👋 • ハロー、データの民主化🙌
15