Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dbtの概要
Search
Shasha
June 09, 2022
Technology
1
1k
dbtの概要
Shasha
June 09, 2022
Tweet
Share
More Decks by Shasha
See All by Shasha
20221004_AKIBA.SaaS
shasha48
0
5
MDSを加速する 〜Fivetranとプロフェッショナルサービス〜
shasha48
0
6
データ収集と整理 〜クラウドデータパイプラインの作成〜
shasha48
0
75
データドリブンな小売戦略 〜Snowflakeによるパーソナライズの強化〜
shasha48
0
41
dbtとLookerの 境界線を定めます!
shasha48
0
100
信頼できるデータを届け、使うのは?
shasha48
0
270
DataObserbabilityDevIO2023.pdf
shasha48
0
990
データ分析について考える - 私が考えるデータ分析の必要性
shasha48
0
910
Other Decks in Technology
See All in Technology
Android Studio の 新しいAI機能を試してみよう / Try out the new AI features in Android Studio
yanzm
0
270
ECS モニタリング手法大整理
yendoooo
1
120
ZOZOTOWNフロントエンドにおけるディレクトリの分割戦略
zozotech
PRO
16
5.3k
株式会社ARAV 採用案内
maqui
0
340
KiroでGameDay開催してみよう(準備編)
yuuuuuuu168
1
130
帳票Vibe Coding
terurou
0
140
生成AI利用プログラミング:誰でもプログラムが書けると 世の中どうなる?/opencampus202508
okana2ki
0
190
Go で言うところのアレは TypeScript で言うとコレ / Kyoto.なんか #7
susisu
5
1.7k
第4回 関東Kaggler会 [Training LLMs with Limited VRAM]
tascj
12
1.7k
新規案件の立ち上げ専門チームから見たAI駆動開発の始め方
shuyakinjo
0
110
あなたの知らない OneDrive
murachiakira
0
240
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
kzykmyzw
0
320
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
780
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
21k
Statistics for Hackers
jakevdp
799
220k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Practical Orchestrator
shlominoach
190
11k
Site-Speed That Sticks
csswizardry
10
790
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.4k
Side Projects
sachag
455
43k
GraphQLとの向き合い方2022年版
quramy
49
14k
Thoughts on Productivity
jonyablonski
69
4.8k
Into the Great Unknown - MozCon
thekraken
40
2k
Transcript
dbtの概要 dbt×Fivetran×SnowflakeによるModern Data Stack~データ 活用までの準備を楽々に~ 2022年6月9日 アライアンス統括部 堀本 理紗
2 自己紹介 氏名 堀本 理紗(ブログは紗紗) 担当業務 Looker、Snowflakeのプロサービス・プリセールス dbtも頑張りたい今日このごろ やめたいけどやめられない インスタパトロール。
動物系から単純作業、ライフハック系などエンドレス
3 本日お話しすること • ETLの時代の話 • ELTとMDS • データモデリングの手法と問題点 • T(変換)の重要性
• dbtが解決すること
4 ETLの時代(2010年代) • ETL ◦ Extract(抽出) ◦ Transform(変換) ◦ Load(ロード)
• データ分析界隈の関心 ◦ ETLをどのように構築するか ◦ どのようにスケールさせるか ◦ ストレージのコストを抑える ◦ DWHのパフォーマンスをあげる方法 DWH ETL Data Source
5 ETLの時代(2010年代) • データ分析界隈の関心 ◦ ETLをどのように構築するか ◦ どのようにスケールさせるか ◦ ストレージのコストを抑える
◦ DWHのパフォーマンスをあげる方法 DWH ETL Data Source こんなことをするために データアナリストになったのではな い!!
6 ELTの時代(2020年代)とMDS • DWHの性能向上で変換(T)の前にデータをロード • Fivetran等のデータインジェストツールによる抽出(E)とロード(L)の自 動化 • データ分析基盤関連のSaaSがさまざま登場
7 MDSとは? • Modern Data Stack • SaaSを組み合わせてデータ分析基盤を構築 • SaaSの組み合わせに正解はない
• それぞれの製品同士の横のつながりがある
8 クラメソが提供するMDS
9 2010年代から変化していないデータモデリング • その1:独自開発コード ◦ ビジネスロジックを表現するのにエネルギーが要る ◦ アクセスに難あり(難しい処理はPython) ◦ 新しいデータセットの作成に3〜4週間かかってしまう
◦ 社内インフラをホスティングする必要がある • その2:GUIでポチポチ ◦ 高額 ◦ 学習コストが高い ◦ アクセスに難あり(Adminなどに限られる)
10 従来のデータモデリングの問題点 • 都市伝説と化すデータの民主化 ◦ 欲しいデータがすぐに手に入らない ◦ そのデータが信頼できるかわからない • 複雑怪奇で属人的なSQL地獄
◦ ELTでSQLでデータにアクセス可能に ◦ 野良SQL、テーブル大量発生
11 T(変換)の重要性 • データ型のクリーニング
• 複数のシステムのデータを統合 • データのフィルタリング • 論理削除されているデータの除外 • キレイなデータをそれぞれ結合
12 dbtの取り組み • dbtの指針その1 ◦ SQLさえ知っていれば誰でもデータパイプラインを開発できる • dbtの指針その2 ◦ ソフトウェアエンジニアのようにデータパイプラインを開発でき
る ▪ バージョン管理、自動テスト、ドキュメンテーション、再利用性
13 dbtが提供するこれからのデータモデリング ・SELECT文を知っていれば、誰でもデータマート開発を行えるサービス ・特別な知識&スキル不要で、アプリ開発の手法を取り入れた開発が可能 (バージョン管理、CI/CD、自動テスト、ドキュメント管理、etc) アプリ開発の手法を取り入れている ・Gitと連携 ・継続的インテグレーション ドキュメントの自動生成 ・データの定義や依存関係等がわかる
・データカタログの役割も Jinjaで高度な処理を開発できる ・SQLだけでは実現できない処理の実現 ・マクロとして処理をモジュール化、再利用可 データに対してテストを実行できる ・not nullや参照整合性等を自動でテスト可能 ・Jinjaで、オリジナルのテストも作成可能 主要なDWHに対応 ・Amazon Redshift、Snowflake、Google BigQuery SQLで開発できる ・必要なのはSELECT文だけ ・プログラミング言語の学習は不要 1 6 5 3 4 2
14 まとめ dbtってすごくいい... • この10年で進化のなかったデータモデリングに新たな手 法を提案するツール • データカオス、バイバイ👋 • ハロー、データの民主化🙌
15