Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dbtの概要
Search
Shasha
June 09, 2022
Technology
1
950
dbtの概要
Shasha
June 09, 2022
Tweet
Share
More Decks by Shasha
See All by Shasha
20221004_AKIBA.SaaS
shasha48
0
4
MDSを加速する 〜Fivetranとプロフェッショナルサービス〜
shasha48
0
5
データ収集と整理 〜クラウドデータパイプラインの作成〜
shasha48
0
30
データドリブンな小売戦略 〜Snowflakeによるパーソナライズの強化〜
shasha48
0
28
dbtとLookerの 境界線を定めます!
shasha48
0
46
信頼できるデータを届け、使うのは?
shasha48
0
250
DataObserbabilityDevIO2023.pdf
shasha48
0
900
データ分析について考える - 私が考えるデータ分析の必要性
shasha48
0
850
Other Decks in Technology
See All in Technology
『衛星データ利用の方々にとって近いようで触れる機会のなさそうな小話 ~ 衛星搭載ソフトウェアと衛星運用ソフトウェア (実物) を動かしながらわいわいする編 ~』 @日本衛星データコミニティ勉強会
meltingrabbit
0
140
Larkご案内資料
customercloud
PRO
0
650
技術的負債解消の取り組みと専門チームのお話 #技術的負債_Findy
bengo4com
1
1.2k
ホワイトボードチャレンジ 説明&実行資料
ichimichi
0
120
開発スピードは上がっている…品質はどうする? スピードと品質を両立させるためのプロダクト開発の進め方とは #DevSumi #DevSumiB / Agile And Quality
nihonbuson
2
2.4k
Oracle Cloud Infrastructure:2025年2月度サービス・アップデート
oracle4engineer
PRO
1
140
管理者しか知らないOutlookの裏側のAIを覗く#AzureTravelers
hirotomotaguchi
2
320
OpenID Connect for Identity Assurance の概要と翻訳版のご紹介 / 20250219-BizDay17-OIDC4IDA-Intro
oidfj
0
160
Swiftの “private” を テストする / Testing Swift "private"
yutailang0119
0
120
Tech Blogを書きやすい環境づくり
lycorptech_jp
PRO
1
230
スタートアップ1人目QAエンジニアが QAチームを立ち上げ、“個”からチーム、 そして“組織”に成長するまで / How to set up QA team at reiwatravel
mii3king
2
1.3k
急成長する企業で作った、エンジニアが輝ける制度/ 20250214 Rinto Ikenoue
shift_evolve
2
1.1k
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
40
2k
Optimizing for Happiness
mojombo
376
70k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Building an army of robots
kneath
302
45k
Building Applications with DynamoDB
mza
93
6.2k
Facilitating Awesome Meetings
lara
51
6.2k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
Agile that works and the tools we love
rasmusluckow
328
21k
How to train your dragon (web standard)
notwaldorf
91
5.8k
Transcript
dbtの概要 dbt×Fivetran×SnowflakeによるModern Data Stack~データ 活用までの準備を楽々に~ 2022年6月9日 アライアンス統括部 堀本 理紗
2 自己紹介 氏名 堀本 理紗(ブログは紗紗) 担当業務 Looker、Snowflakeのプロサービス・プリセールス dbtも頑張りたい今日このごろ やめたいけどやめられない インスタパトロール。
動物系から単純作業、ライフハック系などエンドレス
3 本日お話しすること • ETLの時代の話 • ELTとMDS • データモデリングの手法と問題点 • T(変換)の重要性
• dbtが解決すること
4 ETLの時代(2010年代) • ETL ◦ Extract(抽出) ◦ Transform(変換) ◦ Load(ロード)
• データ分析界隈の関心 ◦ ETLをどのように構築するか ◦ どのようにスケールさせるか ◦ ストレージのコストを抑える ◦ DWHのパフォーマンスをあげる方法 DWH ETL Data Source
5 ETLの時代(2010年代) • データ分析界隈の関心 ◦ ETLをどのように構築するか ◦ どのようにスケールさせるか ◦ ストレージのコストを抑える
◦ DWHのパフォーマンスをあげる方法 DWH ETL Data Source こんなことをするために データアナリストになったのではな い!!
6 ELTの時代(2020年代)とMDS • DWHの性能向上で変換(T)の前にデータをロード • Fivetran等のデータインジェストツールによる抽出(E)とロード(L)の自 動化 • データ分析基盤関連のSaaSがさまざま登場
7 MDSとは? • Modern Data Stack • SaaSを組み合わせてデータ分析基盤を構築 • SaaSの組み合わせに正解はない
• それぞれの製品同士の横のつながりがある
8 クラメソが提供するMDS
9 2010年代から変化していないデータモデリング • その1:独自開発コード ◦ ビジネスロジックを表現するのにエネルギーが要る ◦ アクセスに難あり(難しい処理はPython) ◦ 新しいデータセットの作成に3〜4週間かかってしまう
◦ 社内インフラをホスティングする必要がある • その2:GUIでポチポチ ◦ 高額 ◦ 学習コストが高い ◦ アクセスに難あり(Adminなどに限られる)
10 従来のデータモデリングの問題点 • 都市伝説と化すデータの民主化 ◦ 欲しいデータがすぐに手に入らない ◦ そのデータが信頼できるかわからない • 複雑怪奇で属人的なSQL地獄
◦ ELTでSQLでデータにアクセス可能に ◦ 野良SQL、テーブル大量発生
11 T(変換)の重要性 • データ型のクリーニング
• 複数のシステムのデータを統合 • データのフィルタリング • 論理削除されているデータの除外 • キレイなデータをそれぞれ結合
12 dbtの取り組み • dbtの指針その1 ◦ SQLさえ知っていれば誰でもデータパイプラインを開発できる • dbtの指針その2 ◦ ソフトウェアエンジニアのようにデータパイプラインを開発でき
る ▪ バージョン管理、自動テスト、ドキュメンテーション、再利用性
13 dbtが提供するこれからのデータモデリング ・SELECT文を知っていれば、誰でもデータマート開発を行えるサービス ・特別な知識&スキル不要で、アプリ開発の手法を取り入れた開発が可能 (バージョン管理、CI/CD、自動テスト、ドキュメント管理、etc) アプリ開発の手法を取り入れている ・Gitと連携 ・継続的インテグレーション ドキュメントの自動生成 ・データの定義や依存関係等がわかる
・データカタログの役割も Jinjaで高度な処理を開発できる ・SQLだけでは実現できない処理の実現 ・マクロとして処理をモジュール化、再利用可 データに対してテストを実行できる ・not nullや参照整合性等を自動でテスト可能 ・Jinjaで、オリジナルのテストも作成可能 主要なDWHに対応 ・Amazon Redshift、Snowflake、Google BigQuery SQLで開発できる ・必要なのはSELECT文だけ ・プログラミング言語の学習は不要 1 6 5 3 4 2
14 まとめ dbtってすごくいい... • この10年で進化のなかったデータモデリングに新たな手 法を提案するツール • データカオス、バイバイ👋 • ハロー、データの民主化🙌
15