2026-02-25 Tokyo dbt meetup プロダクトと融合したCI/CD で実現する、堅牢なデータパイプラインの作り方

相互交流で信頼を育む dbt を｢書く｣から、｢動かし･守り･進化させる｣へプロダクトと融合したCI/CD で実現する、堅牢なデータパイプラインの作り⽅ 2026/02/25 Tokyo dbt Meetup #19
Commune Inc. Senior Data Engineer Kentaro Yoshida

© Commune Inc. All rights reserved ⾃⼰紹介 Communeのデータエンジニア。ex-TreasureData • 2024年6⽉よりコミューンへ⼊社
• Product & Dataチームに所属（約10⼈） MLコンペ上位の機械学習エンジニアも多数在籍 • データ利活⽤業務の下記1〜2の上流領域を担当 1. データ活⽤戦略･アーキテクチャ設計･プロセス標準化 2. 基盤整備･データ処理パイプライン構築 3. データ分析･活⽤⽀援･ダッシュボード提供 Kentaro Yoshida (X: @yoshi_ken) 2

©Commune Inc. All rights reserved 4 BASEFOOD 様 SHE 様
Sansan 様日本ハム様 ENEOS 様オタフクソース様トリドール様メディカルシステムネットワーク様オリジナルアプリ導⼊実績 (⼀部抜粋) コミューンのサービス概要プロダクト_主要機能

©Commune Inc. All rights reserved 5 信頼がもたらす確かな成果 ※ 2026年時点売上効果
2.6億円広告効果年間億円 1 ⾃然検索獲得 6万件ファン発信で認知効果 200％超エンゲージメントサーベイ 110％向上

コミュニティ導⼊事例（⼀部抜粋） © Commune Inc. All rights reserved ※※2026.01.01時点 ※ ⽐較検討時における
Commune選択率×⽐較プランで導かれる期待売上から導出 6

AGENDA 1. dbt CI/CD だけでは守れないもの 2. プロダクトと融合した CI/CDパイプライン 3. dbtセレクタの活⽤、差分デプロイの仕組み
4. 複数dbtプロジェクト運用 5. まとめ

10 dbt CI/CD だけでは守れないもの

©Commune Inc. All rights reserved dbt単体 CI/CD 整備されていても、プロダクト側 RDBスキーマ変更と連携が密に取れていないと、本番環境でデータパイプラインが壊れるリスクがあります
dbt CI/CD だけでは守れないもの

©Commune Inc. All rights reserved dbt CI/CD だけでは守れないもの課題具体例
リスクスキーマ変更検知漏れ RDB でカラムリネーム → dbt モデルが壊れる本番ダッシュボードが止まるメタデータ二重管理 RDB コメントと dbt description が乖離ドキュメントを信用できなくなる反映タイムラグスキーマ変更 → dbt手動修正 → デプロイ数時間〜数日データ提供遅延 CI 不整合 dbt 単体 CI 通るが、本番カラムが消えているデプロイ後に遅れて発覚（手遅れ）コミュニケーション量仕様や目的か不明で開発者に問い合わせる必要速やかな対応が取りづらい dbt 単体 CI/CD だけで、プロダクト側スキーマ変更を検知できず、次課題がありました  

14 プロダクトと融合したCI/CDパイプラインの概要

©Commune Inc. All rights reserved プロダクトと融合したCI/CDパイプライン：全体アーキテクチャ図ステップ何をしているか解決する課題 ①
スキーマコメント検証 RDBスキーマ列説明記載漏れ・形式チェックメタデータ二重管理防止 ② CSV 生成テーブル名・カラム名・ description(説明)を定義CSV に抽出メタデータ一元化 ③ dbt 検証トリガー commune PR CI から dbt 検証を起動スキーマ変更検知漏れ防止 ④ dbt run --empty SQL 構文・参照検証（実データなしで高速実行） CI 不整合（壊れてからで遅い） ⑤ モデル自動同期 CSV から staging SQL と YAML を自動生成反映タイムラグ短縮 ⑥ 差分デプロイ変更されたモデルだけを本番へ反映再計算量最小化

©Commune Inc. All rights reserved プロダクトと融合したCI/CDパイプライン：ポイント①: RDB → dbt のメタデータ⼀元化
項目 Before (手動運用) After (自動連携) カラム説明管理場所プロダクト RDB定義と dbt YMLで二重管理かつ乖離あり RDB から自動反映新テーブル追加時 information_schemaを利用した macroを用いて、そ時点で最新スキーマで取り込む。列説明反映されていないため、都度、開発者へ確認を行い、 dbt schema.ymlに記入。そため、テーブル追加定期的に、人的な運用が必要 information_schemaと、 schema.prismaから生成された定義 CSV から自動生成列削除時 macroで動的生成ため、本番 DBへ反映に即追従する一方、後続パイプラインが次回実行時にエラーとなってから気づくもし非互換な変更であれ予め調整がかかるカラム説明鮮度乖離しがち、追従遅れが発生常に最新（同期される）ドキュメント信頼性「おおむ合っている」くらい温度感「RDBから同期しているためどちらもが正」と言い切れる

©Commune Inc. All rights reserved プロダクトと融合したCI/CDパイプライン：ポイント①: RDB → dbt のメタデータ⼀元化
schema.prisma コメントから抽象構文木 (AST)を利用したgetDMMFを使って、csvファイル化 

©Commune Inc. All rights reserved プロダクトと融合したCI/CDパイプライン：ポイント②: GitHub Actions 連携 RDB
PRで作成されたスキーマ定義をdbtモデル生成プログラムにCSVで受け渡し、それを元にdbtモデル自動生成を行います。次に、変更後状態で dbt run --empty --deferを実行し、互換性テストが成功することを確認します。

©Commune Inc. All rights reserved プロダクトと融合したCI/CDパイプライン：ポイント②: GitHub Actions 連携フェーズ
Actions 役割連携内容・仕組み ① commune PR CI 定義CSV 生成 + dbt起動 workflow_dispatch で dbt CI を起動、定義CSV を artifact 経由で渡す ② dbt CI 変更スキーマ互換性検証定義CSVを元にdbtモデル一斉更新を行い、 dbt run --emptyで検証し、 commit status API で結果を返す ③ マージ判定 commit status チェック dbt CI 結果が ✅ でないとマージ不可（ Branch Protection） ④ sync-dbt-models 自動同期マージ時に起動。定義 CSVからdbtモデル SQLとYMLを生成してmainにpush ⑤ デプロイ後 CD 差分デプロイ(--defer) main push をトリガーに state:modified.body state:new を対象に差分ビルド ⑥ manifest 同期 GCS へアップロード CDで dbt 成功時に GCS にアップロードし、次回 CDに備える実装ポイント

©Commune Inc. All rights reserved プロダクトと融合したCI/CDパイプライン：ポイント②: GitHub Actions 連携項目
パターンA: 自動管理モデルパターンB: 手動管理モデル commune PR CI ✅ 成功 ❌ 失敗（カラム参照エラー）マージ可否そままマージ可能 dbt 修正完了後に再実行必要 dbt で作業なし（自動同期で対応） PR 作成 → 手動修正 → マージ sync-dbt-models マージ後に自動起動 dbt 修正後 + commune マージ後に起動運用負荷低い中程度（チーム間連携必要）通常、定義CSVからdbtモデル SQLとYMLを自動生成します。データレイクモデル自動生成で上書きできても、多少調整を行いたいステージングモデル、手動管理を行いたい事が頻発します。そ他、マートで削除された列利用があれ、列が見つからない旨で CIエラーとなります。上流変更を行うPRで、何かしら dbtモデル実行エラーが起きたら、次運用フローで修正します。 DBスキーマ変更を伴うプロダクト PR CIで、dbtモデルへ互換性エラーを検知 → dbt モデルを手動修正 → プロダクト PR CIを再実行 → CI パス → マージ

23 dbtセレクタの活⽤、差分デプロイの仕組み

©Commune Inc. All rights reserved dbtセレクタの活⽤、差分デプロイの仕組み 1 キャッシュ戦略 uv、dbt packages、partial
parse 3種をキャッシュ。約40秒 CI待ち時間を短縮 2 --empty フラグで全チェック実データを入れず、 LIMIT 0 で構文検証。それにより、BigQuery側スキャンデータ量をゼロへ。 3 マージ後差分ビルドと--defer 数分〜10分かかっていたデプロイCIを約1分程度に短縮した3つポイント state:new state:modified.body にて新規･変更箇所を対象に実行。 CI環境に無いテーブル本番を自動参照。

©Commune Inc. All rights reserved dbtセレクタの活⽤、差分デプロイの仕組みセレクタ検知する変更内容（概要） state:modified (全体)
以下全て変更を含む、最も広範囲な変更を検知します state:modified.body SQLファイル、Jinjaコード、また Seedデータ変更 state:modified.configs configブロックやdbt_project.ymlで設定変更（データベース表現以外） state:modified.relation データベース名、スキーマ名、エイリアス（テーブル /ビュー名）変更 state:modified.persisted_descriptions persist_docsが有効な場合 description 変更 state:modified.macros 使用しているマクロロジック変更 state:modified.contract コントラクト（カラム名、データ型）変更 (そ他) var/env_var 変更、Source/Exposure 設定変更など state:modified 、YAML description追加や、configタグ追加といったロジックに影響しない変更も検知してしまいます。 state:modified.body 、SQL本文変更みを検知します。

©Commune Inc. All rights reserved dbtセレクタの活⽤、差分デプロイの仕組み db buildコマンドと共によく使うセレクタを紹介しますセレクタ意味
使用場面例 state:modified 前回マニフェストから定義が変わったモデル seed デプロイ --select state:modified state:modified.body SQL 本文が変わったモデル（YML除外）本番デプロイ --select state:modified.body state:new 前回マニフェストに存在しなかったモデルデプロイ・CI --select state:new state:modified+ 変更モデル＋そ下流すべて CI 検証 --select state:modified+ state:new+ 新規モデル＋そ下流すべて CI 検証 --select state:new+ 場面使うセレクタ本番デプロイ state:modified.body state:new dbt CI 検証 state:modified+ state:new+ プロダクト CI state:modified+,+tag:customer_used

27 複数dbtプロジェクトの運⽤

©Commune Inc. All rights reserved 複数 dbt プロジェクトの運⽤課題課題具体例・影響
権限管理複雑化 IAM 権限設定が複雑になり、管理が煩雑になることを避けたいリネージュ追跡困難他dbtプロジェクトへデータが渡った後、どように利用されているか、データ流れ（リネージュ）が見えなくなること避けたい保守性低下元データスキーマ変更時、どプロジェクトどテーブルに影響が出るか把握できず、安全に変更できないこと避けたい

©Commune Inc. All rights reserved “Product A データをProduct Bでも参照したい”時利用しなかった案
• ref()を使わずに直接参照する → dbt リネージュから外れるバッドプラクティス • dbt source.ymlに定義して参照する → メンテナンスが大変 • Product B packagesにProduct Aを読み込みref参照する → 運用が大変そう • dbt post_hookで別 dbtプロジェクト DWHにテーブルをコピーする → 列説明まで反映されず使いにくいと、dbt リネージュから外れる • dbt post_hookで別 dbtプロジェクト DWHにviewテーブルを作成する → 列説明まで反映されず使いにくいと、dbt リネージュから外れる今回採用した、疎結合な手法 • Product A テーブルを使って、Product B専用マートをviewテーブルで作る（承認済みデータセット） • Product B側 dbt projectで、Product A 公開データを用いたマートを作る • 社外向けに、BigQuery Data Sharing (旧名 Analytics Hub)を使うケースもある複数 dbt プロジェクトの運⽤課題

©Commune Inc. All rights reserved 相互利用するときに運用面で考慮すべき観点 • テーブル構成を変更したいときに調整手間を掛けずに済むこと ◦
利用者側都合で提供側テーブル構成に制約が掛かると保守性が下がる • 利用したい側にとって欲しい粒度で datasetになってることほぼない ◦ 欲しいテーブルそ dataset 中ごく一部 • 権限管理しやすさ ◦ table単位大変といって、他プロジェクト専有 datasetやproject単位に権限付与する避けたい ◦ 権限を付与している範囲が不用意に広くならないこと • BigQuery標準リネージュツールDataplexでも可視化できること • 同じテーブル名で複製すると、どちらが親なかがっと見分けが付きづらい複数 dbt プロジェクトの運⽤課題

33 まとめ

©Commune Inc. All rights reserved まとめ：課題と解決策課題解決策実装ポイント
スキーマ変更検知漏れプロダクト PR から dbt CI を自動起動 workflow_dispatch + commit status メタデータ二重管理 DB定義を Single Source of Truth に CSV 抽出 → SQL/YAML 自動生成反映タイムラグモデル同期自動化自動デプロイ CI 不整合 dbt run --empty で事前検証構文チェック USING句でなけれ as エイリアス必須差分ビルド困難 state セレクタ + manifest 自動管理 state:modified.body state:new+ GCSアップロードプロジェクト間連携 dbt_loom + データ中継場所利用 dbt_loomでmanifest統合、view参照でデータ複製を省略、承認済みデータセット

コミューンの会社情報データ職種向け会社情報 Xアカウント (Commune Innovators) https://commmune.notion. site/ver-18ad641ad0828060 b8b3de5b0751941c 36

コミューンの会社情報会社情報 Xアカウント (Commune Innovators) https://communeinc.com/ja 37

2026-02-25 Tokyo dbt meetup プロダクトと融合したCI/CD で実現...

2026-02-25 Tokyo dbt meetup プロダクトと融合したCI/CD で実現する、堅牢なデータパイプラインの作り方

More Decks by Kentaro Yoshida

Other Decks in Technology

Featured

Transcript