dbt民主化とLLMによる開発ブースト ~ AI Readyな分析サイクルを目指して ~

Slide 1

Slide 1 text

※本資料には弊社の秘密情報が含まれております。貴社限りとさせていただき、 SNS等へのアップロードを含め、貴社の関係者以外の方に開示されることのないようお願い申し上げます。 Conﬁdential dbt民主化とLLMによる開発ブースト ~ AI Readyな分析サイクルを目指して ~ 2025 / 7 / 3 Ubie株式会社 Shunya Yoshikawa

Slide 2

Slide 2 text

2 自己紹介 Shunya Yoshikawa (@yosh_yumyum) Data Engineer @Ubie, Inc. ● 2023/9よりData EngineerとしてUbieにjoin ● Data Engineering, Data Privacy, 横断的なデータ利活用推進をやっています。 ● よく使う技術 ○ BigQuery, dbt, Terraform, Python, Cursor, Claude Code

Slide 3

Slide 3 text

3 Conﬁdential Ubieについて 3

Slide 4

Slide 4 text

会社概要 Hello, Healthy world. 世界80億人の健康寿命を延ばす挑戦 Vision 4 健康は、地域や文化、人種を問わず、全ての人にとって普遍的なテーマ。 Ubieは医療先進国である日本で育んだプラットフォームを世界に広げ、地球上の 80億人の健康寿命を延ばすことを使命としています。目指すのは、健康がだれにとっても空気や水のように当たり前となる世界です。

Slide 5

Slide 5 text

会社概要テクノロジーで人々を適切な医療に案内する「どうしてあの時病院に行かなかったのか」と重篤化して後悔する方、最悪の場合命を落とす方がいます。一方で多くの医療従事者は、早期に発見されていれば救えたはずの患者の死を、無念の思いで見届けています。さらに世界には、医療へのアクセスが困難な地域、医療資源が不足している国が数多く存在するのが現状です。私たちは医療先進国日本発の企業としてテクノロジーで世界中の医療に貢献します。 Mission 5

Slide 6

Slide 6 text

事業紹介 6 自分の症状を答えるだけで、参考病名や近くの医療機関等「受診の手がかり」が調べられます医療現場で実際に使われ鍛えられた AIを、生活者が適切な医療にかかる目安として開放しています (2020年提供開始 ) 無料で誰でもいつでもほぼ全ての症状で＊＊99% (1.3万超)の症状に対応生活者医療機関製薬企業生活者向け事業情報アクセシビリティ好事例2023 選出総務省症状検索エンジン「ユビー」ダウンロードリンク https://ubie.go.link?adj_t=1c2ifxv9

Slide 7

Slide 7 text

事業紹介 7 問診業務効率化や認知向上など、患者さんとのコミュニケーション設計を通じ、診察の質向上を支援する医療機関向けサービスです医療機関向け事業病院・クリニックそれぞれのニーズに合わせた以下のような機能を提供・開発していますユビーAI問診ユビーリンクユビー生成AI etc… 生活者医療機関製薬企業導入数 1,800 施設超 https://intro.dr-ubie.com/ ユビーメディカルナビサイト

Slide 8

Slide 8 text

製薬企業が持つ、疾患・治療啓発につながる情報を生活者・医療機関に提供することで、早期かつ適切な受診や、診療業務の支援を行います。薬剤の適正処方を最大化し、治療アウトカム向上に貢献することを目指しています。 8 事業紹介製薬企業向け事業生活者医療機関製薬企業 Ubieが保有する医療プラットフォームを通じて、製薬企業と生活者・医療機関をつなぐサービスですユビー for Pharma https://ph-ubie.com/

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

11 ● Ubieはデータの会社。事業・プロダクトにおける仮説検証・インサイト発掘や製薬企業向けのレポーティングなど幅広い場面で価値を生み出している。 ● 患者の情報を適切に繋ぎ合わせ理解することで適切な医療に案内する、ときには N数の少ない病気 (希少疾患 )の患者を適切な医療に案内する、そのために信頼性の高いデータが必須 ● データ利活用推進と信頼性維持・向上が、 Ubieのプロダクト・プラットフォームそのものの価値向上に寄与する。 Ubieにおけるデータの重要性について詳しくはこちら ● Ubieのデータ信頼性とその向上の取り組み（ https://zenn.dev/ubie_dev/articles/5d57fa39ac7af1） Ubieでのデータ利活用とデータ分析基盤の位置付け

Slide 12

Slide 12 text

12 Conﬁdential 2. Develop: LLMの積極的な導入目次１．はじめにdbt, LLMの動向とこれからの Ubieデータ分析基盤 3．Plan: Data Contractを起点にした協業 4. Discovery / Analysis: コード管理による効用を最大化

Slide 13

Slide 13 text

13 Conﬁdential はじめに dbt, LLMの動向とこれからのUbieデータ分析基盤 13

Slide 14

Slide 14 text

14 最近のdbtとLLMの動向 (Ubieで使っているツールを中心に ) dbt Fusion engine on Bigquery の public beta https://www.getdbt.com/blog/dbt-fusion-engine-publi c-beta-bigquery 公式 dbt MCP server のリリース https://docs.getdbt.com/blog/introducing-dbt-mcp-server AI Coding Agentの発達(画像はClaude Code Action) https://github.com/anthropics/claude-code-action 革新的なツールの登場で開発環境が激変 & 効率が飛躍的に向上している Lightdash AI agents の登場 https://docs.lightdash.com/guides/ai-agents

Slide 15

Slide 15 text

15 これからの Ubieデータ分析基盤： ADLC全体のenabling ➢ dbt / LLMの進化でdbt開発が加速し、データを知っていれば誰でも透過的に開発できる状態に近づいている ➢ 自動化・AIへの移譲は進んでもデータ分析の全体プロセスは変わらないのではないか？ ➢ Ubieデータ分析基盤に求められる責務はデータパイプラインの構築・運用という狭いプロセスではなく、 end-to-end の分析ライフサイクル (ADLC) のenablingへ ➢ ライフサイクル中の各プロセスをよく理解し、生成 AI含め適切なhowを提供し、データ利活用推進する roleへchange The Analytics Development Lifecycle (ADLC) https://www.getdbt.com/resources/the-analytics-develop ment-lifecycle You are the best judge of how you are maximally eﬀective. https://www.getdbt.com/resources/the-analytics-development-lifecycle より

Slide 16

Slide 16 text

16 Conﬁdential 2．Develop 16

Slide 17

Slide 17 text

17 dbt Repository の開発規模推移： PR数 / PR作成者数 / 一人あたり PR数の推移

Slide 18

Slide 18 text

18 dbt Repository の開発規模推移からわかること ➢ 2025/06時点では正社員約 240人、うちエンジニアが約 60人で、多くのメンバーが dbtを使った開発に関わっているエンジニアだけでなく、ビジネス職の人が SQLを書いたり dbtを使うこともある ➢ 生成AIの進化やDevin, Cursorなどツール導入だけでなく、生成AIを前提とした開発プロセスの整備 (cursor rulesの整備など) が開発数増加に寄与している ➢ 一方、分析基盤のメンバーは増えていない & dbtに詳しいAE/DAも本来のValueが発揮できる分析業務に betしている開発規模を品質高く維持するために、生成AI活用を前提とした開発プロセスの再構築と効率化が必須

Slide 19

Slide 19 text

19 ➢ 2024: GitHub CopilotやCursorを一部で試用 ➢ 2025/01: 全社的にCursorを導入、同時期にDevinも* この時期から継続して Cursor rulesも整備 thanks to okiyuki99 as Analytics Engineer ➢ 2025/06: Claude Code / Claude Code GitHub Action も導入、エディタを開かない開発も普及中生成AI活用に関する変遷メンテされ続けるcursor rules 開発フローに応じた rules *CursorやDevinなどツール導入についてはこちら： https://ﬁndy-code.io/media/articles/ai-career-ubie-250521

Slide 20

Slide 20 text

20 Claude Code Action ● 6月よりClaude Code Actionがリリースされ、 @claudeでClaudeを呼び出せるように ● token / Vertex AI部分が共通化された社内 GitHub Actionsをdbt Repoでも利用している ● issueからタスク依頼が可能になり、軽微な変更が楽に (Devinに近い体験 ) Claude Code Actionへの依頼の様子

Slide 21

Slide 21 text

21 ➢ AIによるReviewも積極的に取り入れ、ナレッジの属人化と Reviewer負担を軽減 ➢ CoderabbitもCLAUDE.mdや.cursor/rulesなどを読んでくれるようになり、AIによるCode Reviewは日々進歩 ref: https://docs.coderabbit.ai/integrations/knowledge-base/ ➢ Auto Approve も導入しているが、重要な変更は人間が ReviewするようCode Ownersを運用 ➢ column descriptionなどメタデータも生成したくなってしまうがルールベースで伝播させる (dbt-osmosis, dbt-fusionに期待) 開発補助：柔軟な Reviewと自動修正の導入 Claude Code GitHub ActionによるCustom Reviewのdemo 目的に応じ、自動生成とReviewを使い分けることも

Slide 22

Slide 22 text

22 今後：End-to-Endなデータパイプライン開発を透過的に ➢ アプリケーション DBやログからデータが生成され、分析できるようになるまでのデータパイプライン構築には多くの Stepが必要 ○ カラム追加など軽微な場合、 GitHub PRで3本程度 ○ 新設DBからの連携の場合、 PR10本以上になることも ➢ データエンジニア・アナリティクスエンジニアのリソースは限られており、増え続けるデータ分析需要に対して逼迫しがち ➢ メタデータがデータ分析で重要なように、データパイプライン構築ではドキュメントが重要 ➢ 依頼は人 (Engineer)ではなく生成 AIに頼むようになり、 AIがアクセスできない暗黙知や、ガードレール (validate, test)の不在による品質低下がボトルネックにデータ分析基盤全体図 : プライバシー・セキュリティを dbt repositoryでのレイヤリング

Slide 23

Slide 23 text

23 ● 生成AIを前提とする開発では (でなくても )ドキュメントがとにかく重要 ● ドキュメントも生成 AIで作りたいが、人間にも AIにも優しいように体系化したい → Diátaxis (ディアタクシス) フレームワークで構造化 explanation dbtなどの基本的用語や社内ルールの説明。他のドキュメントや cursor ruleの@で呼ぶ how-to-guides 特定の開発ステップに対応。 @で呼び出し可能な具体のルールで、これを元に rulesを作成 reference 詳細な仕様や技術的な内容。レイヤリング規則など横断的な知識をまとめたもの tutorial 学習用のリソースで、基本的に人が概観をつかむ用ドキュメントの生成と構造化

Slide 24

Slide 24 text

24 ● dbt開発に閉じず、データ分析や Google Cloud側の構築など横断的なものはホスティング ● GitHub RepositoryではAI Agentに読ませたいドキュメントを置くドキュメントの置き場所社内開発ドキュメントポータル Botを通じ検索できるように

Slide 25

Slide 25 text

25 Conﬁdential 3．ADLC: Plan

Slide 26

Slide 26 text

26 データに関わる横断的な協業 (Plan) Engineer, Analystが平行で作業するだけでなく同期的に論点や影響の擦り合わせを行い回避できる問題も多い Data Value Chainと称して定期的 & 必要に応じ横断的な連携を実施 Analyst(AE, DA) ● 可視化・KPI定義・インサイト抽出 ● データマート・データウェアハウスの構築 ● データ仕様を元にクエリ作成・分析 ● (mart付近の) データテストのハンドリング Engineer(SWE, DE) ● プロダクト開発・データの蓄積 ● データパイプライン構築 ● column description など仕様(メタデータ )の入力 ● (stagingまでの) データテストのハンドリング EngineerとAnalystの大まかな役割分担、EngineerがAnalyst的なことをする場合もその逆もあり得る(Hats, not badges)

Slide 27

Slide 27 text

27 Data Contractの策定 ➢ Data Value Chainでは議論の過程とその結果定義されたデータの仕様 / SLA / ユースケースをADCのように残している ➢ 特に、Engineer→AnalystへOwnershipが移るようなdbt modelの実装時はGitHub PRで双方が議論し Data Contractを定めるように開発プロセスを改めている ○ この策定過程をデータコントラクトストーミング (仮)と呼んでいる Data Contract 策定の様子 staging (interface) intermediate (data component) mart (dm,dwh) Owner: Engineer Owner: Engineer Owner: Analyst レイヤリングとData Ownerの変遷, カッコ内はUbieでのレイヤー呼称. data componetでSupplyer: Engineer, Consumer: Analyst の関係ができる

Slide 28

Slide 28 text

28 ➢ Planとして全社標準として根付かせつつ、 Data ContractおよびPlanの過程で決まった仕様を後続のプロセスにシームレスに接続することが重要 Develop: ➡ 生成AIがアクセスできる場所に配置し、 Reviewやドキュメントのscaﬀoldで反映できるように ➡ Custom Schema Validationで、Data Contract違反（テスト不足、metadata欠損)を気づけるように Discover: ➡ Data Contractおよび依存する成果物を生成 AIで検索できるように　 (dbt MCP server Discovery Metadata APIなど) Data Contractのこれから https://schemas.getdbt.com/ dbt JSON Schemaが公開されており自分でValidationも組める

Slide 29

Slide 29 text

29 Conﬁdential 4. Discovery / Analysis 29

Slide 30

Slide 30 text

30 ➢ 社内生成内 AIエージェント : Dev GeniusやMCP toolからdbt repoを取得し、用途に応じた Discovery体験を構築 ○ Lightdash APIから取得した dbt exposureから、ダッシュボード検索 ○ Elementary Artifact からテーブル検索 ○ metadataを元にデータマート検索と SQL生成 ➢ HTML形式のReportやJupyter notebookでアドホックな分析結果を共有するケースも Discovery / Analysis 詳しくは：Ubieの生成AI×データ利活用の現在地 https://note.com/okiyuki/n/na526aeabd4b6

Slide 31

Slide 31 text

31 これからの Discovery ➢ 社内AIエージェント”Dev Genius”でユースケースに応じたDiscoveryができるようになった ➢ dbt Cloud Discovery API や Lightdash AI Agent などツールの発展でより楽になるかもしれない ➢ ただ、Garbage in Garbage out の法則は変わらない。DB側でのデータモデリングに改善の余地を抱えたまま、データマートで吸収してしまう例も増えてきた。 LLM & Human Friendly なモデリングを鍵になりそうなもの ○ PlanやDevelopで適切なモデリング、メタデータ入力、カラム命名を堅実にやる ○ Audit log、INFORMATION_SCHEMAを活用したtableユースケース分析 (Observe) ○ コンテキストの集約(データ量が多いとハルシネーションが起きやすい )

Slide 32

Slide 32 text

32 dbt & LLMの普及で見えたこと ➢ 改めてdbtによるコード管理の偉大さを実感。 AIがアクセスできる情報が増え、データ分析の効率化・民主化に大きく寄与している ➢ ADLCの多くのプロセス (Develop / Analysis / Discovery) を速度が上がっている ➢ 一方、他のプロセスが速度・質の面でボトルネックに感じる場面も増えてきた ○ Planでのモデリング・影響範囲補足への改善 ○ Observeでの利活用状況監視不足 ○ Deployにおける CI/CDの速度 (dbt-fusionに期待) ➢ 循環する ADLCにおいて律速段階となり得るプロセスを都度特定し改善していく必要がある

Slide 33

Slide 33 text

33 これからの Ubieデータ分析基盤 ➢ 一つのプロセスに閉じず、フルサイクルエンジニアリングの考えを持ってデータ分析の質・速度を底上げしていかなければならない直近は、以下を重点的に ○ Data Observability ○ CI/CDでの dbt unit_test の広域展開 (dbt-fusionによる高速化に期待 ) ○ validation(e.g. dbt-checkpoint, dbt_project_evaluator)の活用 ➢ Enablingやドキュメント・メタデータの蓄積はツールが変わっても不変 ➢ dbt MCP tool, AI Agent への投資は変わらず積極的に

Slide 34

Slide 34 text

34 Conﬁdential おわりご清聴ありがとうございました！ 34