Slide 1

Slide 1 text

組織全員で向き合う AI Readyなデータ利活用 harry (@gappy50) / クラシル株式会社 大規模データ×AI活用の現在地 〜 Online Conference 2025 〜

Slide 2

Slide 2 text

自己紹介 harry (@gappy50) クラシル株式会社 データエンジニア 担当業務 ・ クラシルのデータ基盤新規構築 ・ 現在は全社データ基盤の構築・運用 技術スタック ・ Snowflake / dbt / Lightdash Snowflake Data Superhero ・ 2022-2025(4年連続)

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

本日のアジェンダ 1. AI Readyなデータ組織とは 2. クラシルのデータ活用で抱えていた課題 3. データライフサイクルを全員で回す 4. AIを活用した組織としての取り組み 5. 今後の展望

Slide 5

Slide 5 text

本日お話しすること Tier定義で実現するAI-Readyなデータ利活用の記事をベースに、これまで断片的に紹介して きた事例を体系的に整理していきたいと思います https://zenn.dev/dely_jp/articles/dely-ai-ready-dataops-tier

Slide 6

Slide 6 text

AI Ready なデータ組織とは

Slide 7

Slide 7 text

AI Ready とは? 多くの科学技術と同様、AI も社会に多大なる便益をもたらす一方で、その社会への影 響力が大きいがゆえに、適切な開発と社会実装が求められる。AI を有効に活用して社 会に便益もたらしつつ、ネガティブな側面を事前に回避又は低減するためには、我々 は AI に関わる技術自体の研究開発を進めると共に、人、社会システム、産業構造、 イノベーションシステム、ガバナンス等、あらゆる面で社会をリデザインし、AI を有 効かつ安全に利用できる社会を構築すること、すなわち 「AI-Ready な社会」 への変 革を推進する必要がある。 出典:内閣府「人間中心のAI社会原則」 (2019年3月)

Slide 8

Slide 8 text

AI Ready なデータ利活用とは? AI を有効に活用して組織に便益もたらしつつ、ネガティブな側面を事前に回避又は低 減するために、あらゆる面で組織をリデザインし、AI を有効かつ安全に利用できる社 会を構築すること、すなわち 「AI-Ready なデータ利活用」 への変革を推進する必要 がある。 ・ 人間によるOpsが最低限回っていなければAI活用はできない ・ 人間の能力を超越したAI活用は人間には扱えないというスタンス ・ 「なんかAIが自律してやってくれました!」に競合優位性はない ・ AIを活用するためにはガードレールがなければならない ・ 自働化やHuman In The Loopをできる体制こそが競合優位性を生む

Slide 9

Slide 9 text

クラシルのデータ活用で 抱えていた課題

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

クラシルのデータ基盤の変遷 クラシル(2021年〜)

Slide 13

Slide 13 text

クラシルのデータ基盤の変遷 クラシルリワード初期(2022年〜)

Slide 14

Slide 14 text

浮かび上がってきた3つの課題 1. データのサイロ化 ・ クラシル(Snowflake)とリワード(BigQuery)で分断 ・ ユーザーの横断分析ができずビジネス機会損失に 2. SQLクエリが価値を生まない ・ SQLを書けるのが強みな反面、同じ指標の重複クエリが量産 ・ SSoT(Single Source of Truth)がなくロジックも属人的 3. 組織がスケールしない ・ データエンジニアがボトルネックに ・ 知識が属人化し、重要なところにのみ投資

Slide 15

Slide 15 text

根本的な問題 アジリティ vs ガバナンスのトレードオフ アジリティ重視の場合 ・ 各チームが自由にSQLクエリを作成 → 速く動ける ・ しかし、データ品質が担保されない ・ 同じ指標でも結果が異なる → 意思決定の信頼性が低下 ガバナンス重視の場合 ・ データエンジニアが厳格に管理 → 品質は保てる ・ しかし、すべてのリクエストを処理しきれない ・ ボトルネックが発生 → スピードが犠牲に AI活用以前に、この問題を解決する必要があった

Slide 16

Slide 16 text

データエンジニアの視点 データの重要度と管理コストを見ながらセンターピンを抑える必要性

Slide 17

Slide 17 text

組織の強み 最速で意思決定をし続けることこそが競合優位性

Slide 18

Slide 18 text

必要なのは 意思決定の速さとデータ管理を両立するTrade On

Slide 19

Slide 19 text

データ基盤のサイロ化を解消 出典: delyのデータ基盤を連邦制ガバナンスを採用したデータ基盤として刷新しています https://zenn.dev/dely_jp/articles/2c1d3c42f3bbf6

Slide 20

Slide 20 text

データチームのミッションを策定 クラシルのデータの 資産価値を高めるサイクルを 全員で回して 発明力を強くする

Slide 21

Slide 21 text

データライフサイクルを 全員で回す

Slide 22

Slide 22 text

目指すべき姿 データ管理の観点では「データライフサイクル」を最速で回すこ とが競合優位性につながる

Slide 23

Slide 23 text

目指すべき姿 SQLが書ける強みで意思決定者がオーナーシップをもつ仕組み

Slide 24

Slide 24 text

解決策その1 Lightdash導入でdbtを中心としたデータ管理を実現する

Slide 25

Slide 25 text

Lightdashとは? dbtネイティブなオープンソースBIツール 分析の柔軟性: ・ SQLが書ける: Redashのように自由にSQLでアドホック分析が可能 ・ セルフサービス分析: ボタンポチポチでSQL不要の分析も可能 dbtとの統合: ・ Write Back to dbt: 作成したクエリをdbtモデルへ自動変換 ・ dbtでセマンティクス管理: メトリクス定義をdbtで一元管理 ・ メタデータの自動読み込み: dbtのドキュメント・テストを自動反映 実現すること: ・ Redashの柔軟性 + dbtの品質管理 = データライフサイクルの高速化

Slide 26

Slide 26 text

解決策その2 Tier定義による段階的なデータガバナンス Tier 用途 責任者 品質要件 メタデータ TTL AI Tier 1 監査・公表 DE 全テスト 完全 永続 ✓ Tier 2 経営KPI DO 全テスト 完全 永続 ✓ Tier 3 部門KPI DO, Dev 基本テスト 完全 永続 ✓ Tier 4 アドホック DO, Dev dbt化 最低限 90日 ✗ Tier 5 個人試行 DO, Dev SQL 不要 30日 ✗ 補足: DE=データエンジニア、DO=データオーナー、Dev=開発者

Slide 27

Slide 27 text

Tierの昇格プロセス Lightdashでデータライフサイクルを回すことで品質が向上 Tier 5 (個人試行) ← LightdashでSQLを自由に書いて探索 ↓ 有用性が確認されたら Tier 4 (アドホック分析) ← Write Back to dbtでdbtモデル化 ↓ 継続的に使われる、重要度が上がる、セマンティクスを育てる、不要なものは削除 Tier 3 (部門意思決定) ← テスト追加、メタデータ整備 ← AI利用可能! ↓ 全社的に重要 Tier 2 (経営KPI) ← データオーナーが管理 ↓ 外部公表が必要 Tier 1 (監査・外部公表) ← データエンジニアが厳格管理 Lightdashの役割: 探索→資産化のサイクルを自動化し、メタデータ・品質向上を促進

Slide 28

Slide 28 text

データオーナー制度の制定 データから意思決定をする人がオーナーシップをもてるように

Slide 29

Slide 29 text

Tierのプロセス・データライフサイクルを回すため のDataOps 削除や昇格判定も自動で実施し、データオーナーないしはモデルのオーナーに通知をする 例:Tier5(ローグクエリ)の30日削除

Slide 30

Slide 30 text

インセンティブ設計 「品質を上げれば上げるほど、分析が楽になる」好循環 データ品質を上げる(Tier 3以上に昇格) ↓ AIエージェントで自然言語分析が可能になる! ↓ AIによって分析が楽になる、速くなる ↓ より多くのデータの品質を上げたくなるし、多くの軸で深堀りしたくなる ↓ (繰り返し) データも育てていく: 完璧を目指さず、段階的に品質を向上させる

Slide 31

Slide 31 text

データライフサイクルを回すことが文化に 意思決定者のデータオーナーを軸に裾野が広がる 意思決定に必要なデータのセマンティクスやメタデータが充足しBizメンバーも即時にアドホ ックな分析ができるように

Slide 32

Slide 32 text

データライフサイクルを回すことが文化に 組織が品質に向き合えるようになる 非エンジニアのメンバーもTier3のデータを育てる中で、テストによって自分が修正したSQL クエリの考慮不足に気がつけるレベルまで到達

Slide 33

Slide 33 text

AIを活用した組織としての 取り組み

Slide 34

Slide 34 text

目指すべき姿 「データライフサイクル」を最速で回すことが競合優位性につな がる

Slide 35

Slide 35 text

0→1フェーズ

Slide 36

Slide 36 text

Devinによるデータパイプライン構築の自動化 自然言語の指示だけで、RDSからSnowflakeへのデータパイプライン構築を完全自動化 出典: AI×DataOps - Devin Playbookで実現する自律的データパイプライン構築 https://zenn.dev/dely_jp/articles/ai-dataops-devin-playbook-automation

Slide 37

Slide 37 text

Lightdashのwrite backをdbtネイティブに データオーナーがアドホッククエリを作成・提案し、レビュー後にdbtモデルへ自動統合す る仕組みを実現 出典: RedashからLightdashへの移行 - dbtネイティブなBI環境の構築 https://zenn.dev/dely_jp/articles/cea241e656da5e

Slide 38

Slide 38 text

1→10フェーズ

Slide 39

Slide 39 text

Claude Codeを活用したAdhocモデルとテスト実 装 ガードレールとコマンド機能の標準化により、専門家でなくてもスピーディーで品質の高い 分析を実現 出典: AIで加速するデータライフサイクル - Claude Codeで実現するアドホック分析の高速化 https://zenn.dev/dely_jp/articles/47c55622ec2b34

Slide 40

Slide 40 text

分析のゲームチェンジが起きている CCのサブエージェントとスラッシュコマンドの威力 データモデラー・データアーキテクトのサブエージェント ルール・規約やLightdashのセマンティクス・テスト実装までをフローとして提供 出典: AIで加速するデータライフサイクル - Claude Codeで実現するアドホック分析の高速化 https://zenn.dev/dely_jp/articles/47c55622ec2b34

Slide 41

Slide 41 text

Devinを活用したAdhocモデルとテスト実装 Devinはサーバーサイドのリポジトリも含めて横断的なコンテキストを利用できるので精度 が高いことが多い

Slide 42

Slide 42 text

10→100フェーズ

Slide 43

Slide 43 text

LightdashのSemanticsをSnowflakeのSemantic Viewsに変換 Tier3になれば自ずとセマンティクスだけでなくビジネスメタデータもデータオーナー中心に 整備されている状態を作れている

Slide 44

Slide 44 text

Snowflake IntelligenceでSemantic Viewsを利用

Slide 45

Slide 45 text

データライフサイクルを組織全員でし続けることで いつの間にかAI Readyなデータ利活用ができる状 態に AI-ReadyはDataOpsを組織で最速で回している文化があれば自ずと到達できる AI を有効に活用して組織に便益もたらしつつ、ネガティブな側面を事前に回避又は低 減するために、あらゆる面で組織をリデザインし、AI を有効かつ安全に利用できる社 会を構築すること、すなわち 「AI-Ready なデータ利活用」 への変革を推進する必要 がある。

Slide 46

Slide 46 text

まとめ

Slide 47

Slide 47 text

まとめ ・ データライフサイクルを最速で回すための技術選定とDataOpsの実装により、データの 資産価値を高める取り組みが文化としてできるように ・ データオーナーがデータの品質やビジネスメタデータを育てることで活用の裾野が 広がってきた ・ データライフサイクルを最速で回すためのAI活用が重要 ・ データエンジニアリングの民主化 ・ いつの間にかAI Readyなデータ利活用ができる状態まで到達 ・ データのアジリティだけでなく、適切なタイミングでの品質管理などのガバナンス を両立しながら

Slide 48

Slide 48 text

今後の展望 ・ DataOpsのAI活用の切り分け ・ データ製品が自律化してきているDataOpsの工数も下がる可能性 ・ Semanticsの管理 ・ Open Semantic InterchangeなどでDataOpsの工数も下がる可能性 ・ 組織へのSnowflake Intelligenceの本格導入 ・ 今の取り込みだけで考えると分析に関するポジティブなBreaking Changesが起き る期待感

Slide 49

Slide 49 text

ご清聴ありがとうございまし た!

Slide 50

Slide 50 text

No content