組織全員で向き合うAI Readyなデータ利活用

by harry

Embed

Start on current slide

Slide 1

Slide 1 text

組織全員で向き合う AI Readyなデータ利活用 harry (@gappy50) / クラシル株式会社大規模データ×AI活用の現在地〜 Online Conference 2025 〜

Slide 2

Slide 2 text

自己紹介 harry (@gappy50) クラシル株式会社データエンジニア担当業務・クラシルのデータ基盤新規構築・現在は全社データ基盤の構築・運用技術スタック・ Snowflake / dbt / Lightdash Snowflake Data Superhero ・ 2022-2025（4年連続）

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

本日のアジェンダ 1. AI Readyなデータ組織とは 2. クラシルのデータ活用で抱えていた課題 3. データライフサイクルを全員で回す 4. AIを活用した組織としての取り組み 5. 今後の展望

Slide 5

Slide 5 text

本日お話しすること Tier定義で実現するAI-Readyなデータ利活用の記事をベースに、これまで断片的に紹介してきた事例を体系的に整理していきたいと思います https://zenn.dev/dely_jp/articles/dely-ai-ready-dataops-tier

Slide 6

Slide 6 text

AI Ready なデータ組織とは

Slide 7

Slide 7 text

AI Ready とは？多くの科学技術と同様、AI も社会に多大なる便益をもたらす一方で、その社会への影響力が大きいがゆえに、適切な開発と社会実装が求められる。AI を有効に活用して社会に便益もたらしつつ、ネガティブな側面を事前に回避又は低減するためには、我々は AI に関わる技術自体の研究開発を進めると共に、人、社会システム、産業構造、イノベーションシステム、ガバナンス等、あらゆる面で社会をリデザインし、AI を有効かつ安全に利用できる社会を構築すること、すなわち「AI-Ready な社会」への変革を推進する必要がある。出典：内閣府「人間中心のAI社会原則」（2019年3月）

Slide 8

Slide 8 text

AI Ready なデータ利活用とは？ AI を有効に活用して組織に便益もたらしつつ、ネガティブな側面を事前に回避又は低減するために、あらゆる面で組織をリデザインし、AI を有効かつ安全に利用できる社会を構築すること、すなわち「AI-Ready なデータ利活用」への変革を推進する必要がある。・人間によるOpsが最低限回っていなければAI活用はできない・人間の能力を超越したAI活用は人間には扱えないというスタンス・「なんかAIが自律してやってくれました！」に競合優位性はない・ AIを活用するためにはガードレールがなければならない・自働化やHuman In The Loopをできる体制こそが競合優位性を生む

Slide 9

Slide 9 text

クラシルのデータ活用で抱えていた課題

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

クラシルのデータ基盤の変遷クラシル（2021年〜）

Slide 13

Slide 13 text

クラシルのデータ基盤の変遷クラシルリワード初期（2022年〜）

Slide 14

Slide 14 text

浮かび上がってきた3つの課題 1. データのサイロ化・クラシル（Snowflake）とリワード（BigQuery）で分断・ユーザーの横断分析ができずビジネス機会損失に 2. SQLクエリが価値を生まない・ SQLを書けるのが強みな反面、同じ指標の重複クエリが量産・ SSoT（Single Source of Truth）がなくロジックも属人的 3. 組織がスケールしない・データエンジニアがボトルネックに・知識が属人化し、重要なところにのみ投資

Slide 15

Slide 15 text

根本的な問題アジリティ vs ガバナンスのトレードオフアジリティ重視の場合・各チームが自由にSQLクエリを作成 → 速く動ける・しかし、データ品質が担保されない・同じ指標でも結果が異なる → 意思決定の信頼性が低下ガバナンス重視の場合・データエンジニアが厳格に管理 → 品質は保てる・しかし、すべてのリクエストを処理しきれない・ボトルネックが発生 → スピードが犠牲に AI活用以前に、この問題を解決する必要があった

Slide 16

Slide 16 text

データエンジニアの視点データの重要度と管理コストを見ながらセンターピンを抑える必要性

Slide 17

Slide 17 text

組織の強み最速で意思決定をし続けることこそが競合優位性

Slide 18

Slide 18 text

必要なのは意思決定の速さとデータ管理を両立するTrade On

Slide 19

Slide 19 text

データ基盤のサイロ化を解消出典: delyのデータ基盤を連邦制ガバナンスを採用したデータ基盤として刷新しています https://zenn.dev/dely_jp/articles/2c1d3c42f3bbf6

Slide 20

Slide 20 text

データチームのミッションを策定クラシルのデータの資産価値を高めるサイクルを全員で回して発明力を強くする

Slide 21

Slide 21 text

データライフサイクルを全員で回す

Slide 22

Slide 22 text

目指すべき姿データ管理の観点では「データライフサイクル」を最速で回すことが競合優位性につながる

Slide 23

Slide 23 text

目指すべき姿 SQLが書ける強みで意思決定者がオーナーシップをもつ仕組み

Slide 24

Slide 24 text

解決策その1 Lightdash導入でdbtを中心としたデータ管理を実現する

Slide 25

Slide 25 text

Lightdashとは？ dbtネイティブなオープンソースBIツール分析の柔軟性: ・ SQLが書ける: Redashのように自由にSQLでアドホック分析が可能・セルフサービス分析: ボタンポチポチでSQL不要の分析も可能 dbtとの統合: ・ Write Back to dbt: 作成したクエリをdbtモデルへ自動変換・ dbtでセマンティクス管理: メトリクス定義をdbtで一元管理・メタデータの自動読み込み: dbtのドキュメント・テストを自動反映実現すること: ・ Redashの柔軟性 + dbtの品質管理 = データライフサイクルの高速化

Slide 26

Slide 26 text

解決策その2 Tier定義による段階的なデータガバナンス Tier 用途責任者品質要件メタデータ TTL AI Tier 1 監査・公表 DE 全テスト完全永続 ✓ Tier 2 経営KPI DO 全テスト完全永続 ✓ Tier 3 部門KPI DO, Dev 基本テスト完全永続 ✓ Tier 4 アドホック DO, Dev dbt化最低限 90日 ✗ Tier 5 個人試行 DO, Dev SQL 不要 30日 ✗ 補足: DE=データエンジニア、DO=データオーナー、Dev=開発者

Slide 27

Slide 27 text

Tierの昇格プロセス Lightdashでデータライフサイクルを回すことで品質が向上 Tier 5 (個人試行) ← LightdashでSQLを自由に書いて探索 ↓ 有用性が確認されたら Tier 4 (アドホック分析) ← Write Back to dbtでdbtモデル化 ↓ 継続的に使われる、重要度が上がる、セマンティクスを育てる、不要なものは削除 Tier 3 (部門意思決定) ← テスト追加、メタデータ整備 ← AI利用可能！ ↓ 全社的に重要 Tier 2 (経営KPI) ← データオーナーが管理 ↓ 外部公表が必要 Tier 1 (監査・外部公表) ← データエンジニアが厳格管理 Lightdashの役割: 探索→資産化のサイクルを自動化し、メタデータ・品質向上を促進

Slide 28

Slide 28 text

データオーナー制度の制定データから意思決定をする人がオーナーシップをもてるように

Slide 29

Slide 29 text

Tierのプロセス・データライフサイクルを回すためのDataOps 削除や昇格判定も自動で実施し、データオーナーないしはモデルのオーナーに通知をする例：Tier5(ローグクエリ)の30日削除

Slide 30

Slide 30 text

インセンティブ設計「品質を上げれば上げるほど、分析が楽になる」好循環データ品質を上げる（Tier 3以上に昇格） ↓ AIエージェントで自然言語分析が可能になる！ ↓ AIによって分析が楽になる、速くなる ↓ より多くのデータの品質を上げたくなるし、多くの軸で深堀りしたくなる ↓ （繰り返し）データも育てていく: 完璧を目指さず、段階的に品質を向上させる

Slide 31

Slide 31 text

データライフサイクルを回すことが文化に意思決定者のデータオーナーを軸に裾野が広がる意思決定に必要なデータのセマンティクスやメタデータが充足しBizメンバーも即時にアドホックな分析ができるように

Slide 32

Slide 32 text

データライフサイクルを回すことが文化に組織が品質に向き合えるようになる非エンジニアのメンバーもTier3のデータを育てる中で、テストによって自分が修正したSQL クエリの考慮不足に気がつけるレベルまで到達

Slide 33

Slide 33 text

AIを活用した組織としての取り組み

Slide 34

Slide 34 text

目指すべき姿「データライフサイクル」を最速で回すことが競合優位性につながる

Slide 35

Slide 35 text

０→1フェーズ

Slide 36

Slide 36 text

Devinによるデータパイプライン構築の自動化自然言語の指示だけで、RDSからSnowflakeへのデータパイプライン構築を完全自動化出典: AI×DataOps - Devin Playbookで実現する自律的データパイプライン構築 https://zenn.dev/dely_jp/articles/ai-dataops-devin-playbook-automation

Slide 37

Slide 37 text

Lightdashのwrite backをdbtネイティブにデータオーナーがアドホッククエリを作成・提案し、レビュー後にdbtモデルへ自動統合する仕組みを実現出典: RedashからLightdashへの移行 - dbtネイティブなBI環境の構築 https://zenn.dev/dely_jp/articles/cea241e656da5e

Slide 38

Slide 38 text

1→10フェーズ

Slide 39

Slide 39 text

Claude Codeを活用したAdhocモデルとテスト実装ガードレールとコマンド機能の標準化により、専門家でなくてもスピーディーで品質の高い分析を実現出典: AIで加速するデータライフサイクル - Claude Codeで実現するアドホック分析の高速化 https://zenn.dev/dely_jp/articles/47c55622ec2b34

Slide 40

Slide 40 text

分析のゲームチェンジが起きている CCのサブエージェントとスラッシュコマンドの威力データモデラー・データアーキテクトのサブエージェントルール・規約やLightdashのセマンティクス・テスト実装までをフローとして提供出典: AIで加速するデータライフサイクル - Claude Codeで実現するアドホック分析の高速化 https://zenn.dev/dely_jp/articles/47c55622ec2b34

Slide 41

Slide 41 text

Devinを活用したAdhocモデルとテスト実装 Devinはサーバーサイドのリポジトリも含めて横断的なコンテキストを利用できるので精度が高いことが多い

Slide 42

Slide 42 text

10→100フェーズ

Slide 43

Slide 43 text

LightdashのSemanticsをSnowflakeのSemantic Viewsに変換 Tier3になれば自ずとセマンティクスだけでなくビジネスメタデータもデータオーナー中心に整備されている状態を作れている

Slide 44

Slide 44 text

Snowflake IntelligenceでSemantic Viewsを利用

Slide 45

Slide 45 text

データライフサイクルを組織全員でし続けることでいつの間にかAI Readyなデータ利活用ができる状態に AI-ReadyはDataOpsを組織で最速で回している文化があれば自ずと到達できる AI を有効に活用して組織に便益もたらしつつ、ネガティブな側面を事前に回避又は低減するために、あらゆる面で組織をリデザインし、AI を有効かつ安全に利用できる社会を構築すること、すなわち「AI-Ready なデータ利活用」への変革を推進する必要がある。

Slide 46

Slide 46 text

まとめ

Slide 47

Slide 47 text

まとめ・データライフサイクルを最速で回すための技術選定とDataOpsの実装により、データの資産価値を高める取り組みが文化としてできるように・データオーナーがデータの品質やビジネスメタデータを育てることで活用の裾野が広がってきた・データライフサイクルを最速で回すためのAI活用が重要・データエンジニアリングの民主化・いつの間にかAI Readyなデータ利活用ができる状態まで到達・データのアジリティだけでなく、適切なタイミングでの品質管理などのガバナンスを両立しながら

Slide 48

Slide 48 text

今後の展望・ DataOpsのAI活用の切り分け・データ製品が自律化してきているDataOpsの工数も下がる可能性・ Semanticsの管理・ Open Semantic InterchangeなどでDataOpsの工数も下がる可能性・組織へのSnowflake Intelligenceの本格導入・今の取り込みだけで考えると分析に関するポジティブなBreaking Changesが起きる期待感