組織全員で向き合うAI Readyなデータ利活用

組織全員で向き合う AI Readyなデータ利活用 harry (@gappy50) / クラシル株式会社大規模データ×AI活用の現在地〜 Online
Conference 2025 〜

自己紹介 harry (@gappy50) クラシル株式会社データエンジニア担当業務・クラシルのデータ基盤新規構築・現在は全社データ基盤の構築・運用
技術スタック・ Snowflake / dbt / Lightdash Snowflake Data Superhero ・ 2022-2025（4年連続）

本日のアジェンダ 1. AI Readyなデータ組織とは 2. クラシルのデータ活用で抱えていた課題 3. データライフサイクルを全員で回す 4. AIを活用した組織としての取り組み
5. 今後の展望

本日お話しすること Tier定義で実現するAI-Readyなデータ利活用の記事をベースに、これまで断片的に紹介してきた事例を体系的に整理していきたいと思います https://zenn.dev/dely_jp/articles/dely-ai-ready-dataops-tier

AI Ready なデータ組織とは

AI Ready とは？多くの科学技術と同様、AI も社会に多大なる便益をもたらす一方で、その社会への影響力が大きいがゆえに、適切な開発と社会実装が求められる。AI を有効に活用して社会に便益もたらしつつ、ネガティブな側面を事前に回避又は低減するためには、我々は AI
に関わる技術自体の研究開発を進めると共に、人、社会システム、産業構造、イノベーションシステム、ガバナンス等、あらゆる面で社会をリデザインし、AI を有効かつ安全に利用できる社会を構築すること、すなわち「AI-Ready な社会」への変革を推進する必要がある。出典：内閣府「人間中心のAI社会原則」（2019年3月）

AI Ready なデータ利活用とは？ AI を有効に活用して組織に便益もたらしつつ、ネガティブな側面を事前に回避又は低減するために、あらゆる面で組織をリデザインし、AI を有効かつ安全に利用できる社会を構築すること、すなわち「AI-Ready なデータ利活用」
への変革を推進する必要がある。・人間によるOpsが最低限回っていなければAI活用はできない・人間の能力を超越したAI活用は人間には扱えないというスタンス・「なんかAIが自律してやってくれました！」に競合優位性はない・ AIを活用するためにはガードレールがなければならない・自働化やHuman In The Loopをできる体制こそが競合優位性を生む

クラシルのデータ活用で抱えていた課題

クラシルのデータ基盤の変遷クラシル（2021年〜）

クラシルのデータ基盤の変遷クラシルリワード初期（2022年〜）

浮かび上がってきた3つの課題 1. データのサイロ化・クラシル（Snowflake）とリワード（BigQuery）で分断・ユーザーの横断分析ができずビジネス機会損失に 2. SQLクエリが価値を生まない・
SQLを書けるのが強みな反面、同じ指標の重複クエリが量産・ SSoT（Single Source of Truth）がなくロジックも属人的 3. 組織がスケールしない・データエンジニアがボトルネックに・知識が属人化し、重要なところにのみ投資

根本的な問題アジリティ vs ガバナンスのトレードオフアジリティ重視の場合・各チームが自由にSQLクエリを作成 → 速く動ける・
しかし、データ品質が担保されない・同じ指標でも結果が異なる → 意思決定の信頼性が低下ガバナンス重視の場合・データエンジニアが厳格に管理 → 品質は保てる・しかし、すべてのリクエストを処理しきれない・ボトルネックが発生 → スピードが犠牲に AI活用以前に、この問題を解決する必要があった

データエンジニアの視点データの重要度と管理コストを見ながらセンターピンを抑える必要性

組織の強み最速で意思決定をし続けることこそが競合優位性

必要なのは意思決定の速さとデータ管理を両立するTrade On

データ基盤のサイロ化を解消出典: delyのデータ基盤を連邦制ガバナンスを採用したデータ基盤として刷新しています https://zenn.dev/dely_jp/articles/2c1d3c42f3bbf6

データチームのミッションを策定クラシルのデータの資産価値を高めるサイクルを全員で回して発明力を強くする

データライフサイクルを全員で回す

目指すべき姿データ管理の観点では「データライフサイクル」を最速で回すことが競合優位性につながる

目指すべき姿 SQLが書ける強みで意思決定者がオーナーシップをもつ仕組み

解決策その1 Lightdash導入でdbtを中心としたデータ管理を実現する

Lightdashとは？ dbtネイティブなオープンソースBIツール分析の柔軟性: ・ SQLが書ける: Redashのように自由にSQLでアドホック分析が可能・セルフサービス分析: ボタンポチポチでSQL不要の分析も可能 dbtとの統合:
・ Write Back to dbt: 作成したクエリをdbtモデルへ自動変換・ dbtでセマンティクス管理: メトリクス定義をdbtで一元管理・メタデータの自動読み込み: dbtのドキュメント・テストを自動反映実現すること: ・ Redashの柔軟性 + dbtの品質管理 = データライフサイクルの高速化

解決策その2 Tier定義による段階的なデータガバナンス Tier 用途責任者品質要件メタデータ TTL AI Tier
1 監査・公表 DE 全テスト完全永続 ✓ Tier 2 経営KPI DO 全テスト完全永続 ✓ Tier 3 部門KPI DO, Dev 基本テスト完全永続 ✓ Tier 4 アドホック DO, Dev dbt化最低限 90日 ✗ Tier 5 個人試行 DO, Dev SQL 不要 30日 ✗ 補足: DE=データエンジニア、DO=データオーナー、Dev=開発者

Tierの昇格プロセス Lightdashでデータライフサイクルを回すことで品質が向上 Tier 5 (個人試行) ← LightdashでSQLを自由に書いて探索 ↓ 有用性が確認されたら Tier
4 (アドホック分析) ← Write Back to dbtでdbtモデル化 ↓ 継続的に使われる、重要度が上がる、セマンティクスを育てる、不要なものは削除 Tier 3 (部門意思決定) ← テスト追加、メタデータ整備 ← AI利用可能！ ↓ 全社的に重要 Tier 2 (経営KPI) ← データオーナーが管理 ↓ 外部公表が必要 Tier 1 (監査・外部公表) ← データエンジニアが厳格管理 Lightdashの役割: 探索→資産化のサイクルを自動化し、メタデータ・品質向上を促進

データオーナー制度の制定データから意思決定をする人がオーナーシップをもてるように

Tierのプロセス・データライフサイクルを回すためのDataOps 削除や昇格判定も自動で実施し、データオーナーないしはモデルのオーナーに通知をする例：Tier5(ローグクエリ)の30日削除

インセンティブ設計「品質を上げれば上げるほど、分析が楽になる」好循環データ品質を上げる（Tier 3以上に昇格） ↓ AIエージェントで自然言語分析が可能になる！ ↓ AIによって分析が楽になる、速くなる ↓ より多くのデータの品質を上げたくなるし、多くの軸で深堀りしたくなる
↓ （繰り返し）データも育てていく: 完璧を目指さず、段階的に品質を向上させる

データライフサイクルを回すことが文化に意思決定者のデータオーナーを軸に裾野が広がる意思決定に必要なデータのセマンティクスやメタデータが充足しBizメンバーも即時にアドホックな分析ができるように

データライフサイクルを回すことが文化に組織が品質に向き合えるようになる非エンジニアのメンバーもTier3のデータを育てる中で、テストによって自分が修正したSQL クエリの考慮不足に気がつけるレベルまで到達

AIを活用した組織としての取り組み

目指すべき姿「データライフサイクル」を最速で回すことが競合優位性につながる

０→1フェーズ

Devinによるデータパイプライン構築の自動化自然言語の指示だけで、RDSからSnowflakeへのデータパイプライン構築を完全自動化出典: AI×DataOps - Devin Playbookで実現する自律的データパイプライン構築 https://zenn.dev/dely_jp/articles/ai-dataops-devin-playbook-automation

Lightdashのwrite backをdbtネイティブにデータオーナーがアドホッククエリを作成・提案し、レビュー後にdbtモデルへ自動統合する仕組みを実現出典: RedashからLightdashへの移行 - dbtネイティブなBI環境の構築 https://zenn.dev/dely_jp/articles/cea241e656da5e

1→10フェーズ

Claude Codeを活用したAdhocモデルとテスト実装ガードレールとコマンド機能の標準化により、専門家でなくてもスピーディーで品質の高い分析を実現出典: AIで加速するデータライフサイクル - Claude Codeで実現するアドホック分析の高速化
https://zenn.dev/dely_jp/articles/47c55622ec2b34

分析のゲームチェンジが起きている CCのサブエージェントとスラッシュコマンドの威力データモデラー・データアーキテクトのサブエージェントルール・規約やLightdashのセマンティクス・テスト実装までをフローとして提供出典: AIで加速するデータライフサイクル - Claude Codeで実現するアドホック分析の高速化 https://zenn.dev/dely_jp/articles/47c55622ec2b34

Devinを活用したAdhocモデルとテスト実装 Devinはサーバーサイドのリポジトリも含めて横断的なコンテキストを利用できるので精度が高いことが多い

10→100フェーズ

LightdashのSemanticsをSnowflakeのSemantic Viewsに変換 Tier3になれば自ずとセマンティクスだけでなくビジネスメタデータもデータオーナー中心に整備されている状態を作れている

Snowflake IntelligenceでSemantic Viewsを利用

データライフサイクルを組織全員でし続けることでいつの間にかAI Readyなデータ利活用ができる状態に AI-ReadyはDataOpsを組織で最速で回している文化があれば自ずと到達できる AI を有効に活用して組織に便益もたらしつつ、ネガティブな側面を事前に回避又は低減するために、あらゆる面で組織をリデザインし、AI を有効かつ安全に利用できる社会を構築すること、すなわち
「AI-Ready なデータ利活用」への変革を推進する必要がある。

まとめ

まとめ・データライフサイクルを最速で回すための技術選定とDataOpsの実装により、データの資産価値を高める取り組みが文化としてできるように・データオーナーがデータの品質やビジネスメタデータを育てることで活用の裾野が広がってきた・データライフサイクルを最速で回すためのAI活用が重要・
データエンジニアリングの民主化・いつの間にかAI Readyなデータ利活用ができる状態まで到達・データのアジリティだけでなく、適切なタイミングでの品質管理などのガバナンスを両立しながら

今後の展望・ DataOpsのAI活用の切り分け・データ製品が自律化してきているDataOpsの工数も下がる可能性・ Semanticsの管理・ Open Semantic
InterchangeなどでDataOpsの工数も下がる可能性・組織へのSnowflake Intelligenceの本格導入・今の取り込みだけで考えると分析に関するポジティブなBreaking Changesが起きる期待感

ご清聴ありがとうございました！

組織全員で向き合うAI Readyなデータ利活用

組織全員で向き合うAI Readyなデータ利活用

More Decks by harry

Other Decks in Technology

Featured

Transcript