Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI対話分析の夢と、汚いデータの現実 Looker / Dataplex / Dataform...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

AI対話分析の夢と、汚いデータの現実 Looker / Dataplex / Dataform で実現する品質ファーストな基盤設計

本スライドは5月14日に開催された「みんなの考えた最強のデータ基盤アーキテクチャ'26前期〜前夜祭〜ルーキーズ」
で発表したものです。
https://datatech-jp.connpass.com/event/386885/

Avatar for Yuta Ozaki

Yuta Ozaki

May 14, 2026

More Decks by Yuta Ozaki

Other Decks in Technology

Transcript

  1. © MBK Digital co., Ltd. All Rights Reserved. 1 AI対話分析の夢と、汚いデータの現実

    Looker / Dataplex / Dataform で実現する品質ファーストな基盤設計 OZAKI Yuta
  2. © MBK Digital co., Ltd. All Rights Reserved. 2 自己紹介

    ざき(おざき ゆうた) 株式会社MBKデジタル 役割:リードデータエンジニア/PRディレクター コミュニティ活動  DATA Saber(since 2025/06)  Master of DATA Saber(since 2026/02)  データパイプライン講座の運営 所属組織 X:@waichang111
  3. © MBK Digital co., Ltd. All Rights Reserved. 3 3

    叫び 対話分析って実機作成まではうまくいくのに その後に壁があるパターンが多いですよね。。。。
  4. © MBK Digital co., Ltd. All Rights Reserved. 4 4

    前提 本発表は社内知見を元に、Google Cloud主体で作成しております。 シーンや課題、構成によっては、より最適なHowの形もあるかと思いますので別 サービスに入れ替えたらどうなるか?的な視点で見ていただけますと幸いです󰢛
  5. © MBK Digital co., Ltd. All Rights Reserved. 5 5

    玄人型 言い出しっぺが玄人なので、 仕様実現しても現場が使えない 安全弁を作る形に 基盤後発型 一時ファイルで可視化 めっちゃいい!けど基盤側の 整合性整えるのに時間かかりそう 期待値爆増型 実現後に期待値のGAPあり そんな精度は短期間で出ません 私は分かるよ!でも現場メンバーだと独り歩 きするのが怖いよね まだ可視化以前の問題でして・・・ これってBIで全部不整合とかも見れますか? これだったら今と変わんないかな もっとすごいものができると思ってた こいつらを良い感じにやっつけたい
  6. © MBK Digital co., Ltd. All Rights Reserved. 6 6

    ユースケースは事前確認したはず 何故なのか・・・?
  7. © MBK Digital co., Ltd. All Rights Reserved. 7 それってユースケースの『入口』が違うかも

    基盤・戦略選定 構築・可視化(BI) データ分析・活用 AI・機械学習(ML) フェーズ1:構想・PoC フェーズ2:構築・拡張 フェーズ3:高度化・連携 フェーズ4:民主化・AI 現状のシステム環境とデータ構造 の調査(アセスメント)を行い、移 行・構築の実現性を検証する 特定の重要指標(KPI)に絞り、 データの繋がりを可視化するプロ トタイプ(ダッシュボード)を作成 する 過去データを用いた予測シミュ レーションを行い、施策の有効性 を事前に見積もる 生成AIや機械学習モデルを用い て、特定の課題(予測・分類・対話 等)に対する解決可能性を技術的 に検証する 既存ツール(CDPやDWH)の機 能を最大限に引き出すための設 定変更や、運用ルールの策定を行 う 現場の担当者が日常業務で判断 を下せるよう、実運用に耐えうる 詳細な分析画面を構築・展開する データの収集から加工までのパイ プラインを自動化し、分析に必要 なデータが常に最新の状態に保 たれる仕組みを作る 検証されたモデルを実業務に組 み込むためのインターフェース設 計や、モデルの精度向上を繰り返 す 部門ごとに閉じていたデータを統 合し、ファン分析やサブスク管理 など、ビジネス目的に最適化した 基盤へ拡張する 自然言語でのデータ検索や、マル チクラウド環境でのタグ管理な ど、分析の柔軟性と精度を向上さ せる 顧客一人ひとりのライフタイムバ リュー(LTV)分析など、より深い インサイトを得るための高度統計 解析を実施する MLOpsによる継続的な再学習・ 監視基盤を整備し、RAGやマルチ モーダル等の高度な応用へモデ ルを拡張する プロジェクトを円滑に進めるため の推進体制(タスクフォース)の構 築や、中長期的な運用ロードマッ プを策定する 全社的なデータガバナンス(タグ 整理や計測定義の統一)を整備 し、誰もが正しくデータを使える 環境を整える 分析基盤を広告配信や顧客コミュ ニケーションツールと直接連携さ せ、施策の実行までを自動化・高 度化する 業務プロセス自体にAIを埋め込 み(シラバス生成や不正検知な ど)、属人化の排除と劇的な効率 化を実現する 現状のデータ環境の健康診断、お よびAI活用の実現性検証(PoC) バラバラなデータを統合 (DWH/CDP構築)し、経営や現 場が数字を「見える化」する 既存ERPや他部門データとの連 携。LTV分析や予測モデルなどの 一歩踏み込んだ活用 業務プロセスへのAI埋込と全社的 なデータ民主化により、現場主導の 意思決定と自動化を実現する
  8. © MBK Digital co., Ltd. All Rights Reserved. 8 8

    そこで!! AI活用を『夢』で終わらせないために ユーザーが本当に信頼できる品質をどう担保すべきか、 最強のアーキテクチャと共に語ります
  9. © MBK Digital co., Ltd. All Rights Reserved. 9 ©

    MBK Digital co., LTD. All Rights Reserved. 9 最強のアーキテクチャ案 ここからが本編です!!
  10. © MBK Digital co., Ltd. All Rights Reserved. 10 10

    俺PoCが終わったら、全部救うんだ 全部載せを用意しました
  11. © MBK Digital co., Ltd. All Rights Reserved. 11 データ統合

    データ取込 活用 データA データB データC 各種データソース データ品質(DQ)管理、メタデータ、アクセスコントロール、リネージ GCS (データレイク) Dataform (ETL/変換) BigQuery (DWH) BigQuery (データマート) Looker (セマンティックレイヤー) Google Cloudデータ統合管理 ポイント ・Dataformを活用しSQLベースでデータパイプラインを構築し高い保守性と拡張性を確保 ・データマートを中心に必要に応じてDWHを整備し、効率的な分析基盤を実現 ・データ品質管理はDataformに加えてDataplexを活用 BigQueryの物理層(変換)とLookerの論理層(定義)を明確化し、セマンティックレイヤーを設計
  12. © MBK Digital co., Ltd. All Rights Reserved. 12 Dataformとは?

    Before NEW • AI-ready Pipeline:AIが利用できる形式に自動変換 • Trust Validation:データの正確性を自動テスト • Semantic Preparation:ビジネス定義を付与 • AI Workflow:データ加工からAI実行までを自動化 • AI-aware SQL:SQL内でAIを直接呼び出し、分析や生成を実行 少し前まで 一言でいうと、「BigQuery専用の、データ加工・管理の自動化ツール」 ▷SQLベースの「SQLX」言語を用いてテーブル定義や依存関係の管理、データ品質のチェックを自動化できる 最近では、AI-readyなデータを即座に生成するパイプライン構築でも重宝!! ・ML.GENERATE_TEXT ・ML.GENERATE_EMBEDDING 最近のHOT 領域 関数例 生成AI AI.GENERATE 構造化生成 AI.GENERATE_TABLE Embedding AI.EMBED 類似検索 AI.SIMILARITY AI分類/推論 ※AI.CLASSIFY / AI.SCORE / ※AI.IF BigQuery AI Functionsの活用 • ETL:データの抽出・読み込み・変換 • assertion:データの正確性を自動でテスト・検証 • transformation:SQLによるデータ加工 • batch:スケジュールに基づいた一括処理 • SQL:標準的な記述によるロジックの実装 ETL自動化 AI-ready Pipelineへの進化
  13. © MBK Digital co., Ltd. All Rights Reserved. 13 Dataplexとは?

    一言でいうと、「分散データの統合管理・統制プラットフォーム」 ・統合:BigQueryやCloud Storage等の分散データを、移動せず一元管理。 ・統制:AIによる自動メタデータ収集と、全社共通のセキュリティ適用。 ・価値:データサイロ化を防ぎ、安全かつ迅速な意思決定を支援。 ▷最新情報(2026年4月)ではKnowledge Catalogへの刷新でAIエージェントがビジネス文脈を正しく理解するための「知識基盤」に Before NEW • Catalog(カタログ):分散したデータを自動で検索・可視化し、「何がどこにあるか」を把握 • Governance(ガバナンス):組織横断でデータの「利用ルールやアクセス権」を一括管理・適用 • DQ(データ品質):欠損や重複をAIが自動チェックし、「データの信頼性」を測定・維持 • Lineage(リネージ):データの発生源から加工経路までを可視化し、「流れの履歴」を追跡する • Policy Tag(ポリシータグ):列単位で機密情報(個人情報等)にタグ付けし、「高度なアクセス制御」を行う • AI Knowledge Catalog: AIがビジネス文脈を理解するための「AI用辞書」 • AI Governance: AIの学習データから成果物までを一元管理する「統制の仕組み」 • Hallucination Prevention:ハルシネーションの抑止 • Explainable AI: AIの判断根拠を可視化し、ブラックボックス化を防ぐ • AI Access Control: 見て良いデータと見てはいけないデータを厳格に制御 DATA Governance AI Trust Layer 誤回答された時に、 どのSemantic定義を参照したか追える
  14. © MBK Digital co., Ltd. All Rights Reserved. 14 14

    強化されてきたとはいえ、、、、 本当に作れますかね??
  15. © MBK Digital co., Ltd. All Rights Reserved. 15 15

    玄人型 言い出しっぺが玄人なので、 仕様実現しても現場が使えない 安全弁を作る形に 基盤後発型 一時ファイルで可視化 めっちゃいい!けど基盤側の 整合性整えるのに時間かかりそう 期待値爆増型 実現後に期待値のGAPあり そんな精度は短期間で出ません 私は分かるよ!でも現場メンバーだと独り歩 きするのが怖いよね まだ可視化以前の問題でして・・・ これってBIで全部不整合とかも見れますか? これだったら今と変わんないかな もっとすごいものができると思ってた こいつらをどうするか??
  16. © MBK Digital co., Ltd. All Rights Reserved. 16 16

    玄人型 言い出しっぺが玄人なので、 仕様実現しても現場が使えない 安全弁を作る形に 基盤後発型 一時ファイルで可視化 めっちゃいい!けど基盤側の 整合性整えるのに時間かかりそう 期待値爆増型 実現後に期待値のGAPあり そんな精度は短期間で出ません 私は分かるよ!でも現場メンバーだと独り歩 きするのが怖いよね まだ可視化以前の問題でして・・・ これってBIで全部不整合とかも見れますか? これだったら今と変わんないかな もっとすごいものができると思ってた どれも強敵。だけど一番重いのは・・・
  17. © MBK Digital co., Ltd. All Rights Reserved. 17 17

    めっちゃ良い!けど基盤側の整合性整えるのに時間かかりそう あと一押しが足りない
  18. © MBK Digital co., Ltd. All Rights Reserved. 18 データ統合

    データ取込 活用 データA データB データC 各種データソース データ品質(DQ)管理、メタデータ、アクセスコントロール、リネージ GCS (データレイク) Dataform (ETL/変換) BigQuery (DWH) BigQuery (データマート) Looker (セマンティックレイヤー) Google Cloudデータ統合管理 ポイント ・Dataformを活用しSQLベースでデータパイプラインを構築し高い保守性と拡張性を確保 ・データマートを中心に必要に応じてDWHを整備し、効率的な分析基盤を実現 ・データ品質管理はDataformに加えてDataplexを活用 ・さらにLooker上で品質管理ダッシュボードを可視化 BigQueryの物理層(変換)とLookerの論理層(定義)を明確化し、セマンティックレイヤーを設計
  19. © MBK Digital co., Ltd. All Rights Reserved. 19 ポイント!:Lookerのデータ品質ダッシュボードのイメージ

    Lookerでは標準で品質管理ダッシュボードがないので、「セマンティックレイヤーを品質管理の観測面として使う」 ※利用状況を確認するSystem Activity dashboardsは存在
  20. © MBK Digital co., Ltd. All Rights Reserved. 20 20

    疑問 何故前段階でクレンジングしないのか・・・?
  21. © MBK Digital co., Ltd. All Rights Reserved. 21 データ統合

    データ取込 活用 データA データB データC 各種データソース データ品質(DQ)管理、メタデータ、アクセスコントロール、リネージ GCS (データレイク) Dataform (ETL/変換) BigQuery (DWH) BigQuery (データマート) Looker (セマンティックレイヤー) Google Cloudデータ統合管理 何故前段階でクレンジングしないのか・・・?
  22. © MBK Digital co., Ltd. All Rights Reserved. 22 データ統合

    データ取込 活用 データA データB データC 各種データソース データ品質(DQ)管理、メタデータ、アクセスコントロール、リネージ GCS (データレイク) Dataform (ETL/変換) BigQuery (DWH) BigQuery (データマート) Looker (セマンティックレイヤー) Google Cloudデータ統合管理 Lookerとは・・・?セマンティックレイヤーとは?
  23. © MBK Digital co., Ltd. All Rights Reserved. 23 データ統合

    データ取込 活用 データA データB データC 各種データソース データ品質(DQ)管理、メタデータ、アクセスコントロール、リネージ GCS (データレイク) Dataform (ETL/変換) BigQuery (DWH) BigQuery (データマート) Looker (セマンティックレイヤー) Google Cloudデータ統合管理 汚いデータの現実
  24. © MBK Digital co., Ltd. All Rights Reserved. 24 24

    いつから 各種データソースが汚染されていないと錯覚していた??
  25. © MBK Digital co., Ltd. All Rights Reserved. 25 データ提供者も各ディメンションを把握できていない時にどうアプローチすべきか?

    完全性 (Completeness) 妥当性 (Validity) 整合性 (Integrity) 一意性 (Uniqueness) 適時性 (Timeliness) 必須データが欠落していないか ありえない値が入っていないか 情報は矛盾していないか サイレントな重複が存在していないか データが的確にアップデートされているか ディメンション モニタリング指標(例) 必須カラム非NULL率 ドメイン離反率、外れ値発生件数 外部キー制約違反率、集計/明細不一致 率 主キー重複率、実質的な重複レコード 率 データ更新 SLA 達成率、データ確定ま でのリードタイム 正確性 (Accuracy) データの内容が実態を正しく表しているか マスターデータ等との一致率、実地調 査との照合エラー率
  26. © MBK Digital co., Ltd. All Rights Reserved. 26 26

    そうか、僕たちに足りなかったのは ユーザー視点だったのか
  27. © MBK Digital co., Ltd. All Rights Reserved. 27 データ統合

    データ取込 活用 データA データB データC 各種データソース データ品質(DQ)管理、メタデータ、アクセスコントロール、リネージ GCS (データレイク) Dataform (ETL/変換) BigQuery (DWH) BigQuery (データマート) Looker (セマンティックレイヤー) Google Cloudデータ統合管理 データの整合性確認をユーザー主体でもできる形に
  28. © MBK Digital co., Ltd. All Rights Reserved. 29 データ統合

    データ取込 活用 データA データB データC 各種データソース データ品質(DQ)管理、メタデータ、アクセスコントロール、リネージ GCS (データレイク) Dataform (ETL/変換) BigQuery (DWH) BigQuery (データマート) Looker (セマンティックレイヤー) Google Cloudデータ統合管理 ユーザーも納得感を持ちつつ基盤強化ができる状態に!!
  29. © MBK Digital co., Ltd. All Rights Reserved. 30 データ統合

    データ取込 活用 データA データB データC 各種データソース データ品質(DQ)管理、メタデータ、アクセスコントロール、リネージ GCS (データレイク) Dataform (ETL/変換) BigQuery (DWH) BigQuery (データマート) Looker (セマンティックレイヤー) Google Cloudデータ統合管理 両サイドから攻める
  30. © MBK Digital co., Ltd. All Rights Reserved. 31 まとめ

    今回は対話分析の課題を例に最強のアーキテクチャを逆説的に構築するアプローチを ご紹介しました 最強のアーキテクチャ=ユーザーにとって最高/最適とは限らない もしユーザー主体で運用する際に最強のアーキテクチャとは何か?を考える ことで提案の幅が広がる 📚持ち帰って欲しいこと 1.現実のデータの解像度を上げる 2.ユーザー主体で品質管理できる状態を作る 3.納得感を持ってもらった上で基盤強化する ✅ポイント