AI エージェントと考え直すデータ基盤

1 AI エージェントと考え直すデータ基盤 Naofumi Yamada (@na0fu3y) 2025-07-11

2 注意書き • この資料は意図的に⼤量の⽂字で構成されています ◦ Google NotebookLM を使って探索することを想定しています

3 Agent Engineer / Mercari BI Product Google Developer Expert
(Google Cloud) Naofumi Yamada @na0fu3y

4 会話を通して利用者のデータ分析を支援。メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活⽤事例で解説。メルカリのデータ分析
AI エージェント Socrates の概要⼈ Socrates BigQuery 権限管理エージェント会話を通じたデータ分析 Python エージェントツール使⽤依頼応答依頼応答応答

5 Socrates の主要機能⾒出し実⾏準備 • 分析要求の理解 / 具体化
• 関連データ / ドキュメントの提案と探索 • 仮説提案 • BigQuery クエリの⽣成 / 実⾏ • Python コードによる⾼度な加⼯ / 分析 / 可視化 • 結果の解釈と洞察の提⽰ • レポート⾃動⽣成⽀援活⽤

6 「AI エージェント＝LLM + Context」を分解して改善する AI エージェント改善のために何ができるかカテゴリ構成要素改善の例
LLM LLM • ⽤途に対する応答品質の⾼いモデルに切り替える Context ツール（今⽇はここ！） • ツールの名前、説明、引数、返り値、エラーを分かりやすくする • ツールの接続する先の説明性を⾼め、汚染度合を下げる Context システムメッセージ • 利⽤者全体で使える知識をまとめる • 階層化して、チーム単位で使える知識をまとめる • エージェントを分離して困難を分割する Context ユーザメッセージ • 利⽤者のプロンプトエンジニアリング⼒を鍛える Context ⻑期記憶 • 知識の選択、圧縮

7 Socrates はデータ分析エージェントであり、データ基盤との対話が重要 Socrates の代表的なツールツールやることデータ検索 • データカタログ
/ 社内ドキュメント / ⻑期記憶から検索 • 各データをランク付けして、おすすめのデータを提案データ定義取得 • テーブル / 列の description、サンプルレコード、サンプルクエリを取得クエリ実⾏ • クエリ実⾏ • ⾼コスト / ⾼リスクなクエリを拒否

8 A. 新⼊社員が使えない状態だから。データ基盤の多くは暗黙知と併せて使うことが前提になっており、知識なしには AI エージェントも上⼿く扱えない。 AI エージェントがなぜデータ基盤をうまく使えないのか？課題具体的な例
コンテキストの⽋如 • 列名だけではビジネス上の意味が不明（例：status = 3 とは？）発⾒の困難さ • 膨⼤なテーブルの中から探すのは困難（例：売上データはどこ？）信頼性の不明瞭さ • どのデータが公式で、どれがテスト⽤か区別がつかない

9 AI エージェントが⾃律的にデータを活⽤できる理想的なデータ基盤の要素 Agent-Ready なデータ基盤とは？要素⽬的と優先順位おすすめの格納場所理解可能性 •
データの意味と使い⽅を正確に理解できる • P1：⼀番⼤事！ • テーブル名 • データセット / プロジェクト名 • BigQuery テーブル / 列 description 発⾒可能性 • ⽬的に対応するデータを⾒つけられる • P2：まあまあ⼤事！ • Vertex AI RAG Engine • システム / ユーザメッセージ • BigQuery Universal Catalog 信頼性 • データの正確性と注意すべき点を伝える • P3：初期リリース後に頑張る • Vertex AI RAG Engine • BigQuery Universal Catalog • BigQuery テーブルラベル / タグ

10 Socrates のためのデータ基盤整備を以下のような順序で実施 Agent-Ready なデータ基盤の実装例 Step 理解可能性発⾒可能性信頼性⽬標とする⽔準
取り組みの例 i. Lv. 1 Lv. 1 Lv. 2 限定範囲内で正しく Basic Tables ii. Lv. 1 Lv. 2 Lv. 1 全域でそこそこ正しく Socratic Data Catalog iii. Lv. 1 Lv. 2 Lv. 2 正しさレベルを管理できるデータ認証制度 iv. Lv. 2 Lv. 3 Lv. 3 多くの範囲内で正しく分析プロンプト調整サイクル

11 i. 理解可能性の実装例：Basic Tables • 新入社員、 AI エージェントから使いやすい高品質データ ◦ 特徴
▪ 理解しやすいビジネスイベントテーブル（ items、users など） ▪ JOIN 不要で、一般的な分析をサポートする One Big Table ▪ CI で強制された徹底的な description ◦ 詳しくはメルカリの効率的なデータ活用を支えるデータインタフェース Basic Tables｜Mercari Analytics Blog • Socrates PoC は Basic Tables に限定し、高い理解可能性を確保

12 ii. 発⾒可能性の実装例：Socratic Data Catalog • BigQuery ML を使って自動生成したデータカタログ ◦
入力データ ▪ テーブルを参照するクエリの大量のサンプル ▪ INFORMATION_SCHEMA.TABLES.DDL ◦ 出力ドキュメント ▪ テーブル概要 ▪ 用途 ▪ サンプルクエリ ▪ 関連テーブル ▪ 注意点 • Socrates の参照可能範囲を全テーブルに拡大し、発見可能性を高める

13 iii. 信頼性の実装例：データ認証制度 • 「Socrates が十分正確に分析できるデータ」に Verified ラベルを付与 ◦ Basic
Tables が Socrates 最初の Verified テーブル ◦ LLM as a Judge による Verified ラベルの自動調整弁も実装可能か • Socrates による Verified ラベル活用 ◦ ラベルのあるデータは優先的に利用 ▪ ラベルがあってもリスクの高い用途では人間レビューを案内 ◦ ラベルのないデータは必要な時のみ、注意喚起付きで利用

14 iv. 理解可能性の実装例：プロンプト調整サイクル • システムプロンプトを分解して階層化 ◦ 共通プロンプト：組織全体で共通する Socrates の振る舞いを規定 ▪
言語設定 ▪ 大まかな仕事内容 ▪ ハルシネーション抑制 ▪ 一般的な用語 / 対応するクエリ ◦ チームプロンプト：チームや個人でよく使うデータの説明を補強 ▪ チーム固有の用語 / 対応するクエリ ▪ チーム固有の仕事内容 ▪ 人格 • よくできているチームプロンプトを見つけたら ◦ 共通プロンプトに集約 ◦ テーブル / 列 description の加筆依頼

15 残された⼈間の役割は...？ • データ基盤改善≒「暗黙知→形式知」の実施 ◦ 各データドメインでデータ品質とメタデータに責任を持つ⼈を任命し、データ利⽤者と開発者、AI の橋渡しを担う • 「暗黙知→形式知」のインセンティブ設計
◦ 「暗黙知→形式知」は組織の Agent-Ready な状態をつくる上で必須 ◦ ⼀⽅で「暗黙知」のままの⽅が個⼈のジョブセキュリティ上は得 • Socrates / AI エージェントがまだできない仕事

16 今⽇のまとめ • データ分析 AI エージェントの品質は、データ基盤の品質に依存 • Agent-Ready なデータ基盤を⽬指しましょう ◦
発⾒可能性＆理解可能性＆信頼性 • Agent-Ready なデータ基盤に向けた取り組みの例 ◦ Basic Tables ◦ Socratic Data Catalog • 成功の鍵は「暗黙知→形式知」 ◦ インセンティブ設計忘れずに！

AI エージェントと考え直すデータ基盤

AI エージェントと考え直すデータ基盤

na0

More Decks by na0

Other Decks in Technology

Featured

Transcript

1 AI エージェントと考え直すデータ基盤 Naofumi Yamada (@na0fu3y) 2025-07-11

2 注意書き • この資料は意図的に⼤量の⽂字で構成されています ◦ Google NotebookLM を使って探索することを想定しています

3 Agent Engineer / Mercari BI Product Google Developer Expert

4 会話を通して利用者のデータ分析を支援。メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活⽤事例で解説。メルカリのデータ分析

5 Socrates の主要機能⾒出し実⾏準備 • 分析要求の理解 / 具体化

6 「AI エージェント＝LLM + Context」を分解して改善する AI エージェント改善のために何ができるかカテゴリ構成要素改善の例

7 Socrates はデータ分析エージェントであり、データ基盤との対話が重要 Socrates の代表的なツールツールやることデータ検索 • データカタログ

9 AI エージェントが⾃律的にデータを活⽤できる理想的なデータ基盤の要素 Agent-Ready なデータ基盤とは？要素⽬的と優先順位おすすめの格納場所理解可能性 •

10 Socrates のためのデータ基盤整備を以下のような順序で実施 Agent-Ready なデータ基盤の実装例 Step 理解可能性発⾒可能性信頼性⽬標とする⽔準

11 i. 理解可能性の実装例：Basic Tables • 新入社員、 AI エージェントから使いやすい高品質データ ◦ 特徴

12 ii. 発⾒可能性の実装例：Socratic Data Catalog • BigQuery ML を使って自動生成したデータカタログ ◦

13 iii. 信頼性の実装例：データ認証制度 • 「Socrates が十分正確に分析できるデータ」に Veriﬁed ラベルを付与 ◦ Basic

14 iv. 理解可能性の実装例：プロンプト調整サイクル • システムプロンプトを分解して階層化 ◦ 共通プロンプト：組織全体で共通する Socrates の振る舞いを規定 ▪

16 今⽇のまとめ • データ分析 AI エージェントの品質は、データ基盤の品質に依存 • Agent-Ready なデータ基盤を⽬指しましょう ◦