Slide 1

Slide 1 text

1 AI エージェントと考え直すデータ基盤 Naofumi Yamada (@na0fu3y) 2025-07-11

Slide 2

Slide 2 text

2 注意書き ● この資料は意図的に⼤量の⽂字で構成されています ○ Google NotebookLM を使って探索することを想定しています

Slide 3

Slide 3 text

3 Agent Engineer / Mercari BI Product Google Developer Expert (Google Cloud) Naofumi Yamada @na0fu3y

Slide 4

Slide 4 text

4 会話を通して利用者のデータ分析を支援。 メルカリにおけるデータアナリティク ス AI エージェント「Socrates」と ADK 活⽤事例 で解説。 メルカリのデータ分析 AI エージェント Socrates の概要 ⼈ Socrates BigQuery 権限管理 エージェント 会話を通じた データ分析 Python エージェント ツール 使⽤ 依頼 応答 依頼 応答 応答

Slide 5

Slide 5 text

5 Socrates の主要機能 ⾒出し 実⾏ 準備 ● 分析要求の理解 / 具体化 ● 関連データ / ドキュメント の提案と探索 ● 仮説提案 ● BigQuery クエリの⽣成 / 実⾏ ● Python コードによる⾼度 な加⼯ / 分析 / 可視化 ● 結果の解釈と洞察の提⽰ ● レポート⾃動⽣成⽀援 活⽤

Slide 6

Slide 6 text

6 「AI エージェント=LLM + Context」を分解して改善する AI エージェント改善のために何ができるか カテゴリ 構成要素 改善の例 LLM LLM ● ⽤途に対する応答品質の⾼いモデルに切り替える Context ツール (今⽇はここ!) ● ツールの名前、説明、引数、返り値、エラーを分かりやすくする ● ツールの接続する先の説明性を⾼め、汚染度合を下げる Context システムメッセージ ● 利⽤者全体で使える知識をまとめる ● 階層化して、チーム単位で使える知識をまとめる ● エージェントを分離して困難を分割する Context ユーザメッセージ ● 利⽤者のプロンプトエンジニアリング⼒を鍛える Context ⻑期記憶 ● 知識の選択、圧縮

Slide 7

Slide 7 text

7 Socrates はデータ分析エージェントであり、データ基盤との対話が重要 Socrates の代表的なツール ツール やること データ検索 ● データカタログ / 社内ドキュメント / ⻑期記憶から検索 ● 各データをランク付けして、おすすめのデータを提案 データ定義取得 ● テーブル / 列の description、サンプルレコード、サンプルクエリを取得 クエリ実⾏ ● クエリ実⾏ ● ⾼コスト / ⾼リスクなクエリを拒否

Slide 8

Slide 8 text

8 A. 新⼊社員が使えない状態だから。データ基盤の多くは暗黙知と併せて使うこ とが前提になっており、知識なしには AI エージェントも上⼿く扱えない。 AI エージェントがなぜデータ基盤をうまく使えないのか? 課題 具体的な例 コンテキストの⽋如 ● 列名だけではビジネス上の意味が不明(例:status = 3 とは?) 発⾒の困難さ ● 膨⼤なテーブルの中から探すのは困難(例:売上データはどこ?) 信頼性の不明瞭さ ● どのデータが公式で、どれがテスト⽤か区別がつかない

Slide 9

Slide 9 text

9 AI エージェントが⾃律的にデータを活⽤できる理想的なデータ基盤の要素 Agent-Ready なデータ基盤とは? 要素 ⽬的と優先順位 おすすめの格納場所 理解可能性 ● データの意味と使い⽅を正確に理解できる ● P1:⼀番⼤事! ● テーブル名 ● データセット / プロジェクト名 ● BigQuery テーブル / 列 description 発⾒可能性 ● ⽬的に対応するデータを⾒つけられる ● P2:まあまあ⼤事! ● Vertex AI RAG Engine ● システム / ユーザメッセージ ● BigQuery Universal Catalog 信頼性 ● データの正確性と注意すべき点を伝える ● P3:初期リリース後に頑張る ● Vertex AI RAG Engine ● BigQuery Universal Catalog ● BigQuery テーブルラベル / タグ

Slide 10

Slide 10 text

10 Socrates のためのデータ基盤整備を以下のような順序で実施 Agent-Ready なデータ基盤の実装例 Step 理解可能性 発⾒可能性 信頼性 ⽬標とする⽔準 取り組みの例 i. Lv. 1 Lv. 1 Lv. 2 限定範囲内で正しく Basic Tables ii. Lv. 1 Lv. 2 Lv. 1 全域でそこそこ正しく Socratic Data Catalog iii. Lv. 1 Lv. 2 Lv. 2 正しさレベルを管理できる データ認証制度 iv. Lv. 2 Lv. 3 Lv. 3 多くの範囲内で正しく分析 プロンプト調整サイクル

Slide 11

Slide 11 text

11 i. 理解可能性の実装例:Basic Tables ● 新入社員、 AI エージェントから使いやすい高品質データ ○ 特徴 ■ 理解しやすいビジネスイベントテーブル( items、users など) ■ JOIN 不要で、一般的な分析をサポートする One Big Table ■ CI で強制された徹底的な description ○ 詳しくは メルカリの効率的なデータ活用を支えるデータインタフェース Basic Tables|Mercari Analytics Blog ● Socrates PoC は Basic Tables に限定し、高い理解可能性を確保

Slide 12

Slide 12 text

12 ii. 発⾒可能性の実装例:Socratic Data Catalog ● BigQuery ML を使って自動生成したデータカタログ ○ 入力データ ■ テーブルを参照するクエリの大量のサンプル ■ INFORMATION_SCHEMA.TABLES.DDL ○ 出力ドキュメント ■ テーブル概要 ■ 用途 ■ サンプルクエリ ■ 関連テーブル ■ 注意点 ● Socrates の参照可能範囲を全テーブルに拡大し、発見可能性を高める

Slide 13

Slide 13 text

13 iii. 信頼性の実装例:データ認証制度 ● 「Socrates が十分正確に分析できるデータ」に Verified ラベルを付与 ○ Basic Tables が Socrates 最初の Verified テーブル ○ LLM as a Judge による Verified ラベルの自動調整弁も実装可能か ● Socrates による Verified ラベル活用 ○ ラベルのあるデータは優先的に利用 ■ ラベルがあってもリスクの高い用途では人間レビューを案内 ○ ラベルのないデータは必要な時のみ、注意喚起付きで利用

Slide 14

Slide 14 text

14 iv. 理解可能性の実装例:プロンプト調整サイクル ● システムプロンプトを分解して階層化 ○ 共通プロンプト:組織全体で共通する Socrates の振る舞いを規定 ■ 言語設定 ■ 大まかな仕事内容 ■ ハルシネーション抑制 ■ 一般的な用語 / 対応するクエリ ○ チームプロンプト:チームや個人でよく使うデータの説明を補強 ■ チーム固有の用語 / 対応するクエリ ■ チーム固有の仕事内容 ■ 人格 ● よくできているチームプロンプトを見つけたら ○ 共通プロンプトに集約 ○ テーブル / 列 description の加筆依頼

Slide 15

Slide 15 text

15 残された⼈間の役割は...? ● データ基盤改善≒「暗黙知→形式知」の実施 ○ 各データドメインでデータ品質とメタデータに責任を持つ⼈を任命 し、データ利⽤者と開発者、AI の橋渡しを担う ● 「暗黙知→形式知」のインセンティブ設計 ○ 「暗黙知→形式知」は組織の Agent-Ready な状態をつくる上で必須 ○ ⼀⽅で「暗黙知」のままの⽅が個⼈のジョブセキュリティ上は得 ● Socrates / AI エージェントがまだできない仕事

Slide 16

Slide 16 text

16 今⽇のまとめ ● データ分析 AI エージェントの品質は、データ基盤の品質に依存 ● Agent-Ready なデータ基盤を⽬指しましょう ○ 発⾒可能性&理解可能性&信頼性 ● Agent-Ready なデータ基盤に向けた取り組みの例 ○ Basic Tables ○ Socratic Data Catalog ● 成功の鍵は「暗黙知→形式知」 ○ インセンティブ設計忘れずに!