Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI エージェントと考え直すデータ基盤

Avatar for na0 na0
July 11, 2025

AI エージェントと考え直すデータ基盤

Avatar for na0

na0

July 11, 2025
Tweet

More Decks by na0

Other Decks in Technology

Transcript

  1. 3 Agent Engineer / Mercari BI Product Google Developer Expert

    (Google Cloud) Naofumi Yamada @na0fu3y
  2. 4 会話を通して利用者のデータ分析を支援。 メルカリにおけるデータアナリティク ス AI エージェント「Socrates」と ADK 活⽤事例 で解説。 メルカリのデータ分析

    AI エージェント Socrates の概要 ⼈ Socrates BigQuery 権限管理 エージェント 会話を通じた データ分析 Python エージェント ツール 使⽤ 依頼 応答 依頼 応答 応答
  3. 5 Socrates の主要機能 ⾒出し 実⾏ 準備 • 分析要求の理解 / 具体化

    • 関連データ / ドキュメント の提案と探索 • 仮説提案 • BigQuery クエリの⽣成 / 実⾏ • Python コードによる⾼度 な加⼯ / 分析 / 可視化 • 結果の解釈と洞察の提⽰ • レポート⾃動⽣成⽀援 活⽤
  4. 6 「AI エージェント=LLM + Context」を分解して改善する AI エージェント改善のために何ができるか カテゴリ 構成要素 改善の例

    LLM LLM • ⽤途に対する応答品質の⾼いモデルに切り替える Context ツール (今⽇はここ!) • ツールの名前、説明、引数、返り値、エラーを分かりやすくする • ツールの接続する先の説明性を⾼め、汚染度合を下げる Context システムメッセージ • 利⽤者全体で使える知識をまとめる • 階層化して、チーム単位で使える知識をまとめる • エージェントを分離して困難を分割する Context ユーザメッセージ • 利⽤者のプロンプトエンジニアリング⼒を鍛える Context ⻑期記憶 • 知識の選択、圧縮
  5. 7 Socrates はデータ分析エージェントであり、データ基盤との対話が重要 Socrates の代表的なツール ツール やること データ検索 • データカタログ

    / 社内ドキュメント / ⻑期記憶から検索 • 各データをランク付けして、おすすめのデータを提案 データ定義取得 • テーブル / 列の description、サンプルレコード、サンプルクエリを取得 クエリ実⾏ • クエリ実⾏ • ⾼コスト / ⾼リスクなクエリを拒否
  6. 8 A. 新⼊社員が使えない状態だから。データ基盤の多くは暗黙知と併せて使うこ とが前提になっており、知識なしには AI エージェントも上⼿く扱えない。 AI エージェントがなぜデータ基盤をうまく使えないのか? 課題 具体的な例

    コンテキストの⽋如 • 列名だけではビジネス上の意味が不明(例:status = 3 とは?) 発⾒の困難さ • 膨⼤なテーブルの中から探すのは困難(例:売上データはどこ?) 信頼性の不明瞭さ • どのデータが公式で、どれがテスト⽤か区別がつかない
  7. 9 AI エージェントが⾃律的にデータを活⽤できる理想的なデータ基盤の要素 Agent-Ready なデータ基盤とは? 要素 ⽬的と優先順位 おすすめの格納場所 理解可能性 •

    データの意味と使い⽅を正確に理解できる • P1:⼀番⼤事! • テーブル名 • データセット / プロジェクト名 • BigQuery テーブル / 列 description 発⾒可能性 • ⽬的に対応するデータを⾒つけられる • P2:まあまあ⼤事! • Vertex AI RAG Engine • システム / ユーザメッセージ • BigQuery Universal Catalog 信頼性 • データの正確性と注意すべき点を伝える • P3:初期リリース後に頑張る • Vertex AI RAG Engine • BigQuery Universal Catalog • BigQuery テーブルラベル / タグ
  8. 10 Socrates のためのデータ基盤整備を以下のような順序で実施 Agent-Ready なデータ基盤の実装例 Step 理解可能性 発⾒可能性 信頼性 ⽬標とする⽔準

    取り組みの例 i. Lv. 1 Lv. 1 Lv. 2 限定範囲内で正しく Basic Tables ii. Lv. 1 Lv. 2 Lv. 1 全域でそこそこ正しく Socratic Data Catalog iii. Lv. 1 Lv. 2 Lv. 2 正しさレベルを管理できる データ認証制度 iv. Lv. 2 Lv. 3 Lv. 3 多くの範囲内で正しく分析 プロンプト調整サイクル
  9. 11 i. 理解可能性の実装例:Basic Tables • 新入社員、 AI エージェントから使いやすい高品質データ ◦ 特徴

    ▪ 理解しやすいビジネスイベントテーブル( items、users など) ▪ JOIN 不要で、一般的な分析をサポートする One Big Table ▪ CI で強制された徹底的な description ◦ 詳しくは メルカリの効率的なデータ活用を支えるデータインタフェース Basic Tables|Mercari Analytics Blog • Socrates PoC は Basic Tables に限定し、高い理解可能性を確保
  10. 12 ii. 発⾒可能性の実装例:Socratic Data Catalog • BigQuery ML を使って自動生成したデータカタログ ◦

    入力データ ▪ テーブルを参照するクエリの大量のサンプル ▪ INFORMATION_SCHEMA.TABLES.DDL ◦ 出力ドキュメント ▪ テーブル概要 ▪ 用途 ▪ サンプルクエリ ▪ 関連テーブル ▪ 注意点 • Socrates の参照可能範囲を全テーブルに拡大し、発見可能性を高める
  11. 13 iii. 信頼性の実装例:データ認証制度 • 「Socrates が十分正確に分析できるデータ」に Verified ラベルを付与 ◦ Basic

    Tables が Socrates 最初の Verified テーブル ◦ LLM as a Judge による Verified ラベルの自動調整弁も実装可能か • Socrates による Verified ラベル活用 ◦ ラベルのあるデータは優先的に利用 ▪ ラベルがあってもリスクの高い用途では人間レビューを案内 ◦ ラベルのないデータは必要な時のみ、注意喚起付きで利用
  12. 14 iv. 理解可能性の実装例:プロンプト調整サイクル • システムプロンプトを分解して階層化 ◦ 共通プロンプト:組織全体で共通する Socrates の振る舞いを規定 ▪

    言語設定 ▪ 大まかな仕事内容 ▪ ハルシネーション抑制 ▪ 一般的な用語 / 対応するクエリ ◦ チームプロンプト:チームや個人でよく使うデータの説明を補強 ▪ チーム固有の用語 / 対応するクエリ ▪ チーム固有の仕事内容 ▪ 人格 • よくできているチームプロンプトを見つけたら ◦ 共通プロンプトに集約 ◦ テーブル / 列 description の加筆依頼
  13. 15 残された⼈間の役割は...? • データ基盤改善≒「暗黙知→形式知」の実施 ◦ 各データドメインでデータ品質とメタデータに責任を持つ⼈を任命 し、データ利⽤者と開発者、AI の橋渡しを担う • 「暗黙知→形式知」のインセンティブ設計

    ◦ 「暗黙知→形式知」は組織の Agent-Ready な状態をつくる上で必須 ◦ ⼀⽅で「暗黙知」のままの⽅が個⼈のジョブセキュリティ上は得 • Socrates / AI エージェントがまだできない仕事
  14. 16 今⽇のまとめ • データ分析 AI エージェントの品質は、データ基盤の品質に依存 • Agent-Ready なデータ基盤を⽬指しましょう ◦

    発⾒可能性&理解可能性&信頼性 • Agent-Ready なデータ基盤に向けた取り組みの例 ◦ Basic Tables ◦ Socratic Data Catalog • 成功の鍵は「暗黙知→形式知」 ◦ インセンティブ設計忘れずに!