Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタ...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
mikami
September 30, 2025
Technology
290
0
Share
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタデータ活用術.pdf
mikami
September 30, 2025
More Decks by mikami
See All by mikami
クロスクラウドデータ管理の未来:BigLakeで実現するAWS S3とBigQueryのデータ統合戦略/cross-cloud-biglake-s3-strategy-20240712
cm_mikami
0
750
Other Decks in Technology
See All in Technology
AsyncStreamでマルチブロードキャストを実装する
1mash0
1
170
アプリブロック機能のつくりかたと、AIとHTMLの不合理な相性の良さについて
kumamotone
1
260
freeeで運用しているAIQAについて
qatonchan
1
650
そのSLO 99.9%、本当に必要ですか? 〜優先度付きSLOによる責任共有の設計思想〜 / Is that 99.9% SLO really necessary? Design philosophy of shared responsibility through prioritized SLOs
vtryo
0
850
生成AI時代に信頼性をどう保ち続けるか - Policy as Code の実践
akitok_
1
510
既存プロダクトQAから新規プロダクトQAへ
ryotakahashi
0
160
Terragrunt x Snowflake + dbt で作るマルチテナントなデータ基盤構築プラットフォーム
gak_t12
0
500
オライリーイベント登壇資料「鉄リサイクル・産廃業界におけるAI技術実応用のカタチ」
takarasawa_
0
420
JTCでRedmine利用者2700人を実現した手法 第二部
nobuonakamura
0
140
Pythonでベイズモデリング
soogie
0
120
Swift Sequence の便利 API 再発見
treastrain
1
290
コーディングエージェントはTypeScriptの 型エラーをどう自己修正しているのか
melonps
2
190
Featured
See All Featured
How GitHub (no longer) Works
holman
316
150k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
10k
Optimizing for Happiness
mojombo
378
71k
Rails Girls Zürich Keynote
gr2m
96
14k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
130
It's Worth the Effort
3n
188
29k
Being A Developer After 40
akosma
91
590k
Prompt Engineering for Job Search
mfonobong
0
300
Scaling GitHub
holman
464
140k
Music & Morning Musume
bryan
47
7.2k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
340
Transcript
⽣成AI「その前」に! マルチクラウド時代の信頼できるデータ を⽀えるSnowflakeメタデータ活⽤術 三上 裕貴 データ事業本部 ビジネスソリューション部 イニシアティブチーム
2 クラスメソッド株式会社 データ事業本部 ビジネスソリューション部 イニシアティブチーム 三上 裕貴(みかみ ゆき) 出⾝地:東京 現在:名護市在住 職歴
• 組み込みエンジニア • Webエンジニア 業務内容 • データ分析基盤構築 • チーム/プロジェクト管理 • プリセールス • 採⽤活動 ⾃⼰紹介
3 今⽇話すこと/話さないこと 話すこと • Snowflakeのメタデータ管理機能の紹介 • セマンティックビューを利⽤したCortex Analystの回答精度 話さないこと •
環境構築⼿順 • Snowflake Deep Dive
はじめに
5 Snowflakeとは?
6 パブリッククラウド上のSaaS型データ分析プラットフォーム • マルチクラスタ共有データアーキテクチャ • 柔軟なスケーラビリティ • (ほぼ)ゼロメンテナンス • 標準SQL対応
• タイムトラベル機能あり • セキュアデータ共有 • 従量課⾦性 ※抜粋:https://docs.snowflake.com/ja/user-guide/intro-key-concepts
7 メタデータって、何?
8 メタデータ = データに関するデータ データの取扱説明書。 例えば、 • 本の⽬次 • 商品のバーコード
• 映画の字幕 • 写真のExif情報 • HTMLの<head>タグ
9 ⽣成AIとメタデータ、どんな関係があるの?
10 メタデータは⽣成AIの精度を左右する要素 料理のレシピのようなもの。 例えば、 「ふーチャンプルーを作りたい!」 • AI = ⼈ •
データ = 麩、卵、ポーク、にんじん、ニラ • メタデータ = レシピ
Snowflakeのメタデータ管理
12 データ品質管理
データ品質管理 13 「データ品質」タグ表⽰ • NULLチェック • 最⼤/最⼩値チェック • データの分布
データ品質管理 14 DMFs(Data Metric Functions) • データ品質チェック • データプロファイリング •
システムDMFs/カスタムDMFs ※抜粋:https://docs.snowflake.com/ja/user-guide/data-quality-system-dmfs
データ品質管理 15 カスタムDMFs マスタに存在しない商品 コードがないかチェック
データ品質管理 16 品質チェックタスク実装 email⽂字列の正当性 チェック チェック結果(アラート送信)
17 データリネージ
データリネージ 18 • データの繋がりを可視化 • ソースデータがどこにあるかも確認可能 「系列」タブ
データリネージ 19 • どうやって作成されたかも確認できるので、どれが正しいデータか分かる。 例えば:同名テーブルがあって、どちらが正しいデータかわからない。。
20 セマンティックレイヤー
セマンティックレイヤー 21 • ビジネス⽤語とデータのマッピング • データの抽象化レイヤー • データアクセスの抽象化層 • ⼈やAIとデータの仲介役
セマンティックレイヤーとは? LookerにおけるLookMLや JavaにおけるDAOのようなもの
セマンティックレイヤー 22 セマンティックモデル • Cortex Analystの精度向上のた めのオブジェクト • YAMLファイルとしてステージ に保存
セマンティックビュー • セマンティックモデルの進化系 • SQLでアクセス可能 • スキーマレベルオブジェクト ※抜粋:https://docs.snowflake.com/en/user-guide/views-semantic/overview Snowflakeのセマンティックモデル/ビュー
セマンティックビュー 23 テーブル状況 • 顧客、商品、注⽂、注⽂商品テーブル • データ投⼊済み
セマンティックビュー 24 ビュー作成 TABLES 対象テーブル RELATIONSHIPS 外部キー関係 FACTS 分析⽤の事実データ(数値、識別⼦) DIMENSIONS
分析の軸となる属性データ (商品名、注⽂⽇など) METRICS ビジネス指標の計算ロジック
セマンティックビュー 25 Cortex Analystから⾃然⾔語で問い合わせ Cortex AnalystのURL作成 「最も多く購⼊している顧客は?」 「最も⼈気のある商品カテゴリは?」
セマンティックビュー 26 SQLで答え合わせ 「最も多く購⼊している顧客は?」 →佐藤花⼦:158,500円 「最も⼈気のある商品カテゴリは?」 →ファッション:12個
マルチクラウド環境で セマンティックビューを活⽤
マルチクラウド×セマンティックビュー 28 テーブル状況 • AWS S3に顧客マスタ ◦ 顧客ID:CUSTOMER_ID • Google
Cloud Storageに売上データ ◦ 顧客ID:CLIENT_ID • Snowflakeで外部テーブル作成
29 セマンティックビュー作成&Cortex Analystで問い合わせ 認識してもらえなかった。。 マルチクラウド×セマンティックビュー
30 セマンティックビュー修正 マルチクラウド×セマンティックビュー 物理クエリも良さそう。 ※ビューのエイリアスが⽇本語だと、 ⽂字列を計算しようとしてSQLエラー。。
31 答え合わせ マルチクラウド×セマンティックビュー → ID 1:153,000(150,000 + 3000) ID 2:80,000 ID
3:45,000 ID 4:8,000
まとめ
まとめ 33 • メタデータ整備は⼤事 ◦ データ品質管理、リネージ、セマンティックレイヤーが⽣成AI活⽤に影響 • ⽣成AIの正確な答えはデータ&メタデータ次第 ◦ セマンティックビューでCortex
Analystの回答精度が向上 • Snowflakeのメタデータ管理機能はマルチクラウドに対応 ◦ DMFs、データリネージ、セマンティックビュー ◦ プレビュー機能や⽇本語精度など、実運⽤への適⽤には注意が必要
ちょっと宣伝です。
35 Snowflake データ基盤構築⽀援
36 データエンジニア募集中!
None