Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタ...
Search
mikami
September 30, 2025
Technology
0
36
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタデータ活用術.pdf
mikami
September 30, 2025
Tweet
Share
More Decks by mikami
See All by mikami
クロスクラウドデータ管理の未来:BigLakeで実現するAWS S3とBigQueryのデータ統合戦略/cross-cloud-biglake-s3-strategy-20240712
cm_mikami
0
580
Other Decks in Technology
See All in Technology
今改めてServiceクラスについて考える 〜あるRails開発者の10年〜
joker1007
17
7.8k
Oracle Cloud Infrastructure:2025年9月度サービス・アップデート
oracle4engineer
PRO
0
160
Geospatialの世界最前線を探る [2025年版]
dayjournal
2
400
「技術負債にならない・間違えない」 権限管理の設計と実装
naro143
30
8.3k
analysis パッケージの仕組みの上でMulti linter with configを実現する / Go Conference 2025
k1low
1
190
Tomorrow graphlib, Let us use everybody
hayaosuzuki
0
120
品質の民主化 〜QAがいなくてもQAできるチームを目指して〜
masamiyajiri
1
320
Beyond Multiprocessing: A Real-World ML Workload Speedup with Python 3.13+ Free-Threading
kitsuya0828
0
210
ZennとCloud Runの歩み - プロダクト開発に全集中できる相棒になるまで
wadayusuke
5
580
最近話題のForward Deployed EngineerとPalantirについて調べてみた / Recently popular topics: Forward Deployed Engineer and Palantir
jumtech
0
130
AIが書いたコードをAIが検証する!自律的なモバイルアプリ開発の実現
henteko
1
140
kaigi_on_rails_2025_設計.pdf
nay3
7
2.9k
Featured
See All Featured
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
Large-scale JavaScript Application Architecture
addyosmani
513
110k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Done Done
chrislema
185
16k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
A Modern Web Designer's Workflow
chriscoyier
697
190k
The Language of Interfaces
destraynor
162
25k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.6k
The Power of CSS Pseudo Elements
geoffreycrofte
78
6k
Bash Introduction
62gerente
615
210k
Facilitating Awesome Meetings
lara
56
6.5k
Transcript
⽣成AI「その前」に! マルチクラウド時代の信頼できるデータ を⽀えるSnowflakeメタデータ活⽤術 三上 裕貴 データ事業本部 ビジネスソリューション部 イニシアティブチーム
2 クラスメソッド株式会社 データ事業本部 ビジネスソリューション部 イニシアティブチーム 三上 裕貴(みかみ ゆき) 出⾝地:東京 現在:名護市在住 職歴
• 組み込みエンジニア • Webエンジニア 業務内容 • データ分析基盤構築 • チーム/プロジェクト管理 • プリセールス • 採⽤活動 ⾃⼰紹介
3 今⽇話すこと/話さないこと 話すこと • Snowflakeのメタデータ管理機能の紹介 • セマンティックビューを利⽤したCortex Analystの回答精度 話さないこと •
環境構築⼿順 • Snowflake Deep Dive
はじめに
5 Snowflakeとは?
6 パブリッククラウド上のSaaS型データ分析プラットフォーム • マルチクラスタ共有データアーキテクチャ • 柔軟なスケーラビリティ • (ほぼ)ゼロメンテナンス • 標準SQL対応
• タイムトラベル機能あり • セキュアデータ共有 • 従量課⾦性 ※抜粋:https://docs.snowflake.com/ja/user-guide/intro-key-concepts
7 メタデータって、何?
8 メタデータ = データに関するデータ データの取扱説明書。 例えば、 • 本の⽬次 • 商品のバーコード
• 映画の字幕 • 写真のExif情報 • HTMLの<head>タグ
9 ⽣成AIとメタデータ、どんな関係があるの?
10 メタデータは⽣成AIの精度を左右する要素 料理のレシピのようなもの。 例えば、 「ふーチャンプルーを作りたい!」 • AI = ⼈ •
データ = 麩、卵、ポーク、にんじん、ニラ • メタデータ = レシピ
Snowflakeのメタデータ管理
12 データ品質管理
データ品質管理 13 「データ品質」タグ表⽰ • NULLチェック • 最⼤/最⼩値チェック • データの分布
データ品質管理 14 DMFs(Data Metric Functions) • データ品質チェック • データプロファイリング •
システムDMFs/カスタムDMFs ※抜粋:https://docs.snowflake.com/ja/user-guide/data-quality-system-dmfs
データ品質管理 15 カスタムDMFs マスタに存在しない商品 コードがないかチェック
データ品質管理 16 品質チェックタスク実装 email⽂字列の正当性 チェック チェック結果(アラート送信)
17 データリネージ
データリネージ 18 • データの繋がりを可視化 • ソースデータがどこにあるかも確認可能 「系列」タブ
データリネージ 19 • どうやって作成されたかも確認できるので、どれが正しいデータか分かる。 例えば:同名テーブルがあって、どちらが正しいデータかわからない。。
20 セマンティックレイヤー
セマンティックレイヤー 21 • ビジネス⽤語とデータのマッピング • データの抽象化レイヤー • データアクセスの抽象化層 • ⼈やAIとデータの仲介役
セマンティックレイヤーとは? LookerにおけるLookMLや JavaにおけるDAOのようなもの
セマンティックレイヤー 22 セマンティックモデル • Cortex Analystの精度向上のた めのオブジェクト • YAMLファイルとしてステージ に保存
セマンティックビュー • セマンティックモデルの進化系 • SQLでアクセス可能 • スキーマレベルオブジェクト ※抜粋:https://docs.snowflake.com/en/user-guide/views-semantic/overview Snowflakeのセマンティックモデル/ビュー
セマンティックビュー 23 テーブル状況 • 顧客、商品、注⽂、注⽂商品テーブル • データ投⼊済み
セマンティックビュー 24 ビュー作成 TABLES 対象テーブル RELATIONSHIPS 外部キー関係 FACTS 分析⽤の事実データ(数値、識別⼦) DIMENSIONS
分析の軸となる属性データ (商品名、注⽂⽇など) METRICS ビジネス指標の計算ロジック
セマンティックビュー 25 Cortex Analystから⾃然⾔語で問い合わせ Cortex AnalystのURL作成 「最も多く購⼊している顧客は?」 「最も⼈気のある商品カテゴリは?」
セマンティックビュー 26 SQLで答え合わせ 「最も多く購⼊している顧客は?」 →佐藤花⼦:158,500円 「最も⼈気のある商品カテゴリは?」 →ファッション:12個
マルチクラウド環境で セマンティックビューを活⽤
マルチクラウド×セマンティックビュー 28 テーブル状況 • AWS S3に顧客マスタ ◦ 顧客ID:CUSTOMER_ID • Google
Cloud Storageに売上データ ◦ 顧客ID:CLIENT_ID • Snowflakeで外部テーブル作成
29 セマンティックビュー作成&Cortex Analystで問い合わせ 認識してもらえなかった。。 マルチクラウド×セマンティックビュー
30 セマンティックビュー修正 マルチクラウド×セマンティックビュー 物理クエリも良さそう。 ※ビューのエイリアスが⽇本語だと、 ⽂字列を計算しようとしてSQLエラー。。
31 答え合わせ マルチクラウド×セマンティックビュー → ID 1:153,000(150,000 + 3000) ID 2:80,000 ID
3:45,000 ID 4:8,000
まとめ
まとめ 33 • メタデータ整備は⼤事 ◦ データ品質管理、リネージ、セマンティックレイヤーが⽣成AI活⽤に影響 • ⽣成AIの正確な答えはデータ&メタデータ次第 ◦ セマンティックビューでCortex
Analystの回答精度が向上 • Snowflakeのメタデータ管理機能はマルチクラウドに対応 ◦ DMFs、データリネージ、セマンティックビュー ◦ プレビュー機能や⽇本語精度など、実運⽤への適⽤には注意が必要
ちょっと宣伝です。
35 Snowflake データ基盤構築⽀援
36 データエンジニア募集中!
None