生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタデータ活用術.pdf
by
mikami
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
⽣成AI「その前」に! マルチクラウド時代の信頼できるデータ を⽀えるSnowflakeメタデータ活⽤術 三上 裕貴 データ事業本部 ビジネスソリューション部 イニシアティブチーム
Slide 2
Slide 2 text
2 クラスメソッド株式会社 データ事業本部 ビジネスソリューション部 イニシアティブチーム 三上 裕貴(みかみ ゆき) 出⾝地:東京 現在:名護市在住 職歴 ● 組み込みエンジニア ● Webエンジニア 業務内容 ● データ分析基盤構築 ● チーム/プロジェクト管理 ● プリセールス ● 採⽤活動 ⾃⼰紹介
Slide 3
Slide 3 text
3 今⽇話すこと/話さないこと 話すこと ● Snowflakeのメタデータ管理機能の紹介 ● セマンティックビューを利⽤したCortex Analystの回答精度 話さないこと ● 環境構築⼿順 ● Snowflake Deep Dive
Slide 4
Slide 4 text
はじめに
Slide 5
Slide 5 text
5 Snowflakeとは?
Slide 6
Slide 6 text
6 パブリッククラウド上のSaaS型データ分析プラットフォーム ● マルチクラスタ共有データアーキテクチャ ● 柔軟なスケーラビリティ ● (ほぼ)ゼロメンテナンス ● 標準SQL対応 ● タイムトラベル機能あり ● セキュアデータ共有 ● 従量課⾦性 ※抜粋:https://docs.snowflake.com/ja/user-guide/intro-key-concepts
Slide 7
Slide 7 text
7 メタデータって、何?
Slide 8
Slide 8 text
8 メタデータ = データに関するデータ データの取扱説明書。 例えば、 ● 本の⽬次 ● 商品のバーコード ● 映画の字幕 ● 写真のExif情報 ● HTMLのタグ
Slide 9
Slide 9 text
9 ⽣成AIとメタデータ、どんな関係があるの?
Slide 10
Slide 10 text
10 メタデータは⽣成AIの精度を左右する要素 料理のレシピのようなもの。 例えば、 「ふーチャンプルーを作りたい!」 ● AI = ⼈ ● データ = 麩、卵、ポーク、にんじん、ニラ ● メタデータ = レシピ
Slide 11
Slide 11 text
Snowflakeのメタデータ管理
Slide 12
Slide 12 text
12 データ品質管理
Slide 13
Slide 13 text
データ品質管理 13 「データ品質」タグ表⽰ ● NULLチェック ● 最⼤/最⼩値チェック ● データの分布
Slide 14
Slide 14 text
データ品質管理 14 DMFs(Data Metric Functions) ● データ品質チェック ● データプロファイリング ● システムDMFs/カスタムDMFs ※抜粋:https://docs.snowflake.com/ja/user-guide/data-quality-system-dmfs
Slide 15
Slide 15 text
データ品質管理 15 カスタムDMFs マスタに存在しない商品 コードがないかチェック
Slide 16
Slide 16 text
データ品質管理 16 品質チェックタスク実装 email⽂字列の正当性 チェック チェック結果(アラート送信)
Slide 17
Slide 17 text
17 データリネージ
Slide 18
Slide 18 text
データリネージ 18 ● データの繋がりを可視化 ● ソースデータがどこにあるかも確認可能 「系列」タブ
Slide 19
Slide 19 text
データリネージ 19 ● どうやって作成されたかも確認できるので、どれが正しいデータか分かる。 例えば:同名テーブルがあって、どちらが正しいデータかわからない。。
Slide 20
Slide 20 text
20 セマンティックレイヤー
Slide 21
Slide 21 text
セマンティックレイヤー 21 ● ビジネス⽤語とデータのマッピング ● データの抽象化レイヤー ● データアクセスの抽象化層 ● ⼈やAIとデータの仲介役 セマンティックレイヤーとは? LookerにおけるLookMLや JavaにおけるDAOのようなもの
Slide 22
Slide 22 text
セマンティックレイヤー 22 セマンティックモデル ● Cortex Analystの精度向上のた めのオブジェクト ● YAMLファイルとしてステージ に保存 セマンティックビュー ● セマンティックモデルの進化系 ● SQLでアクセス可能 ● スキーマレベルオブジェクト ※抜粋:https://docs.snowflake.com/en/user-guide/views-semantic/overview Snowflakeのセマンティックモデル/ビュー
Slide 23
Slide 23 text
セマンティックビュー 23 テーブル状況 ● 顧客、商品、注⽂、注⽂商品テーブル ● データ投⼊済み
Slide 24
Slide 24 text
セマンティックビュー 24 ビュー作成 TABLES 対象テーブル RELATIONSHIPS 外部キー関係 FACTS 分析⽤の事実データ(数値、識別⼦) DIMENSIONS 分析の軸となる属性データ (商品名、注⽂⽇など) METRICS ビジネス指標の計算ロジック
Slide 25
Slide 25 text
セマンティックビュー 25 Cortex Analystから⾃然⾔語で問い合わせ Cortex AnalystのURL作成 「最も多く購⼊している顧客は?」 「最も⼈気のある商品カテゴリは?」
Slide 26
Slide 26 text
セマンティックビュー 26 SQLで答え合わせ 「最も多く購⼊している顧客は?」 →佐藤花⼦:158,500円 「最も⼈気のある商品カテゴリは?」 →ファッション:12個
Slide 27
Slide 27 text
マルチクラウド環境で セマンティックビューを活⽤
Slide 28
Slide 28 text
マルチクラウド×セマンティックビュー 28 テーブル状況 ● AWS S3に顧客マスタ ○ 顧客ID:CUSTOMER_ID ● Google Cloud Storageに売上データ ○ 顧客ID:CLIENT_ID ● Snowflakeで外部テーブル作成
Slide 29
Slide 29 text
29 セマンティックビュー作成&Cortex Analystで問い合わせ 認識してもらえなかった。。 マルチクラウド×セマンティックビュー
Slide 30
Slide 30 text
30 セマンティックビュー修正 マルチクラウド×セマンティックビュー 物理クエリも良さそう。 ※ビューのエイリアスが⽇本語だと、 ⽂字列を計算しようとしてSQLエラー。。
Slide 31
Slide 31 text
31 答え合わせ マルチクラウド×セマンティックビュー → ID 1:153,000(150,000 + 3000) ID 2:80,000 ID 3:45,000 ID 4:8,000
Slide 32
Slide 32 text
まとめ
Slide 33
Slide 33 text
まとめ 33 ● メタデータ整備は⼤事 ○ データ品質管理、リネージ、セマンティックレイヤーが⽣成AI活⽤に影響 ● ⽣成AIの正確な答えはデータ&メタデータ次第 ○ セマンティックビューでCortex Analystの回答精度が向上 ● Snowflakeのメタデータ管理機能はマルチクラウドに対応 ○ DMFs、データリネージ、セマンティックビュー ○ プレビュー機能や⽇本語精度など、実運⽤への適⽤には注意が必要
Slide 34
Slide 34 text
ちょっと宣伝です。
Slide 35
Slide 35 text
35 Snowflake データ基盤構築⽀援
Slide 36
Slide 36 text
36 データエンジニア募集中!
Slide 37
Slide 37 text
No content