生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタデータ活用術.pdf
by
mikami
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
⽣成AI「その前」に! マルチクラウド時代の信頼できるデータ を⽀えるSnowflakeメタデータ活⽤術 三上 裕貴 データ事業本部 ビジネスソリューション部 イニシアティブチーム
Slide 2
Slide 2 text
2 クラスメソッド株式会社 データ事業本部 ビジネスソリューション部 イニシアティブチーム 三上 裕貴(みかみ ゆき) 出⾝地:東京 現在:名護市在住 職歴 ● 組み込みエンジニア ● Webエンジニア 業務内容 ● データ分析基盤構築 ● チーム/プロジェクト管理 ● プリセールス ● 採⽤活動 ⾃⼰紹介
Slide 3
Slide 3 text
3 今⽇話すこと/話さないこと 話すこと ● Snowflakeのメタデータ管理機能の紹介 ● セマンティックビューを利⽤したCortex Analystの回答精度 話さないこと ● 環境構築⼿順 ● Snowflake Deep Dive
Slide 4
Slide 4 text
はじめに
Slide 5
Slide 5 text
5 Snowflakeとは?
Slide 6
Slide 6 text
6 パブリッククラウド上のSaaS型データ分析プラットフォーム ● マルチクラスタ共有データアーキテクチャ ● 柔軟なスケーラビリティ ● (ほぼ)ゼロメンテナンス ● 標準SQL対応 ● タイムトラベル機能あり ● セキュアデータ共有 ● 従量課⾦性 ※抜粋:https://docs.snowflake.com/ja/user-guide/intro-key-concepts
Slide 7
Slide 7 text
7 メタデータって、何?
Slide 8
Slide 8 text
8 メタデータ = データに関するデータ データの取扱説明書。 例えば、 ● 本の⽬次 ● 商品のバーコード ● 映画の字幕 ● 写真のExif情報 ● HTMLのタグ
Slide 9
Slide 9 text
9 ⽣成AIとメタデータ、どんな関係があるの?
Slide 10
Slide 10 text
10 メタデータは⽣成AIの精度を左右する要素 料理のレシピのようなもの。 例えば、 「ふーチャンプルーを作りたい!」 ● AI = ⼈ ● データ = 麩、卵、ポーク、にんじん、ニラ ● メタデータ = レシピ
Slide 11
Slide 11 text
Snowflakeのメタデータ管理
Slide 12
Slide 12 text
12 データ品質管理
Slide 13
Slide 13 text
データ品質管理 13 「データ品質」タグ表⽰ ● NULLチェック ● 最⼤/最⼩値チェック ● データの分布
Slide 14
Slide 14 text
データ品質管理 14 DMFs(Data Metric Functions) ● データ品質チェック ● データプロファイリング ● システムDMFs/カスタムDMFs ※抜粋:https://docs.snowflake.com/ja/user-guide/data-quality-system-dmfs
Slide 15
Slide 15 text
データ品質管理 15 カスタムDMFs マスタに存在しない商品 コードがないかチェック
Slide 16
Slide 16 text
データ品質管理 16 品質チェックタスク実装 email⽂字列の正当性 チェック チェック結果(アラート送信)
Slide 17
Slide 17 text
17 データリネージ
Slide 18
Slide 18 text
データリネージ 18 ● データの繋がりを可視化 ● ソースデータがどこにあるかも確認可能 「系列」タブ
Slide 19
Slide 19 text
データリネージ 19 ● どうやって作成されたかも確認できるので、どれが正しいデータか分かる。 例えば:同名テーブルがあって、どちらが正しいデータかわからない。。
Slide 20
Slide 20 text
20 セマンティックレイヤー
Slide 21
Slide 21 text
セマンティックレイヤー 21 ● ビジネス⽤語とデータのマッピング ● データの抽象化レイヤー ● データアクセスの抽象化層 ● ⼈やAIとデータの仲介役 セマンティックレイヤーとは? LookerにおけるLookMLや JavaにおけるDAOのようなもの
Slide 22
Slide 22 text
セマンティックレイヤー 22 セマンティックモデル ● Cortex Analystの精度向上のた めのオブジェクト ● YAMLファイルとしてステージ に保存 セマンティックビュー ● セマンティックモデルの進化系 ● SQLでアクセス可能 ● スキーマレベルオブジェクト ※抜粋:https://docs.snowflake.com/en/user-guide/views-semantic/overview Snowflakeのセマンティックモデル/ビュー
Slide 23
Slide 23 text
セマンティックビュー 23 テーブル状況 ● 顧客、商品、注⽂、注⽂商品テーブル ● データ投⼊済み
Slide 24
Slide 24 text
セマンティックビュー 24 ビュー作成 TABLES 対象テーブル RELATIONSHIPS 外部キー関係 FACTS 分析⽤の事実データ(数値、識別⼦) DIMENSIONS 分析の軸となる属性データ (商品名、注⽂⽇など) METRICS ビジネス指標の計算ロジック
Slide 25
Slide 25 text
セマンティックビュー 25 Cortex Analystから⾃然⾔語で問い合わせ Cortex AnalystのURL作成 「最も多く購⼊している顧客は?」 「最も⼈気のある商品カテゴリは?」
Slide 26
Slide 26 text
セマンティックビュー 26 SQLで答え合わせ 「最も多く購⼊している顧客は?」 →佐藤花⼦:158,500円 「最も⼈気のある商品カテゴリは?」 →ファッション:12個
Slide 27
Slide 27 text
マルチクラウド環境で セマンティックビューを活⽤
Slide 28
Slide 28 text
マルチクラウド×セマンティックビュー 28 テーブル状況 ● AWS S3に顧客マスタ ○ 顧客ID:CUSTOMER_ID ● Google Cloud Storageに売上データ ○ 顧客ID:CLIENT_ID ● Snowflakeで外部テーブル作成
Slide 29
Slide 29 text
29 セマンティックビュー作成&Cortex Analystで問い合わせ 認識してもらえなかった。。 マルチクラウド×セマンティックビュー
Slide 30
Slide 30 text
30 セマンティックビュー修正 マルチクラウド×セマンティックビュー 物理クエリも良さそう。 ※ビューのエイリアスが⽇本語だと、 ⽂字列を計算しようとしてSQLエラー。。
Slide 31
Slide 31 text
31 答え合わせ マルチクラウド×セマンティックビュー → ID 1:153,000(150,000 + 3000) ID 2:80,000 ID 3:45,000 ID 4:8,000
Slide 32
Slide 32 text
まとめ
Slide 33
Slide 33 text
まとめ 33 ● メタデータ整備は⼤事 ○ データ品質管理、リネージ、セマンティックレイヤーが⽣成AI活⽤に影響 ● ⽣成AIの正確な答えはデータ&メタデータ次第 ○ セマンティックビューでCortex Analystの回答精度が向上 ● Snowflakeのメタデータ管理機能はマルチクラウドに対応 ○ DMFs、データリネージ、セマンティックビュー ○ プレビュー機能や⽇本語精度など、実運⽤への適⽤には注意が必要
Slide 34
Slide 34 text
ちょっと宣伝です。
Slide 35
Slide 35 text
35 Snowflake データ基盤構築⽀援
Slide 36
Slide 36 text
36 データエンジニア募集中!
Slide 37
Slide 37 text
No content