Slide 1

Slide 1 text

⽣成AI「その前」に! マルチクラウド時代の信頼できるデータ を⽀えるSnowflakeメタデータ活⽤術 三上 裕貴 データ事業本部 ビジネスソリューション部 イニシアティブチーム

Slide 2

Slide 2 text

2 クラスメソッド株式会社 データ事業本部 ビジネスソリューション部 イニシアティブチーム                  三上 裕貴(みかみ ゆき) 出⾝地:東京 現在:名護市在住 職歴 ● 組み込みエンジニア ● Webエンジニア 業務内容 ● データ分析基盤構築 ● チーム/プロジェクト管理 ● プリセールス ● 採⽤活動 ⾃⼰紹介

Slide 3

Slide 3 text

3 今⽇話すこと/話さないこと 話すこと ● Snowflakeのメタデータ管理機能の紹介 ● セマンティックビューを利⽤したCortex Analystの回答精度 話さないこと ● 環境構築⼿順 ● Snowflake Deep Dive

Slide 4

Slide 4 text

はじめに

Slide 5

Slide 5 text

5 Snowflakeとは?

Slide 6

Slide 6 text

6 パブリッククラウド上のSaaS型データ分析プラットフォーム ● マルチクラスタ共有データアーキテクチャ ● 柔軟なスケーラビリティ ● (ほぼ)ゼロメンテナンス ● 標準SQL対応 ● タイムトラベル機能あり ● セキュアデータ共有 ● 従量課⾦性 ※抜粋:https://docs.snowflake.com/ja/user-guide/intro-key-concepts

Slide 7

Slide 7 text

7 メタデータって、何?

Slide 8

Slide 8 text

8 メタデータ = データに関するデータ データの取扱説明書。 例えば、 ● 本の⽬次 ● 商品のバーコード ● 映画の字幕 ● 写真のExif情報 ● HTMLのタグ

Slide 9

Slide 9 text

9 ⽣成AIとメタデータ、どんな関係があるの?

Slide 10

Slide 10 text

10 メタデータは⽣成AIの精度を左右する要素 料理のレシピのようなもの。 例えば、 「ふーチャンプルーを作りたい!」 ● AI = ⼈ ● データ = 麩、卵、ポーク、にんじん、ニラ ● メタデータ = レシピ

Slide 11

Slide 11 text

Snowflakeのメタデータ管理

Slide 12

Slide 12 text

12 データ品質管理

Slide 13

Slide 13 text

データ品質管理 13 「データ品質」タグ表⽰ ● NULLチェック ● 最⼤/最⼩値チェック ● データの分布

Slide 14

Slide 14 text

データ品質管理 14 DMFs(Data Metric Functions) ● データ品質チェック ● データプロファイリング ● システムDMFs/カスタムDMFs ※抜粋:https://docs.snowflake.com/ja/user-guide/data-quality-system-dmfs

Slide 15

Slide 15 text

データ品質管理 15 カスタムDMFs マスタに存在しない商品 コードがないかチェック

Slide 16

Slide 16 text

データ品質管理 16 品質チェックタスク実装 email⽂字列の正当性 チェック チェック結果(アラート送信)

Slide 17

Slide 17 text

17 データリネージ

Slide 18

Slide 18 text

データリネージ 18 ● データの繋がりを可視化 ● ソースデータがどこにあるかも確認可能 「系列」タブ

Slide 19

Slide 19 text

データリネージ 19 ● どうやって作成されたかも確認できるので、どれが正しいデータか分かる。 例えば:同名テーブルがあって、どちらが正しいデータかわからない。。

Slide 20

Slide 20 text

20 セマンティックレイヤー

Slide 21

Slide 21 text

セマンティックレイヤー 21 ● ビジネス⽤語とデータのマッピング ● データの抽象化レイヤー ● データアクセスの抽象化層 ● ⼈やAIとデータの仲介役 セマンティックレイヤーとは? LookerにおけるLookMLや JavaにおけるDAOのようなもの

Slide 22

Slide 22 text

セマンティックレイヤー 22 セマンティックモデル ● Cortex Analystの精度向上のた めのオブジェクト ● YAMLファイルとしてステージ に保存 セマンティックビュー ● セマンティックモデルの進化系 ● SQLでアクセス可能 ● スキーマレベルオブジェクト ※抜粋:https://docs.snowflake.com/en/user-guide/views-semantic/overview Snowflakeのセマンティックモデル/ビュー

Slide 23

Slide 23 text

セマンティックビュー 23 テーブル状況 ● 顧客、商品、注⽂、注⽂商品テーブル ● データ投⼊済み

Slide 24

Slide 24 text

セマンティックビュー 24 ビュー作成 TABLES 対象テーブル RELATIONSHIPS 外部キー関係 FACTS 分析⽤の事実データ(数値、識別⼦) DIMENSIONS 分析の軸となる属性データ (商品名、注⽂⽇など) METRICS ビジネス指標の計算ロジック

Slide 25

Slide 25 text

セマンティックビュー 25 Cortex Analystから⾃然⾔語で問い合わせ Cortex AnalystのURL作成 「最も多く購⼊している顧客は?」 「最も⼈気のある商品カテゴリは?」

Slide 26

Slide 26 text

セマンティックビュー 26 SQLで答え合わせ 「最も多く購⼊している顧客は?」 →佐藤花⼦:158,500円 「最も⼈気のある商品カテゴリは?」 →ファッション:12個

Slide 27

Slide 27 text

マルチクラウド環境で セマンティックビューを活⽤

Slide 28

Slide 28 text

マルチクラウド×セマンティックビュー 28 テーブル状況 ● AWS S3に顧客マスタ ○ 顧客ID:CUSTOMER_ID ● Google Cloud Storageに売上データ ○ 顧客ID:CLIENT_ID ● Snowflakeで外部テーブル作成

Slide 29

Slide 29 text

29 セマンティックビュー作成&Cortex Analystで問い合わせ 認識してもらえなかった。。 マルチクラウド×セマンティックビュー

Slide 30

Slide 30 text

30 セマンティックビュー修正 マルチクラウド×セマンティックビュー 物理クエリも良さそう。 ※ビューのエイリアスが⽇本語だと、  ⽂字列を計算しようとしてSQLエラー。。

Slide 31

Slide 31 text

31 答え合わせ マルチクラウド×セマンティックビュー → ID 1:153,000(150,000 + 3000)   ID 2:80,000   ID 3:45,000   ID 4:8,000

Slide 32

Slide 32 text

まとめ

Slide 33

Slide 33 text

まとめ 33 ● メタデータ整備は⼤事 ○ データ品質管理、リネージ、セマンティックレイヤーが⽣成AI活⽤に影響 ● ⽣成AIの正確な答えはデータ&メタデータ次第 ○ セマンティックビューでCortex Analystの回答精度が向上 ● Snowflakeのメタデータ管理機能はマルチクラウドに対応 ○ DMFs、データリネージ、セマンティックビュー ○ プレビュー機能や⽇本語精度など、実運⽤への適⽤には注意が必要

Slide 34

Slide 34 text

ちょっと宣伝です。

Slide 35

Slide 35 text

35 Snowflake データ基盤構築⽀援

Slide 36

Slide 36 text

36 データエンジニア募集中!

Slide 37

Slide 37 text

No content