Slide 1

Slide 1 text

©HR Force Inc. All rights reserved. 1

Slide 2

Slide 2 text

©HR Force Inc. All rights reserved. Snowflake だけで実現する “⾃⽴的データ品質管理”      ~Data Quality Monitoring 解説 ~ 2025/12/17(⽔) @ Snowflake BUILD Meetup 2025 株式会社HR Force DS統括部DXグループDataチーム, Opsチーム マネージャー 鈴⽊ 凌

Slide 3

Slide 3 text

©HR Force Inc. All rights reserved. 3 Snowsight の Data Quality タブ を⾒たことはありますか? →当⽇の挙⼿者、1割未満

Slide 4

Slide 4 text

©HR Force Inc. All rights reserved. 4 Snowsight の Data Quality タブ ↓

Slide 5

Slide 5 text

©HR Force Inc. All rights reserved. 5 Snowflake で Data Quality Monitoring を既に利⽤されている⽅はいますか? →当⽇の挙⼿者、なし

Slide 6

Slide 6 text

CONTENTS ©HR Force Inc. All rights reserved. - 本⽇の内容 - 6 1 2 3 4 登壇者について Data Quality Monitoring の概要 ネイティブ機能の優位性 まとめ 5 Appendix

Slide 7

Slide 7 text

©HR Force Inc. All rights reserved. 01.登壇者について 7

Slide 8

Slide 8 text

©HR Force Inc. All rights reserved. 登壇者について 8 鈴⽊ 凌 (すずき) / @suzupappa - 株式会社HR Force - Dataチーム, Opsチーム マネージャー データで事業を推進するお仕事 - データエンジニア - BizOps (Salesforce, Tableauアドミン) コミュニティ活動 - SnowVillage: “Snowflake Mayors, Snowflake Squad 2024/2025” - p_UG: “pUG Leaders, primeNumber DATA CHAMPIONS 2025” ⾃⼰紹介

Slide 9

Slide 9 text

©HR Force Inc. All rights reserved. 登壇者について 9 会社概要 株式会社HR Force 会社名 事業内容 代表者 設⽴ HRソリューション事業 村⽥泰⼦ 2018年2⽉(創業8年⽬) 所在地 東京都中央区⼋重洲2-2-1  東京ミッドタウン⼋重洲 ⼋重洲セントラルタワー35階

Slide 10

Slide 10 text

©HR Force Inc. All rights reserved. 2015 2025 登壇者について 10 2015 事業発⾜ 2016 2017 2018 2019 2025 2024 2023 現在 会社設⽴ 船井総研部署内 でIndeed広告代 理店事業を発⾜ 求⼈サイト& 配信システム 「採⽤GO」 ローンチ Indeed ゴールドパート ナー認定 株式会社 HR Force 設⽴ 浜松町オフィス 移転 採⽤データ⼀元 管理サービス 「Azapt」 ローンチ 東京駅直結、 東京ミッドタウ ン⼋重洲に オフィスを移転 Recruiting Cloud 導⼊社数8,000社 突破 採⽤マーケティング ツール 「Recruiting Cloud」 ローンチ ⼈事の成⻑志向型コミュニティ 「リクルーティングクラブ」 ローンチ 沿⾰

Slide 11

Slide 11 text

©HR Force Inc. All rights reserved. 02.Data Quality Monitoring の概要 11

Slide 12

Slide 12 text

©HR Force Inc. All rights reserved. Data Quality Monitoring の概要 12 Data Quality Monitoring - 各種データを数値化(指標化)し、その変化や状態を継続的に監視‧分析することで、異常の 早期発⾒や品質‧パフォーマンスの維持‧向上を図る ”活動” のこと - データそのものの品質(重複、⽋損など)をチェックすること - データドリブンな意思決定を⽀えるために不可⽋な概念 Snowflake による Data Quality Monitoring 機能の提供 - 基本的なデータ品質監視機能(システムData Metric Functions、サーバーレス実⾏モデル) は、2024年3⽉に⼀般提供 (GA) - (本⽇時点)異常の⾃動検知や、Snowsight の Data Qualityタブはプレビュー (PuPr) Data Quality Monitoring と Snowflake March 29, 2024 — Data Quality Monitoring Release Notes Sep 09, 2025: Using Snowsight to monitor data quality (Preview) 9.36 Release Notes: Nov 10, 2025-Nov 16, 2025

Slide 13

Slide 13 text

©HR Force Inc. All rights reserved. Data Quality Monitoring の概要 13 ほとんどの形式をカバーしている Data Metric Functionsでサポートされるテーブルの種類  利⽤不可 - Hybrid table - Stream object  利⽤可能 - Dynamic table - Event table - External table - Apache Iceberg™ table - Materialized view - Table (including temporary and transient tables) - View Introduction to data quality and data metric functions

Slide 14

Slide 14 text

©HR Force Inc. All rights reserved. Data Quality Monitoring の概要 14 - 指標は「データメトリック関数(Data Metric Functions: DMF)」に定義 - 「システムDMF」と「ユーザー定義(カスタム)DMF」に分かれる - DMFは、ユーザーが普段使っている通常のウェアハウスとは異なるサーバーレス コンピュートモデル内で動作し、リソースの競合なし - 場合によってはコストが安くなることも...! Snowflake Data Quality Monitoring のコアアーキテクチャ

Slide 15

Slide 15 text

©HR Force Inc. All rights reserved. Data Quality Monitoring の概要 15 - ロジックがSnowflakeによって保守/最適化されるため、開発/保守の負担が⼤幅軽減 - マイクロパーティションアーキテクチャに対して最適化 例)ROW_COUNTは可能な限りフルテーブルスキャンを避け、メタデータ統計を活⽤ データメトリック関数:システムDMF System data metric functions

Slide 16

Slide 16 text

©HR Force Inc. All rights reserved. Data Quality Monitoring の概要 16 - ユーザー⾃⾝が作成できるため、ドメイン固有のビジネスロジックに対応可能 - テーブルを引数として受け取ることができ、テーブル間の参照整合性チェックや 正規表現パターン検証などの複雑なロジックを実⾏可能 例)参照整合性チェック orders テーブル内のすべての customer_id が customers テーブルに存在するか データメトリック関数:カスタムDMF Custom data metric functions

Slide 17

Slide 17 text

©HR Force Inc. All rights reserved. Data Quality Monitoring の概要 17 - 関連付け: - ALTER TABLE... ADD DATA METRIC FUNCTION構⽂を使⽤して、DMFを設定 - スケジューリング: - データがDMLによって変更されたときに⾃動的に実⾏される「トリガーベース」と、 定期的に実⾏される「時間ベース」の2種類 - 実⾏: - サーバーレスコンピュートリソースを使⽤してDMFを実⾏ - 品質チェックがBIクエリやETLジョブと仮想ウェアハウスのリソースを奪い合わない - 結果の保存: - SNOWFLAKE.ACCOUNT_USAGE.DATA_QUALITY_MONITORING_RESULTS に保存 - アラート: - 定義された閾値(Expectation)を違反した場合に通知(メール、Slack、PagerDuty等) DQMの運⽤サイクル

Slide 18

Slide 18 text

©HR Force Inc. All rights reserved. 03.ネイティブ機能の優位性 18

Slide 19

Slide 19 text

©HR Force Inc. All rights reserved. ネイティブ機能の優位性 19 - データが存在する場所で「何が良いデータか」を定義できるようになる - 外部ツールの利⽤や導⼊なしにデータ品質管理ができるようになる - データの抽出や外部プラットフォームへの移動がない分、コストとセキュリティリスクを最⼩ 限に抑えることが可能に Snowflake ネイティブ機能として Data Quality Monitoring ができる意義

Slide 20

Slide 20 text

©HR Force Inc. All rights reserved. ネイティブ機能の優位性 20 - 基本的なプロファイリング情報は設定なしで確認可能 - DMFを設定すると、設定指標の結果を時系列で可視化 - トレンドラインを確認できるため、緩やかな劣化も検知可能 Snowsight 統合により、データ品質へのアクセスの⺠主化を実現 Getting Started with Data Quality Monitoring in Snowflake

Slide 21

Slide 21 text

©HR Force Inc. All rights reserved. ネイティブ機能の優位性 21 - Streamlit でデータ品質管理アプリを作成すると、すべてノーコードで設定可能 - 設定インタフェース + 可視化ダッシュボード - 「Data Quality Manager」Snowflake-Labs が GitHub でコードを公開している - Ensure data integrity with the Data Quality Manager - sfguide-getting-started-with-data-quality-manager Streamlit 拡張性により、データ品質管理の⺠主化を実現 Application Framework: Getting started with the Data Quality Manager

Slide 22

Slide 22 text

©HR Force Inc. All rights reserved. 04.まとめ 22

Slide 23

Slide 23 text

©HR Force Inc. All rights reserved. まとめ 23 - データ品質管理をSnowflake 内で定義し、定常的な観測を実現 - データの移動や別のツールの導⼊なし - ユーザーが⾃律的にデータ品質管理する状態を実現 - Snowsight への統合により「データ品質へのアクセスの⺠主化」 - Streamlit との連携により「データ品質管理の⺠主化」 - Snowflake が⾃律的にデータ品質管理する状態が実現 !? - プレビュー中の AI 駆動の異常検知により、ユーザーの⼿を借りずに⾃律的な品質管理 Data Quality Monitoring により、Snowflake だけで “⾃⽴的データ品質管理” が実現

Slide 24

Slide 24 text

©HR Force Inc. All rights reserved. まとめ 24 - ログイン > 任意のDB.SCM.テーブル > Data Quality タブ でまずは確認 - クイックスタート: Getting Started with Data Quality Monitoring in Snowflake まずはここからはじめてみよう

Slide 25

Slide 25 text

©HR Force Inc. All rights reserved. Appendix 25

Slide 26

Slide 26 text

©HR Force Inc. All rights reserved. 運⽤⾯で検討すべきこと 26 - DQMはサーバーレスのコンピュートを利⽤するため、その他の実⾏と競合せず、 コストも安くなる可能性がある - クレジット使⽤量: 消費量はクエリの複雑さとスキャンされるデータ量に基づいて計算 - SNOWFLAKE.ACCOUNT_USAGE.DATA_QUALITY_MONITORING_USAGE_HISTORY で 過去365⽇間のDMF評価での消費クレジットの詳細が確認可能 - スケジュール設定は、テーブルが更新されたときにのみ実⾏にすることで、費や されるすべてのクレジットが確実に価値を⽣む状態にできる - ⼤規模なデータセットに対しては、カスタムDMFで増分ロジック(新しい⾏のみ をチェックする)を活⽤することで、コストの最適化を実現できる DQM のコストの考え⽅と運⽤の⼯夫

Slide 27

Slide 27 text

©HR Force Inc. All rights reserved. 運⽤⾯で検討すべきこと 27 Git統合と Snowflake DevOps はDQM においても重要な役割を果たす - Git統合によって、DQF の定義は Git連携でバージョン管理 - DQF は GitリポジトリにSQLまたはPythonファイルとして定義‧保存される - Snowflake CLIによるCI/CDパイプラインの構築で品質を担保 - デプロイ時の品質を保証する 「Data Quality as Code」を実現することで、品質を担保した運⽤‧保守を実現

Slide 28

Slide 28 text

©HR Force Inc. All rights reserved. dbt test との違いと、併⽤運⽤について 28 - dbt test: - データパイプラインの⼀部として機能することで「汚染を防ぐ」強み - dbt build により、テストが失敗した際にダウンストリーム後続のテーブルへの書き込み を⽌めることが可能 - dbt source freshness や、スケジュール実⾏による dbt test で状態監視も可能だが、通 常のウェアハウスを起動するため、コストが嵩む可能性も - Snowflake DQM: - テーブルが作成された後の状態を監視し、「汚染を検知」する強み - メタデータ統計の利⽤により、NULL_COUNT などの標準的なDMFはウェアハウスを起 動せずに⾼速かつ低コストで計測できる場合がある - DATA_METRIC_SCHEDULE を設定するだけで、オーケストレーションツールなしで Snowflakeだけで計測し続けることが可能 dbt test との違いは、データの書き込みの実⾏時か、書き込まれた後の状態か

Slide 29

Slide 29 text

©HR Force Inc. All rights reserved. dbt test との違いと、併⽤運⽤について 29 dbt test 観点 主な役割 実⾏タイミング アプローチ dbt test と Snowflake DMFs の違いと使い分け コンピューティング 利⽤すべき主な指標 CI/CD‧パイプラインのガードレール モデルのビルド時(dbt build/test) 予防的(不正なデータを⼊れない) ウェアハウスの計算リソースを使⽤ スキーマ整合性、ビジネスロジック検証 継続的なヘルスチェック‧監視 スケジュールまたはイベント実⾏ 検出的(異常を素早く⾒つける) サーバーレスリソース(メタデータ活⽤) 鮮度、⽋損率、統計的異常 Snowflake DMFs 主な利⽤者 データエンジニア、 アナリティクスエンジニア 鮮度、⽋損率、統計的異常