Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20分で大体わかる! AWS Glue Data Qualityによる データ品質検査
Search
Niino
January 31, 2024
Technology
0
10k
20分で大体わかる! AWS Glue Data Qualityによる データ品質検査
Niino
January 31, 2024
Tweet
Share
More Decks by Niino
See All by Niino
祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい
kniino
3
480
Amazon Personalizeのレコメンドシステム構築、実際何するの?〜大体10分で具体的なイメージをつかむ〜
kniino
1
220
Iceberg で Amazon Athena をデータウェアハウスぽく使おう
kniino
0
5k
〜小さく始めて大きく育てる〜データ分析基盤の開発から活用まで
kniino
0
2.9k
ダッシュボードもコード管理!Amazon QuickSightで考えるBIOps
kniino
0
2.3k
Other Decks in Technology
See All in Technology
DevSecOps入門:Security Development Lifecycleによる開発プロセスのセキュリティ強化
yuriemori
0
230
第27回クラウド女子会 ~re:Invent 振り返りLT会~ 宣言型ポリシー、使ってみたらこうだった!
itkr2305
0
290
EDRからERM: PFN-SIRTが関わるセキュリティとリスクへの取り組み
pfn
PRO
0
100
[JAWS-UG栃木]地方だからできたクラウドネイティブ事例大公開! / jawsug_tochigi_tachibana
biatunky
0
130
あなたはJVMの気持ちを理解できるか?
skrb
5
2k
reinvent2024を起点に振り返るサーバーレスアップデート
mihonda
1
190
CloudWatch Container Insightsを使ったAmazon ECSのリソース監視
umekou
1
120
[SRE kaigi 2025] ガバメントクラウドに向けた開発と変化するSRE組織のあり方 / Development for Government Cloud and the Evolving Role of SRE Teams
kazeburo
4
1.9k
srekaigi2025-hajimete-ippo-aws
masakichieng
0
240
2週に1度のビッグバンリリースをデイリーリリース化するまでの苦悩 ~急成長するスタートアップのリアルな裏側~
kworkdev
PRO
8
6.5k
Oracle Cloud Infrastructure:2025年1月度サービス・アップデート
oracle4engineer
PRO
0
180
サーバーレスで楽しよう!お気軽に始められる3つのポイント / Have fun with Serverless!
_kensh
2
220
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
298
20k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.2k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
175
51k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.4k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
No one is an island. Learnings from fostering a developers community.
thoeni
20
3.1k
Designing for humans not robots
tammielis
250
25k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Adopting Sorbet at Scale
ufuk
74
9.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
30
2.1k
Being A Developer After 40
akosma
89
590k
Transcript
20分で大体わかる! AWS Glue Data Qualityによる データ品質検査 クラスメソッド株式会社 niino
⾃⼰紹介 niino • データアナリティクス事業本部 インテグレーション部 コンサルティングチーム ◦ ソリューションアーキテクト ◦ 2023
Japan AWS Top Engineer(Analytics) • データ分析基盤に関するコンサルティング • 最近の高い買い物:ベース • 奈良県出身 大阪オフィス所属 この辺の出身
本題 データ分析においてデータの品質は重要! データパイプラインが エラーになった… 分析結果が 間違ってる…
とはいえ、データ品質検査にもいろんな課題が データが大量だし 形式も様々で 品質チェックの 実行も一苦労 品質検査にはどの ツールを 使うべき? データの変動を 把握したい
AWS Glueの新たな機能、 AWS Glue Data Quality
AWS Glueとは AWSが提供するサーバーレスなデータ統合サービス • PythonとApache Sparkを使った大量データの処理(Glue ETL Job) • データ資産のカタログ化(Glue
Data Catalog) • GUIでのジョブ作成(Glue Visual Editor/Glue Data Brew) などの様々な機能が提供 Crawler Data Catalog S3 Bucket Amazon Athena Amazon QuickSight Amazon Redshift ETL Job データソース
AWS Glueとは AWSが提供するサーバーレスなデータ統合サービス • PythonとApache Sparkを使った大量データの処理(Glue ETL Job) • データ資産のカタログ化(Glue
Data Catalog) • GUIでのジョブ作成(Glue Visual Editor/Glue Data Brew) などの様々な機能が提供 Crawler Data Catalog S3 Bucket Amazon Athena Amazon QuickSight Amazon Redshift ETL Job データソース 2023年6月、データ品質検査を担う Glue Data Qualityが一般提供開始
AWS Glue Data Qualityとは • ユーザーが定義したルール に従って、 データの品質検査を実施で きる機能 •
AWSが開発したOSSである Deequを利用 • ルールの定義にはDQDL (Data Quality Definition Language)を 利用
Data Qualityの基本的な使い方 ①ルールを定義 ルールタイプを 選択 ルールを定義 自動でルール をリコメンド
Data Qualityの基本的な使い方 ②実行
Data Qualityで利用可能なルール 2024/1現在、27種類 AggregateMatch ColumnCorrelation ColumnCount ColumnDataType ColumnExists ColumnLength ColumnNamesMatchPattern
ColumnValues Completeness CustomSql DataFreshness DatasetMatch DetectAnomalies DistinctValuesCount Entropy IsComplete IsPrimaryKey IsUnique Mean ReferentialIntegrity RowCount RowCountMatch SchemaMatch StandardDeviation Sum UniqueValueRatio Uniqueness
Data Qualityの便利なところ • DQDLを使って簡単にデータ品質検査のルールを定義可能 • CloudWatchやSNSを組み合わせることで通知可能 • 既存データを自動で分析して最適なルールを レコメンド •
Glue Job同様、ワーカーを増やしてスケールアップが 可能 • 静的なルールに合致しないデータを検出するだけでなく、 意図しない変化や異常を自動的に検出可能(プレビュー 機能)
Data Qualityの利用パターン Glue Data Catalog • Glue Data Catalogに登録されたテー ブルに対してデータ品質検査ルールを
定義して実行 • 取り込み後データのチェックに便利 • Glue ETL Jobを使っておらず、 Athenaを利用している場合でも使える Glue ETL Job • Glue ETL Jobの中に組み込む形でデー タ品質検査ルールを定義 • 取り込み前のデータのチェックに便利 • すでにGlue ETL Jobを使っている 場合、既存の処理に組み込める • GlueコネクタがサポートするAWS以外 のデータソースの品質検査も可能
実際の操作はこんな感じ
None
ユースケースいろいろ
ユースケースその1 テーブルへ投入する前の データファイルの品質を チェック • Glue ETL Jobの中で Data Qualityを利用
• データの異常を検知した ら通知 • ルールに沿っていれば データレイクへ投入
ユースケースその3 データの変化を把握する • 2023年11月に発表されたプレビュー機能 • 過去のデータと比較して変化を検知 • 異常を検知するだけでなく、データの傾向の変化を把握できる
ユースケースその3 データの変化を把握する • 2023年11月に発表されたプレビュー機能 • 過去のデータと比較して変化を検知 • 異常を検知するだけでなく、データの傾向の変化を把握できる
まとめ
まとめ • AWS Glue Data Qualityを使って、サーバーレスで AWSマネージドという取り組みやすい環境で データ品質検査ができる • 他AWSサービスと組み合わせて異常検知の際の通知
も可能 • データの変化の傾向把握にも使える
None