Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20分で大体わかる! AWS Glue Data Qualityによる データ品質検査
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Niino
January 31, 2024
Technology
31k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
20分で大体わかる! AWS Glue Data Qualityによる データ品質検査
Niino
January 31, 2024
More Decks by Niino
See All by Niino
祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい
kniino
4
1k
Amazon Personalizeのレコメンドシステム構築、実際何するの?〜大体10分で具体的なイメージをつかむ〜
kniino
1
890
Iceberg で Amazon Athena をデータウェアハウスぽく使おう
kniino
0
8k
〜小さく始めて大きく育てる〜データ分析基盤の開発から活用まで
kniino
1
3.4k
ダッシュボードもコード管理!Amazon QuickSightで考えるBIOps
kniino
0
3.2k
Other Decks in Technology
See All in Technology
スキルと MCP ツール、責務をどう分けるか? AI が迷わないインターフェース設計の戦略
cdataj
1
1.1k
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
150
Claude Codeをどのように キャッチアップしているか
oikon48
13
8.1k
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
250
連合学習と機密コンピューティング
lycorptech_jp
PRO
0
120
AIはどのように 組織のアジリティを変えるのか?
junki
3
900
入門!AWS Blocks
ysuzuki
1
130
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
610
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
1.1k
Snowflakeと仲良くなる第一歩
coco_se
4
480
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.1k
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
1.1k
Featured
See All Featured
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Faster Mobile Websites
deanohume
310
31k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
870
Why Our Code Smells
bkeepers
PRO
340
58k
How to train your dragon (web standard)
notwaldorf
97
6.7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
210
Designing Powerful Visuals for Engaging Learning
tmiket
1
410
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
280
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
Speed Design
sergeychernyshev
33
1.8k
Principles of Awesome APIs and How to Build Them.
keavy
128
18k
Transcript
20分で大体わかる! AWS Glue Data Qualityによる データ品質検査 クラスメソッド株式会社 niino
⾃⼰紹介 niino • データアナリティクス事業本部 インテグレーション部 コンサルティングチーム ◦ ソリューションアーキテクト ◦ 2023
Japan AWS Top Engineer(Analytics) • データ分析基盤に関するコンサルティング • 最近の高い買い物:ベース • 奈良県出身 大阪オフィス所属 この辺の出身
本題 データ分析においてデータの品質は重要! データパイプラインが エラーになった… 分析結果が 間違ってる…
とはいえ、データ品質検査にもいろんな課題が データが大量だし 形式も様々で 品質チェックの 実行も一苦労 品質検査にはどの ツールを 使うべき? データの変動を 把握したい
AWS Glueの新たな機能、 AWS Glue Data Quality
AWS Glueとは AWSが提供するサーバーレスなデータ統合サービス • PythonとApache Sparkを使った大量データの処理(Glue ETL Job) • データ資産のカタログ化(Glue
Data Catalog) • GUIでのジョブ作成(Glue Visual Editor/Glue Data Brew) などの様々な機能が提供 Crawler Data Catalog S3 Bucket Amazon Athena Amazon QuickSight Amazon Redshift ETL Job データソース
AWS Glueとは AWSが提供するサーバーレスなデータ統合サービス • PythonとApache Sparkを使った大量データの処理(Glue ETL Job) • データ資産のカタログ化(Glue
Data Catalog) • GUIでのジョブ作成(Glue Visual Editor/Glue Data Brew) などの様々な機能が提供 Crawler Data Catalog S3 Bucket Amazon Athena Amazon QuickSight Amazon Redshift ETL Job データソース 2023年6月、データ品質検査を担う Glue Data Qualityが一般提供開始
AWS Glue Data Qualityとは • ユーザーが定義したルール に従って、 データの品質検査を実施で きる機能 •
AWSが開発したOSSである Deequを利用 • ルールの定義にはDQDL (Data Quality Definition Language)を 利用
Data Qualityの基本的な使い方 ①ルールを定義 ルールタイプを 選択 ルールを定義 自動でルール をリコメンド
Data Qualityの基本的な使い方 ②実行
Data Qualityで利用可能なルール 2024/1現在、27種類 AggregateMatch ColumnCorrelation ColumnCount ColumnDataType ColumnExists ColumnLength ColumnNamesMatchPattern
ColumnValues Completeness CustomSql DataFreshness DatasetMatch DetectAnomalies DistinctValuesCount Entropy IsComplete IsPrimaryKey IsUnique Mean ReferentialIntegrity RowCount RowCountMatch SchemaMatch StandardDeviation Sum UniqueValueRatio Uniqueness
Data Qualityの便利なところ • DQDLを使って簡単にデータ品質検査のルールを定義可能 • CloudWatchやSNSを組み合わせることで通知可能 • 既存データを自動で分析して最適なルールを レコメンド •
Glue Job同様、ワーカーを増やしてスケールアップが 可能 • 静的なルールに合致しないデータを検出するだけでなく、 意図しない変化や異常を自動的に検出可能(プレビュー 機能)
Data Qualityの利用パターン Glue Data Catalog • Glue Data Catalogに登録されたテー ブルに対してデータ品質検査ルールを
定義して実行 • 取り込み後データのチェックに便利 • Glue ETL Jobを使っておらず、 Athenaを利用している場合でも使える Glue ETL Job • Glue ETL Jobの中に組み込む形でデー タ品質検査ルールを定義 • 取り込み前のデータのチェックに便利 • すでにGlue ETL Jobを使っている 場合、既存の処理に組み込める • GlueコネクタがサポートするAWS以外 のデータソースの品質検査も可能
実際の操作はこんな感じ
None
ユースケースいろいろ
ユースケースその1 テーブルへ投入する前の データファイルの品質を チェック • Glue ETL Jobの中で Data Qualityを利用
• データの異常を検知した ら通知 • ルールに沿っていれば データレイクへ投入
ユースケースその3 データの変化を把握する • 2023年11月に発表されたプレビュー機能 • 過去のデータと比較して変化を検知 • 異常を検知するだけでなく、データの傾向の変化を把握できる
ユースケースその3 データの変化を把握する • 2023年11月に発表されたプレビュー機能 • 過去のデータと比較して変化を検知 • 異常を検知するだけでなく、データの傾向の変化を把握できる
まとめ
まとめ • AWS Glue Data Qualityを使って、サーバーレスで AWSマネージドという取り組みやすい環境で データ品質検査ができる • 他AWSサービスと組み合わせて異常検知の際の通知
も可能 • データの変化の傾向把握にも使える
None