Slide 1

Slide 1 text

20分で大体わかる!
 AWS Glue Data Qualityによる
 データ品質検査
 クラスメソッド株式会社
 niino


Slide 2

Slide 2 text

⾃⼰紹介 niino ● データアナリティクス事業本部 インテグレーション部 コンサルティングチーム ○ ソリューションアーキテクト ○ 2023 Japan AWS Top Engineer(Analytics) ● データ分析基盤に関するコンサルティング ● 最近の高い買い物:ベース ● 奈良県出身 大阪オフィス所属 この辺の出身

Slide 3

Slide 3 text

本題 データ分析においてデータの品質は重要! データパイプラインが エラーになった… 分析結果が 間違ってる…

Slide 4

Slide 4 text

とはいえ、データ品質検査にもいろんな課題が データが大量だし 形式も様々で 品質チェックの 実行も一苦労 品質検査にはどの ツールを 使うべき? データの変動を 把握したい

Slide 5

Slide 5 text

AWS Glueの新たな機能、 AWS Glue Data Quality

Slide 6

Slide 6 text

AWS Glueとは AWSが提供するサーバーレスなデータ統合サービス ● PythonとApache Sparkを使った大量データの処理(Glue ETL Job) ● データ資産のカタログ化(Glue Data Catalog) ● GUIでのジョブ作成(Glue Visual Editor/Glue Data Brew) などの様々な機能が提供 Crawler Data Catalog S3 Bucket Amazon Athena Amazon QuickSight Amazon Redshift ETL Job データソース

Slide 7

Slide 7 text

AWS Glueとは AWSが提供するサーバーレスなデータ統合サービス ● PythonとApache Sparkを使った大量データの処理(Glue ETL Job) ● データ資産のカタログ化(Glue Data Catalog) ● GUIでのジョブ作成(Glue Visual Editor/Glue Data Brew) などの様々な機能が提供 Crawler Data Catalog S3 Bucket Amazon Athena Amazon QuickSight Amazon Redshift ETL Job データソース 2023年6月、データ品質検査を担う Glue Data Qualityが一般提供開始

Slide 8

Slide 8 text

AWS Glue Data Qualityとは ● ユーザーが定義したルール に従って、 データの品質検査を実施で きる機能 ● AWSが開発したOSSである Deequを利用 ● ルールの定義にはDQDL (Data Quality Definition Language)を 利用

Slide 9

Slide 9 text

Data Qualityの基本的な使い方 ①ルールを定義 ルールタイプを 選択 ルールを定義 自動でルール をリコメンド

Slide 10

Slide 10 text

Data Qualityの基本的な使い方 ②実行

Slide 11

Slide 11 text

Data Qualityで利用可能なルール 2024/1現在、27種類 AggregateMatch ColumnCorrelation ColumnCount ColumnDataType ColumnExists ColumnLength ColumnNamesMatchPattern ColumnValues Completeness CustomSql DataFreshness DatasetMatch DetectAnomalies DistinctValuesCount Entropy IsComplete IsPrimaryKey IsUnique Mean ReferentialIntegrity RowCount RowCountMatch SchemaMatch StandardDeviation Sum UniqueValueRatio Uniqueness

Slide 12

Slide 12 text

Data Qualityの便利なところ ● DQDLを使って簡単にデータ品質検査のルールを定義可能 ● CloudWatchやSNSを組み合わせることで通知可能 ● 既存データを自動で分析して最適なルールを レコメンド ● Glue Job同様、ワーカーを増やしてスケールアップが 可能 ● 静的なルールに合致しないデータを検出するだけでなく、 意図しない変化や異常を自動的に検出可能(プレビュー 機能)

Slide 13

Slide 13 text

Data Qualityの利用パターン Glue Data Catalog ● Glue Data Catalogに登録されたテー ブルに対してデータ品質検査ルールを 定義して実行 ● 取り込み後データのチェックに便利 ● Glue ETL Jobを使っておらず、 Athenaを利用している場合でも使える Glue ETL Job ● Glue ETL Jobの中に組み込む形でデー タ品質検査ルールを定義 ● 取り込み前のデータのチェックに便利 ● すでにGlue ETL Jobを使っている 場合、既存の処理に組み込める ● GlueコネクタがサポートするAWS以外 のデータソースの品質検査も可能

Slide 14

Slide 14 text

実際の操作はこんな感じ

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

ユースケースいろいろ

Slide 17

Slide 17 text

ユースケースその1 テーブルへ投入する前の データファイルの品質を チェック ● Glue ETL Jobの中で Data Qualityを利用 ● データの異常を検知した ら通知 ● ルールに沿っていれば データレイクへ投入

Slide 18

Slide 18 text

ユースケースその3 データの変化を把握する ● 2023年11月に発表されたプレビュー機能 ● 過去のデータと比較して変化を検知 ● 異常を検知するだけでなく、データの傾向の変化を把握できる

Slide 19

Slide 19 text

ユースケースその3 データの変化を把握する ● 2023年11月に発表されたプレビュー機能 ● 過去のデータと比較して変化を検知 ● 異常を検知するだけでなく、データの傾向の変化を把握できる

Slide 20

Slide 20 text

まとめ

Slide 21

Slide 21 text

まとめ ● AWS Glue Data Qualityを使って、サーバーレスで AWSマネージドという取り組みやすい環境で データ品質検査ができる ● 他AWSサービスと組み合わせて異常検知の際の通知 も可能 ● データの変化の傾向把握にも使える

Slide 22

Slide 22 text

No content