Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!

Nayuta S.
February 13, 2023

AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!

Nayuta S.

February 13, 2023
Tweet

More Decks by Nayuta S.

Other Decks in Technology

Transcript

  1. • 今⽇の発表について • データドリフト • AWS Glueとは︖ • AWS Glue

    Data Quality(プレビュー)とは︖ • AWS Glue Data Qualityに登場する概念や使い⽅についてご紹介 • 機械学習システムでこんな感じに使えそう • まとめ 3 もくじ
  2. 4 今⽇の発表について • AWS Glue Data Quality(ないしDeequ)にて利⽤できる、機械学習で活⽤する データ品質のチェック機能について確認する。 • AWS

    Glue Data Qualityの利⽤イメージを掴む。 • AWS Glue Data Qualityを使った機械学習システムでの品質管理の構成について検 討・考察する。
  3. 7 AWS Glue Data Quality(プレビュー)とは︖ データ品質管理とモニタリングより引⽤ https://aws.amazon.com/jp/glue/ AWS Glueのネイティブなデータ品質の管理機能。AWSの開発したOSSであるDeequによるデータ品質チェック を、

    AWS Glueのサーバレスかつマネージドな環境上で⾮常に簡単に実⾏できる。 データを取り込んだ後の品質チェック(リアクティブ)だけでなく、データを取り込む際の品質チェック(プ ロアクティブ)に対応しているのが特に良いところ。AWS Python SDKから利⽤することも可能。
  4. 9 Data Quality Definition Language (DQDL) ※Data Quality Definition Language

    (DQDL)から2023/2/5に引⽤。 https://docs.amazonaws.cn/en_us/glue/latest/dg/dqdl.html ITエンジニア・ビジネス問わず、多くのユーザーが利⽤できるように作成された定義⾔語。 SQLを記述することも可能。 ▼ColumnCorrelationの⽂法例 ▼ルールセットの⽣成結果の例 ←Iris Data Set(https://archive.ics.uci.edu/ml/datasets/iris)より Glue Data Qualityで⽣成したもの
  5. 12 Pythonからの利⽤ Boto3からAWS Glue Data QualityのAPIが利⽤できることはドキュメントから確認できた。 品質チェックはGlueのテーブルを指定して⾏うため、どちらかというとリアクティブ的な⽤途となりそう。 リアクティブな⽤途だと、ステージング⽤のテーブルを⽤意しておき、⼀旦そこで品質チェックを挟むことで に使えそう。 Boto3

    Docs 1.26.63 documentationより https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html •create_data_quality_ruleset() •delete_data_quality_ruleset() •get_data_quality_rule_recommendation_run() •start_data_quality_rule_recommendation_run() •start_data_quality_ruleset_evaluation_run() •など
  6. 13 機械学習システムでこんな感じに使えそう ※Data Quality Definition Language (DQDL)を2023/2/5時点に参考にしました。 https://docs.aws.amazon.com/glue/latest/dg/data-quality-authorization.html # DQDL

    rule type 概要 1 ColumnCorrelation 2つの特徴量の間の相関を調べる。 2 Mean ある特徴量の平均を調べる。 3 StandardDeviation ある特徴量の標準偏差を調べる。 4 Sum ある特徴量の和を調べる。 5 IsComplete ある特徴量が全てNULLではないか調べる。 6 DistinctValuesCount ある特徴量のユニークな値の数を調べる。 7 CustomSql ある特徴量について集計⽤のSQLロジックを適⽤できる。 発表時点で18の種類があるが、基本的な統計情報の計算として特に使えそうなルールについて取り上げる。 より詳しくはドキュメントを参考にして頂きたい。
  7. 14 機械学習システムでこんな感じに使えそう 時系列予測機能 (Amazon Forecast) 推薦機能 (Amazon Personalize) 機械学習機能 (Amazon

    SageMaker・Batchなど) ΦϒδΣΫτετϨʔδ (Amazon S3) データ品質管理 (AWS Glue) データウェアハウス・機械学習機能 (Amazon Redshift) 学習・推論対象のデータ AWS Cloud 品質チェック
  8. 16 まとめ • AWS Glue Data Qualityはデータ品質の管理のためのOSSであるDeequをサーバレス かつマネージドな環境で実⾏ができる。 • 「基本的な統計情報」によりデータドリフトの検出に活⽤できる。

    • オブジェクトストレージ(Amazon S3)に対して利⽤でき、AWS上で機械学習シ ステムを構築する際に強⼒にデータのチェックが可能になる。