Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!
Search
Nayuta S.
February 13, 2023
Technology
1.4k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AWS Glue Data Quality(プレビュー)が機械学習システムに使えそうか調べてみるぞ!
Nayuta S.
February 13, 2023
More Decks by Nayuta S.
See All by Nayuta S.
今年注目する!データ分析プラットフォームでのAIの活用
nayuts
0
200
AIを活用したStreamlitアプリ開発のTipsと、ほかのAI機能との棲み分け
nayuts
0
660
今年のデータ・ML系アップデートと気になるアプデのご紹介
nayuts
1
2k
Snowflakeで実践する、生成AIを活用した「自然言語によるデータとの対話」
nayuts
0
560
Snowflakeの生成AI機能を活用したデータ分析アプリの作成 〜Cortex AnalystとCortex Searchの活用とStreamlitアプリでの利用〜
nayuts
1
1.7k
FastMCPでSQLをチェックしてくれるMCPサーバーを自作してCursorから動かしてみた
nayuts
1
790
Amazon Athenaから利用時のGlueのIcebergテーブルのメンテナンスについて
nayuts
0
790
目玉アップデート!のSageMaker LakehouseとUnified Studioは何たるかを見てみよう!
nayuts
0
1.5k
Amazon Rekognitionのカスタムモデルで独自のモデレーションモデルをトレーニングする
nayuts
0
450
Other Decks in Technology
See All in Technology
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
1.1k
いまさら聞けない「仕様駆動開発入門」 〜AI活用時代の開発プロセスを考える〜
findy_eventslides
2
120
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
3
820
SONiCの統計情報を取得したい
sonic
0
170
AIエージェントが名古屋の猛暑からあなたを守る
happysamurai294
0
120
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
190
AIのReact習熟度を測る
uhyo
2
580
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
340
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
310
自宅LLMの話
jacopen
1
590
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
3
2.1k
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
480
Featured
See All Featured
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
220
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
190
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
200
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
Into the Great Unknown - MozCon
thekraken
41
2.6k
The untapped power of vector embeddings
frankvandijk
2
1.8k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
430
Context Engineering - Making Every Token Count
addyosmani
9
960
Building Applications with DynamoDB
mza
96
7.1k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
330
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
230
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
850
Transcript
AWS Glue Data Quality(プレビュー)が 機械学習システムに使えそうか調べてみるぞ︕ 2023/2/12 鈴⽊ 那由太 1
名前︓鈴⽊ 那由太(スズキ ナユタ) 所属︓クラスメソッド株式会社 データアナリティクス事業本部 仕事︓データ分析基盤構築 ほか︓2022 APN AWS Top
Engineer kaggle Notebooks Master 2 ⾃⼰紹介
• 今⽇の発表について • データドリフト • AWS Glueとは︖ • AWS Glue
Data Quality(プレビュー)とは︖ • AWS Glue Data Qualityに登場する概念や使い⽅についてご紹介 • 機械学習システムでこんな感じに使えそう • まとめ 3 もくじ
4 今⽇の発表について • AWS Glue Data Quality(ないしDeequ)にて利⽤できる、機械学習で活⽤する データ品質のチェック機能について確認する。 • AWS
Glue Data Qualityの利⽤イメージを掴む。 • AWS Glue Data Qualityを使った機械学習システムでの品質管理の構成について検 討・考察する。
5 σʔλυϦϑτʹ͍ͭͯ ※『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱΑΓʹൈਮ https://aws.amazon.com/jp/blogs/news/detect-data-drift-with-amazon-sagemaker-model-monitor/ データドリフト︓ਪ࣌ͷೖྗσʔλग़ྗ݁Ռ͕ɺֶश࣌ͷڐ༰ൣғΛ͑ͯมԽ͢Δ͜ͱ。 (今回の発表では※の定義に準ずる)
6 AWS Glueとは︖ AWS の提供するサーバーレスなデータ統合サービス。 データ分析・機械学習・アプリケーション開発⽤に、複数のデータソースからデータを検出・準備・移動・ 統合することを⽬的とする。 機械学習システムの場合、データの前処理などに使うことができる。 「 ETLジョブ(Sparkジョブ・Pythonシェルジョブ)」「データカタログ(データベース・テーブル)」
「クローラー」「Glue Studio」など様々な機能を提供している。 イベント駆動型ETLより引⽤ https://aws.amazon.com/jp/glue/
7 AWS Glue Data Quality(プレビュー)とは︖ データ品質管理とモニタリングより引⽤ https://aws.amazon.com/jp/glue/ AWS Glueのネイティブなデータ品質の管理機能。AWSの開発したOSSであるDeequによるデータ品質チェック を、
AWS Glueのサーバレスかつマネージドな環境上で⾮常に簡単に実⾏できる。 データを取り込んだ後の品質チェック(リアクティブ)だけでなく、データを取り込む際の品質チェック(プ ロアクティブ)に対応しているのが特に良いところ。AWS Python SDKから利⽤することも可能。
8 Deequについて ※ DeequのGitHubレポジトリより2023/2/5に抜粋 https://github.com/awslabs/deequ Sparkをエンジンとして⼤規模なデータに対してデータ品質のチェックが実⾏できる。 後ほど紹介する『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱͰ σʔλυϦϑτͷνΣοΫʹར༻͢Δྫ͕հ͞ΕΔɻ
9 Data Quality Definition Language (DQDL) ※Data Quality Definition Language
(DQDL)から2023/2/5に引⽤。 https://docs.amazonaws.cn/en_us/glue/latest/dg/dqdl.html ITエンジニア・ビジネス問わず、多くのユーザーが利⽤できるように作成された定義⾔語。 SQLを記述することも可能。 ▼ColumnCorrelationの⽂法例 ▼ルールセットの⽣成結果の例 ←Iris Data Set(https://archive.ics.uci.edu/ml/datasets/iris)より Glue Data Qualityで⽣成したもの
10 σʔλυϦϑτݕ ※『"NB[PO4BHF.BLFS .PEFM.POJUPSΛ׆༻ͨ͠σʔλυϦϑτݕͷղઆʱΑΓʹൈਮ https://aws.amazon.com/jp/blogs/news/detect-data-drift-with-amazon-sagemaker-model-monitor/ この発表時点で、AWS Glue Data Qualityは下記表のうち、Deequで可能な「基本的な統計情報」を計測できる。 ほかのサービスと組み合わせてサンプリングすれば「スケッチ(分位スケッチ)」も可能ではある。
11 AWS Glue Data Qualityによるデータ品質チェック ルールセットの ⽣成 ルールセットの修正 (必要なら) データ品質の評
価
12 Pythonからの利⽤ Boto3からAWS Glue Data QualityのAPIが利⽤できることはドキュメントから確認できた。 品質チェックはGlueのテーブルを指定して⾏うため、どちらかというとリアクティブ的な⽤途となりそう。 リアクティブな⽤途だと、ステージング⽤のテーブルを⽤意しておき、⼀旦そこで品質チェックを挟むことで に使えそう。 Boto3
Docs 1.26.63 documentationより https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html •create_data_quality_ruleset() •delete_data_quality_ruleset() •get_data_quality_rule_recommendation_run() •start_data_quality_rule_recommendation_run() •start_data_quality_ruleset_evaluation_run() •など
13 機械学習システムでこんな感じに使えそう ※Data Quality Definition Language (DQDL)を2023/2/5時点に参考にしました。 https://docs.aws.amazon.com/glue/latest/dg/data-quality-authorization.html # DQDL
rule type 概要 1 ColumnCorrelation 2つの特徴量の間の相関を調べる。 2 Mean ある特徴量の平均を調べる。 3 StandardDeviation ある特徴量の標準偏差を調べる。 4 Sum ある特徴量の和を調べる。 5 IsComplete ある特徴量が全てNULLではないか調べる。 6 DistinctValuesCount ある特徴量のユニークな値の数を調べる。 7 CustomSql ある特徴量について集計⽤のSQLロジックを適⽤できる。 発表時点で18の種類があるが、基本的な統計情報の計算として特に使えそうなルールについて取り上げる。 より詳しくはドキュメントを参考にして頂きたい。
14 機械学習システムでこんな感じに使えそう 時系列予測機能 (Amazon Forecast) 推薦機能 (Amazon Personalize) 機械学習機能 (Amazon
SageMaker・Batchなど) ΦϒδΣΫτετϨʔδ (Amazon S3) データ品質管理 (AWS Glue) データウェアハウス・機械学習機能 (Amazon Redshift) 学習・推論対象のデータ AWS Cloud 品質チェック
15 AWS Glueコンソールからの使⽤例 https://dev.classmethod.jp/articles/aws-glue-data-quality-preview-with-iam-role-from-glue-console/ ⼀番簡単な試し⽅・必要な権限設定について記載しました。
16 まとめ • AWS Glue Data Qualityはデータ品質の管理のためのOSSであるDeequをサーバレス かつマネージドな環境で実⾏ができる。 • 「基本的な統計情報」によりデータドリフトの検出に活⽤できる。
• オブジェクトストレージ(Amazon S3)に対して利⽤でき、AWS上で機械学習シ ステムを構築する際に強⼒にデータのチェックが可能になる。