Glue DataBrewでデータをクリーニング、加工してみよう

Glue DataBrewでデータをクリーニング、加⼯してみよう 2021/10/7 データアナリティクス事業本部須藤健志

2 ⾃⼰紹介須藤健志（suto takeshi）所属データアナリティクス事業本部『データ分析基盤や機械学習基盤のコンサル・構築を担当』略歴通信事業会社のNWエンジニア→メーカー系SIer
→クラスメソッドJoin（2020年4⽉）好きなAWSサービス AWS CDK、Glue DataBrew、SageMaker

3 アジェンダ • はじめに • Glue Databrewの概要 • Glue Databrewの機能と特徴
• Glue Databrewの使いどころ • デモ • まとめ

4 はじめにデータ分析・機械学習の前に⾏う「データクレンジング」

5 はじめに •こんなことありませんか︖ • 誤記や表記ゆれがあり前処理がうまくいかない • 重複しているデータがある、⽋損値がある • エラーが発⽣してデータを取り込めない

6 はじめにデータのクレンジングが必要⽋損の修正重複データの削除正規化・標準化無関係なデータの削除やマスキング

7 はじめにしかしデータクレンジングには時間とコストがかかる • ワークフローの構築とその⾃動化 • システム間で⼤容量データの移動

8 Glue DataBrewとはコードを記述せずにデータのクリーンアップおよび正規化ができるビジュアルデータ準備ツール AWSマネージドサービス（サーバレスで使える）

9 Glue DataBrewとは主な機能 250種類以上の変換処理 • プレビューで変換前と変換後を⽐べながら処理を作成

10 Glue DataBrewとは主な機能ワークフローの⾃動化 • ジョブの実⾏をスケジューリングできる

11 Glue DataBrewとは主な機能データリネージの視覚化 • データが通過した様々なデータソースと変換ステップをビジュアルで確認

12 Glue DataBrewとは主な機能データプロファイリング • データの相関関係や統計をわかりやすく表⽰

13 Glue DataBrewとはサポートしているファイルタイプ【⼊⼒ファイル】 • CSV • Parquet •
Json • Excel 【区切り⽂字】 • カンマ（,） • コロン（:） • セミコロン（:） • パイプ（|） • タブ（¥t） • キャレット（^） • バックスラッシュ（＼） • スペース【圧縮タイプ】 • なし • Snappy • Gzip • LZ4 • Bzip2 • Deflate • Brotli 【出⼒ファイル】 • CSV • Parquet • Glue Parquet • AVRO • ORC • XML • Json • Tableau Hyper

14 Glue DataBrewとは指定できるデータソース、出⼒先も充実してきた【データソース】 • Amazon S3 • Amazon
Redshift • Glueデータカタログ（S3、Redshift、RDS、Lake Formation） • Snowflake • その他データベース（JDBC接続経由） • サードパーティデータ（AWS Data Exchange またはAmazon AppFlow経由）【出⼒先】 • Amazon S3 • Amazon Redshift • Glueデータカタログ（S3、Redshift、RDS 、Lake Formation ） • Snowflake • その他データベース（JDBC接続経由）

15 Glue DataBrewの料⾦インタラクティブセッション（1.0$/30分） • プロジェクト画⾯を開くとセッション開始 • 未操作の時間が続けば⾃動でサスペンド • はじめてDataBrewを使う場合、最初の40セッションは無償
ジョブ実⾏（0.48$/ノード/時間） • ジョブ実⾏に使⽤されたノード数に基づいて1時間ごとに課⾦ • デフォルトでは各ジョブに5ノード割り当て • 1ノード4vCPUs、16GBメモリ

16 Glue DataBrewの使いどころ主なユースケース • データをアドホックに探索して BIレポートやデータマートの作成に向けた策定 • 定常的かつ簡単なデータクリーニング処理を⾃動化したい •
データ準備処理のためのパイプラインをコーディングレスで構築したい

17 Glue DataBrewの使いどころ（技術的に可能だが）DataBrewには向かないケース • 複雑なETL処理 →実現に膨⼤なステップ数となるため • 機械学習における特徴量計算 •
データ分析における複数テーブルからの統計処理 →エンジニアからすればコード開発した⽅がラク • データ前処理⼯程を1つのサーバ内で⼀貫して素早く処理したい • Glue Databrewジョブの実⾏完了には時間がかかる • 同じ処理をコードで実⾏した⽅が早い

18 ここから実際の画⾯でデモをやっていきます内容︓DataBrewプロジェクト作成〜レシピ作成〜ジョブ実⾏をやってみよう使⽤するデータ︓Titanicの機械学習⽤データ（以下URLからダウンロードして、S3バケットに保存した状態からスタートします） https://www.kaggle.com/c/titanic/data

19 まとめデータクリーニング、正規化に使えるGlue DataBrew • サーバレスかつコードを書かずにデータ処理のジョブを作成できるので構築に⼿間がかからない • プレビューで変換前／後を確認しながら様々な処理ができる •
データをアドホックに探索しながらワークフローを作るのに有⽤だが、複雑なETL処理の実装には向かない

Glue DataBrewでデータをクリーニング、加工してみよう

Glue DataBrewでデータをクリーニング、加工してみよう

suto

More Decks by suto

Featured

Transcript

Glue DataBrewでデータをクリーニング、加⼯してみよう 2021/10/7 データアナリティクス事業本部須藤健志

2 ⾃⼰紹介須藤健志（suto takeshi）所属データアナリティクス事業本部『データ分析基盤や機械学習基盤のコンサル・構築を担当』略歴通信事業会社のNWエンジニア→メーカー系SIer

3 アジェンダ • はじめに • Glue Databrewの概要 • Glue Databrewの機能と特徴

4 はじめにデータ分析・機械学習の前に⾏う「データクレンジング」

5 はじめに •こんなことありませんか︖ • 誤記や表記ゆれがあり前処理がうまくいかない • 重複しているデータがある、⽋損値がある • エラーが発⽣してデータを取り込めない

6 はじめにデータのクレンジングが必要⽋損の修正重複データの削除正規化・標準化無関係なデータの削除やマスキング

7 はじめにしかしデータクレンジングには時間とコストがかかる • ワークフローの構築とその⾃動化 • システム間で⼤容量データの移動

8 Glue DataBrewとはコードを記述せずにデータのクリーンアップおよび正規化ができるビジュアルデータ準備ツール AWSマネージドサービス（サーバレスで使える）

9 Glue DataBrewとは主な機能 250種類以上の変換処理 • プレビューで変換前と変換後を⽐べながら処理を作成

10 Glue DataBrewとは主な機能ワークフローの⾃動化 • ジョブの実⾏をスケジューリングできる

11 Glue DataBrewとは主な機能データリネージの視覚化 • データが通過した様々なデータソースと変換ステップをビジュアルで確認

12 Glue DataBrewとは主な機能データプロファイリング • データの相関関係や統計をわかりやすく表⽰

13 Glue DataBrewとはサポートしているファイルタイプ【⼊⼒ファイル】 • CSV • Parquet •

14 Glue DataBrewとは指定できるデータソース、出⼒先も充実してきた【データソース】 • Amazon S3 • Amazon

15 Glue DataBrewの料⾦インタラクティブセッション（1.0$/30分） • プロジェクト画⾯を開くとセッション開始 • 未操作の時間が続けば⾃動でサスペンド • はじめてDataBrewを使う場合、最初の40セッションは無償

16 Glue DataBrewの使いどころ主なユースケース • データをアドホックに探索して BIレポートやデータマートの作成に向けた策定 • 定常的かつ簡単なデータクリーニング処理を⾃動化したい •

17 Glue DataBrewの使いどころ（技術的に可能だが）DataBrewには向かないケース • 複雑なETL処理 →実現に膨⼤なステップ数となるため • 機械学習における特徴量計算 •

19 まとめデータクリーニング、正規化に使えるGlue DataBrew • サーバレスかつコードを書かずにデータ処理のジョブを作成できるので構築に⼿間がかからない • プレビューで変換前／後を確認しながら様々な処理ができる •

Glue DataBrewでデータを クリーニング、加工してみよう

Glue DataBrewでデータを クリーニング、加工してみよう

More Decks by suto

Featured

Transcript

Glue DataBrewでデータをクリーニング、加工してみよう

Glue DataBrewでデータをクリーニング、加工してみよう