Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Glue DataBrewでデータを クリーニング、加工してみよう
Search
suto
October 07, 2021
0
840
Glue DataBrewでデータを クリーニング、加工してみよう
Developers.IO 2021 Decade で発表した資料です
suto
October 07, 2021
Tweet
Share
More Decks by suto
See All by suto
DevelopersIO2023「Amazon DataZoneを触ってみた」
sutotakeshi
0
1.3k
re:Growth2022「Analytics系アップデートまとめ」
sutotakeshi
0
660
OSSデータカタログツール「DataHub」を触ってみた
sutotakeshi
0
5k
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Intergalactic Javascript Robots from Outer Space
tanoku
269
27k
Navigating Team Friction
lara
183
14k
Teambox: Starting and Learning
jrom
133
8.8k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Typedesign – Prime Four
hannesfritz
40
2.4k
The Language of Interfaces
destraynor
154
24k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Transcript
Glue DataBrewでデータを クリーニング、加⼯してみよう 2021/10/7 データアナリティクス事業本部 須藤 健志
2 ⾃⼰紹介 須藤 健志(suto takeshi) 所属 データアナリティクス事業本部 『データ分析基盤や機械学習基盤のコンサル・構築を担当』 略歴 通信事業会社のNWエンジニア→メーカー系SIer
→クラスメソッドJoin(2020年4⽉) 好きなAWSサービス AWS CDK、Glue DataBrew、SageMaker
3 アジェンダ • はじめに • Glue Databrewの概要 • Glue Databrewの機能と特徴
• Glue Databrewの使いどころ • デモ • まとめ
4 はじめに データ分析・機械学習の前に⾏う 「データクレンジング」
5 はじめに •こんなことありませんか︖ • 誤記や表記ゆれがあり前処理がうまくいかない • 重複しているデータがある、⽋損値がある • エラーが発⽣してデータを取り込めない
6 はじめに データのクレンジングが必要 ⽋損の修正 重複データの削除 正規化・標準化 無関係なデータの削除や マスキング
7 はじめに しかしデータクレンジングには 時間とコストがかかる • ワークフローの構築とその⾃動化 • システム間で⼤容量データの移動
8 Glue DataBrewとは コードを記述せずに データのクリーンアップおよび正規化ができる ビジュアルデータ準備ツール AWSマネージドサービス (サーバレスで使える)
9 Glue DataBrewとは 主な機能 250種類以上の変換処理 • プレビューで変換前と変換後を⽐べながら処理を作成
10 Glue DataBrewとは 主な機能 ワークフローの⾃動化 • ジョブの実⾏をスケジューリングできる
11 Glue DataBrewとは 主な機能 データリネージの視覚化 • データが通過した様々なデータソースと変換ステップをビジュアルで確認
12 Glue DataBrewとは 主な機能 データプロファイリング • データの相関関係や統計をわかりやすく表⽰
13 Glue DataBrewとは サポートしているファイルタイプ 【⼊⼒ファイル】 • CSV • Parquet •
Json • Excel 【区切り⽂字】 • カンマ(,) • コロン(:) • セミコロン(:) • パイプ(|) • タブ(¥t) • キャレット(^) • バックスラッシュ(\) • スペース 【圧縮タイプ】 • なし • Snappy • Gzip • LZ4 • Bzip2 • Deflate • Brotli 【出⼒ファイル】 • CSV • Parquet • Glue Parquet • AVRO • ORC • XML • Json • Tableau Hyper
14 Glue DataBrewとは 指定できるデータソース、出⼒先も充実してきた 【データソース】 • Amazon S3 • Amazon
Redshift • Glueデータカタログ (S3、Redshift、RDS、Lake Formation) • Snowflake • その他データベース (JDBC接続経由) • サードパーティデータ (AWS Data Exchange またはAmazon AppFlow経由) 【出⼒先】 • Amazon S3 • Amazon Redshift • Glueデータカタログ (S3、Redshift、RDS 、Lake Formation ) • Snowflake • その他データベース (JDBC接続経由)
15 Glue DataBrewの料⾦ インタラクティブセッション(1.0$/30分) • プロジェクト画⾯を開くとセッション開始 • 未操作の時間が続けば⾃動でサスペンド • はじめてDataBrewを使う場合、最初の40セッションは無償
ジョブ実⾏(0.48$/ノード/時間) • ジョブ実⾏に使⽤されたノード数に基づいて1時間ごとに課⾦ • デフォルトでは各ジョブに5ノード割り当て • 1ノード4vCPUs、16GBメモリ
16 Glue DataBrewの使いどころ 主なユースケース • データをアドホックに探索して BIレポートやデータマートの作成に向けた策定 • 定常的かつ簡単なデータクリーニング処理を⾃動化したい •
データ準備処理のためのパイプラインを コーディングレスで構築したい
17 Glue DataBrewの使いどころ (技術的に可能だが)DataBrewには向かないケース • 複雑なETL処理 →実現に膨⼤なステップ数となるため • 機械学習における特徴量計算 •
データ分析における複数テーブルからの統計処理 →エンジニアからすればコード開発した⽅がラク • データ前処理⼯程を1つのサーバ内で⼀貫して素早く処理したい • Glue Databrewジョブの実⾏完了には時間がかかる • 同じ処理をコードで実⾏した⽅が早い
18 ここから実際の画⾯でデモをやっていきます 内容︓DataBrewプロジェクト作成〜レシピ作成〜ジョブ実⾏をやってみよう 使⽤するデータ︓Titanicの機械学習⽤データ (以下URLからダウンロードして、S3バケットに保存した状態からスタートします) https://www.kaggle.com/c/titanic/data
19 まとめ データクリーニング、正規化に使えるGlue DataBrew • サーバレスかつコードを書かずにデータ処理のジョブを作成で きるので構築に⼿間がかからない • プレビューで変換前/後を確認しながら様々な処理ができる •
データをアドホックに探索しながらワークフローを作るのに有 ⽤だが、複雑なETL処理の実装には向かない
None