Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Glue DataBrewでデータを クリーニング、加工してみよう
Search
suto
October 07, 2021
0
830
Glue DataBrewでデータを クリーニング、加工してみよう
Developers.IO 2021 Decade で発表した資料です
suto
October 07, 2021
Tweet
Share
More Decks by suto
See All by suto
DevelopersIO2023「Amazon DataZoneを触ってみた」
sutotakeshi
0
1.3k
re:Growth2022「Analytics系アップデートまとめ」
sutotakeshi
0
650
OSSデータカタログツール「DataHub」を触ってみた
sutotakeshi
0
4.9k
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
228
52k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Why Our Code Smells
bkeepers
PRO
334
57k
Unsuck your backbone
ammeep
668
57k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
43
6.6k
BBQ
matthewcrist
85
9.3k
The Invisible Side of Design
smashingmag
297
50k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
How STYLIGHT went responsive
nonsquared
95
5.2k
The Language of Interfaces
destraynor
154
24k
Transcript
Glue DataBrewでデータを クリーニング、加⼯してみよう 2021/10/7 データアナリティクス事業本部 須藤 健志
2 ⾃⼰紹介 須藤 健志(suto takeshi) 所属 データアナリティクス事業本部 『データ分析基盤や機械学習基盤のコンサル・構築を担当』 略歴 通信事業会社のNWエンジニア→メーカー系SIer
→クラスメソッドJoin(2020年4⽉) 好きなAWSサービス AWS CDK、Glue DataBrew、SageMaker
3 アジェンダ • はじめに • Glue Databrewの概要 • Glue Databrewの機能と特徴
• Glue Databrewの使いどころ • デモ • まとめ
4 はじめに データ分析・機械学習の前に⾏う 「データクレンジング」
5 はじめに •こんなことありませんか︖ • 誤記や表記ゆれがあり前処理がうまくいかない • 重複しているデータがある、⽋損値がある • エラーが発⽣してデータを取り込めない
6 はじめに データのクレンジングが必要 ⽋損の修正 重複データの削除 正規化・標準化 無関係なデータの削除や マスキング
7 はじめに しかしデータクレンジングには 時間とコストがかかる • ワークフローの構築とその⾃動化 • システム間で⼤容量データの移動
8 Glue DataBrewとは コードを記述せずに データのクリーンアップおよび正規化ができる ビジュアルデータ準備ツール AWSマネージドサービス (サーバレスで使える)
9 Glue DataBrewとは 主な機能 250種類以上の変換処理 • プレビューで変換前と変換後を⽐べながら処理を作成
10 Glue DataBrewとは 主な機能 ワークフローの⾃動化 • ジョブの実⾏をスケジューリングできる
11 Glue DataBrewとは 主な機能 データリネージの視覚化 • データが通過した様々なデータソースと変換ステップをビジュアルで確認
12 Glue DataBrewとは 主な機能 データプロファイリング • データの相関関係や統計をわかりやすく表⽰
13 Glue DataBrewとは サポートしているファイルタイプ 【⼊⼒ファイル】 • CSV • Parquet •
Json • Excel 【区切り⽂字】 • カンマ(,) • コロン(:) • セミコロン(:) • パイプ(|) • タブ(¥t) • キャレット(^) • バックスラッシュ(\) • スペース 【圧縮タイプ】 • なし • Snappy • Gzip • LZ4 • Bzip2 • Deflate • Brotli 【出⼒ファイル】 • CSV • Parquet • Glue Parquet • AVRO • ORC • XML • Json • Tableau Hyper
14 Glue DataBrewとは 指定できるデータソース、出⼒先も充実してきた 【データソース】 • Amazon S3 • Amazon
Redshift • Glueデータカタログ (S3、Redshift、RDS、Lake Formation) • Snowflake • その他データベース (JDBC接続経由) • サードパーティデータ (AWS Data Exchange またはAmazon AppFlow経由) 【出⼒先】 • Amazon S3 • Amazon Redshift • Glueデータカタログ (S3、Redshift、RDS 、Lake Formation ) • Snowflake • その他データベース (JDBC接続経由)
15 Glue DataBrewの料⾦ インタラクティブセッション(1.0$/30分) • プロジェクト画⾯を開くとセッション開始 • 未操作の時間が続けば⾃動でサスペンド • はじめてDataBrewを使う場合、最初の40セッションは無償
ジョブ実⾏(0.48$/ノード/時間) • ジョブ実⾏に使⽤されたノード数に基づいて1時間ごとに課⾦ • デフォルトでは各ジョブに5ノード割り当て • 1ノード4vCPUs、16GBメモリ
16 Glue DataBrewの使いどころ 主なユースケース • データをアドホックに探索して BIレポートやデータマートの作成に向けた策定 • 定常的かつ簡単なデータクリーニング処理を⾃動化したい •
データ準備処理のためのパイプラインを コーディングレスで構築したい
17 Glue DataBrewの使いどころ (技術的に可能だが)DataBrewには向かないケース • 複雑なETL処理 →実現に膨⼤なステップ数となるため • 機械学習における特徴量計算 •
データ分析における複数テーブルからの統計処理 →エンジニアからすればコード開発した⽅がラク • データ前処理⼯程を1つのサーバ内で⼀貫して素早く処理したい • Glue Databrewジョブの実⾏完了には時間がかかる • 同じ処理をコードで実⾏した⽅が早い
18 ここから実際の画⾯でデモをやっていきます 内容︓DataBrewプロジェクト作成〜レシピ作成〜ジョブ実⾏をやってみよう 使⽤するデータ︓Titanicの機械学習⽤データ (以下URLからダウンロードして、S3バケットに保存した状態からスタートします) https://www.kaggle.com/c/titanic/data
19 まとめ データクリーニング、正規化に使えるGlue DataBrew • サーバレスかつコードを書かずにデータ処理のジョブを作成で きるので構築に⼿間がかからない • プレビューで変換前/後を確認しながら様々な処理ができる •
データをアドホックに探索しながらワークフローを作るのに有 ⽤だが、複雑なETL処理の実装には向かない
None