Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMakerDataWranglerでノンコードデータ前処理を試してみた
Search
holywater044
May 31, 2021
Technology
55
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SageMakerDataWranglerでノンコードデータ前処理を試してみた
JAWS-UG名古屋202105登壇資料
https://jawsug-nagoya.doorkeeper.jp/events/121870
holywater044
May 31, 2021
More Decks by holywater044
See All by holywater044
第4回Snowflake中部 User Group 〜DWの設計や運用、みんなどうしてるの? Snowflakeで迷うことディスカッション会~
holywater044
0
150
第3回 Snowflake 中部ユーザ会 - dbt x Snowflake ハンズオン - 状態イラスト抜粋版
holywater044
0
100
Tableau & Snowflake ハンズオン ~ データコラボレーションをぷち体験しよう ~
holywater044
1
330
Prepの集計機能についておさらいしてみる
holywater044
1
140
機械学習の勉強で出会った印象的なワード
holywater044
1
44
時系列予測サービス Amazon Forecast の初学レポート
holywater044
0
43
Other Decks in Technology
See All in Technology
生成 AI × MCP で切り拓く次世代 SRE!自律型運用への挑戦と開発者体験の進化
_awache
0
170
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
200
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
900
機械学習を「社会実装」するということ 2026年夏版 / Social Implementation of Machine Learning June 2026 Version
moepy_stats
2
150
Platform engineering for developers, architects & the rest of us (AI agents)
danielbryantuk
0
190
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.8k
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
320
【Gen-AX】20260530開催_JJUG CCC 2026 Spring
genax
0
440
タクシーアプリ『GO』の実践的データ活用
mot_techtalk
3
170
Rancherの紹介&Update情報(RancherJP Online Meetup #09)
yoshiyuki_kono
0
130
noUncheckedIndexedAccess、3時間、1万円。 / noUncheckedIndexedAccess, 3 Hours, 10,000 JPY.
kaonavi
1
340
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
1.7k
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
450
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
160
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
210
Git: the NoSQL Database
bkeepers
PRO
432
67k
Paper Plane
katiecoart
PRO
1
51k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
250
Agile that works and the tools we love
rasmusluckow
331
21k
Accessibility Awareness
sabderemane
1
130
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
400
Transcript
SageMaker DataWranglerで ノンコードデータ前処理を試してみた JAWS-UG名古屋 データ分析を学ぶ 2021-05-31 MON AKIHIRO HORIKAWA 1
自己紹介 名前: Akihiro Horikawa 所属: 総合エネルギー会社の技術研究所 仕事: 社内のデータ分析(主にアセスメントとマネージメント) 資格: ・JDLA
G検定 2018#2 ・データ分析実務スキル検定 PM級 コミュニティ:・機械学習名古屋 ・JAWS-UG名古屋 ・中部Tableauユーザ会 ・DataRobotコミュニティ 趣味: 子供、データサイエンス、ゲーム、漫画 2
はじめに 3 ⚫ SageMakerStudioに搭載されている、ノンコードデー タ前処理ツール?『SageMaker DataWrangler』 の操作デモになります ⚫ 本LTは、2021年5月31日時点の情報に基づきます ⚫
本LTの内容にAWS公式と相異があった場合、AWS 公式を正とさせていただきます ⚫ 本LTは登壇者個人の見解であり、誤りが含まれる可 能性があります
4 『 前処理が8割 』
前処理が8割 ⚫ 可視化やモデリング以前に、生データをまともに分析で きるようにするまでが大変 ⚫ データ分析界隈では耳にタコができるくらいよく聞く話 ⚫ ただ、「前処理」の指す範囲はっきりしない気もする データ収集、整形系の前処理、探索的データ分析(EDA)、 ML準備系の前処理、特徴量エンジニアリング、・・・
5
前処理が8割 ⚫ 『データ民主化』の流れで、ノンコード・GUIベースの データ前処理ツールも、存在感を増してる印象 ➢ Tableau PrepBuilder ➢ Alteryx ➢
DataRobot Prep(旧Paxata) etc ⚫ 学習コストの低さ、作業効率、可読性などにメリット ⚫ でも上記はそれなりのお値段するので、気軽に使える ツールないかなあと思っていた 6
7 『 データ ラングリング 』
データラングリング 8 ⚫ 「ラングリング」(wrangling)は、馬などを飼いならす、 の意 ⚫ カウボーイ(wrangler)が暴れ馬を乗りこなすように、 データを自在に操るための収集・処理・分析・利用の 総合テクニック 参考:オライリー
“Pythonではじめるデータラングリング” https://www.oreilly.co.jp/books/9784873117942/ ⚫ 某AIベンチャーさんが使っていたのではじめて聞いた
データラングリング 9 ⚫ AWSから『データラングリング』の名を冠したサービスが 出ました! ⚫ 興味あったけどなかなか試せずにいたので、今回データ 分析の会ということで、使ってみました! Amazon SageMaker
※ 個別のアイコンはないっぽい
10 試す内容
試す内容 11 ⚫ 普段使っているTableauPrepの基本機能を参考に 作ったお題リスト # 内容 TableauPrepの機能 1 読込み(S3のcsv)、型変更
読込み 2 サンプル、統計量、分布の確認 クリーニング 3 ユニオン ユニオン 4 ジョイン ジョイン 5 不要項目の削除 クリーニング 6 加工項目の追加 クリーニング 7 絞込み(フィルタ) クリーニング 8 集計 集計 9 ピボット ピボット 10 出力(S3のcsv) 出力
試す内容 12 ⚫ データ項目、ER ⚫ 前処理の概要 【売上データ : transaction_1, transaction_2】
tansaction_id item_id quantity date delete pivot1 pivot2 item_id item_name item_price 【商品マスタ : master】 1 1..n +ユニオン transaction_2 2000レコード ← master transaction_1 3000レコード ジョイン 項目削除 delete 項目追加 item_price*quantity 絞込み item_name 集計 date(月次) ピボット pivot1,2 transaction_all
13 操作デモ
操作デモ ⚫ 前置き • SageMakerStudioは起動済で、フローを新しく作るところ から始めます • データは、S3にアップロード済です 14
操作デモ ⚫ 補足 • 最後のファイル出力のnotebookの実行は、 SageMakerStudioのクイックスタートで作ったIAMでは権 限が足りず途中でエラーが出ました ⇒ IAMReadOnlyAccessポリシーをアタッチしました 15
16 まとめ
まとめ 17 ⚫ お題を試した結果 ただ、このお題は、SMDataWrnglerには不利だったように思う (次ページ) # 内容 ノンコードでできたか 1
読込み(S3のcsv)、型変更 できた 2 サンプル、統計量、分布の確認 できた 3 ユニオン できた 4 ジョイン できた 5 不要項目の削除 できた 6 加工項目の追加 できた 7 絞込み(フィルタ) わからなかった 8 集計 わからなかった 9 ピボット わからなかった 10 出力(S3のcsv) できた?
まとめ ⚫ 所感 • 今回のお題からは、TableauPrepの代わりは辛そう ➢ ノンコードでできないことがあった ➢ 出力のジョブに約6分弱もかかった(x4largeなのに) ➢
GUIのユーザビリティに差がある • 一方、お題には出てこない機械学習用の前処理機能がある これらは、TableauPrepには無いもの(現時点) ➢ カテゴリのダミー変数化(OneHotエンコーディングなど) ➢ 統計的手法による、外れ値処理・欠損値処理 ➢ 予測精度の味見 etc 18
まとめ ⚫ 所感 • おそらく、想定するユースケースが元々違うんだろう ➢ TableauPrep: ビジネスパーソンの可視化分析の前処理 ➢ SMDataWrangler:
エンジニアの機械学習の前処理 • SMDataWranglerは、機械学習データパイプラインへの組 み込みや、AWSの他サービスとの連携、といったシーンで強み が期待できるんじゃないか • そう考えると今回はお題がずれてた気がするし、機能もまだま だ把握しきれてないので、もう少し調べてみようかと思う 19
まとめ ⚫ おまけ • ところで、わからないこと調べてたら、以下が出てきた 20 AWS Glue DataBrew •
あれ? これもノンコードデータ前処理じゃね??
21 俺たちの戦いはこれからだ!!
22 ご清聴ありがとうございました。