Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ初心者がAWS Glue DataBrewでPII対策やってみた
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Akira Sato
July 25, 2024
110
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
データ初心者がAWS Glue DataBrewでPII対策やってみた
Akira Sato
July 25, 2024
More Decks by Akira Sato
See All by Akira Sato
FinOps入門
a22sato
0
120
AWSのコストについて再考してみる
a22sato
0
200
1度で2度おいしいBedrock入門
a22sato
0
56
Transit GWでNat VPCを作成する
a22sato
1
360
リソースをIaCで管理しよう
a22sato
0
340
Storage LensでS3を大掃除しよう
a22sato
0
480
20231030_LT登壇資料.pdf
a22sato
0
840
Featured
See All Featured
Tell your own story through comics
letsgokoyo
1
950
Leo the Paperboy
mayatellez
7
1.8k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
We Are The Robots
honzajavorek
0
240
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.8k
The Cost Of JavaScript in 2023
addyosmani
55
10k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
200
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
410
Transcript
データ初⼼者が AWS Glue DataBrew でPII対策やってみた 2024/7/25 Akira Sato
⾃⼰紹介
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
What’s PII︖ • Personally Identifiable Information(PII)の略称 • 簡単に⾔ってしまえば個⼈情報 • 名前、⽣年⽉⽇、⾃宅住所、社会保障番号、運転免許番号、クレジットカード番号など
• 情報の内容に応じて分類されたりもする(直接/間接 など) PII とは︖
Why PII︖ あなたは機械学習エンジニアです。現在利⽤しているデータには個⼈を特定できる情報(PII)が含 まれています。社内ルールで学習にPIIを使⽤してはなりません。あなたは、MLモデルで使⽤する保 険データを提供するために適切なAWSサービスを選択しなければなりません。 最も費⽤対効果の⾼い⽅法で要件を満たすにはどの⼿段をとりますか。 a. 真⼼を込めて⼿作業 b. 伝統のscript
c. 先輩秘伝のLambda d. AWS Glue DataBrew 問題 認定試験だと選べるけど、 “本当に︖” が気になる
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
いきなり結論 • ⽇本語のデータはうまく処理できない 結論
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
Glue DataBrewとは︖ • AWS Glue DataBrew は、データのクリーニング、正規化、変換を⾏う ためのフルマネージドのビジュアルデータ準備サービスです。 AWS Glue
ETL とは異なり、使⽤するコードを作成する必要がありません。 • 詳細は AWS BLACK BELT ONLINE SEMINAR をご参照ください 参考︓AWS Glue DataBrew 今回はDataBrewのPII マスキング機能を使ってみる
今回のデータ • サンプルデータは架空の個⼈情報を100⼈分⽤意 → ⽒名(⽇⽶)、メールアドレス、住所(⽇⽶)、電話番号、クレジットカード番号
Glue DataBrew(1/3) • データをS3に格納後、取り込むだけで簡単に利⽤できる
Glue DataBrew(2/3) • オプションを選択するだけでPIIのマスキングができる
Glue DataBrew(3/3) • ⽇本語はマスクされない事がわかる
なぜマスクされないのか︖ • アメリカにおけるPIIをマスキングする機能なので⽇本語は適応外 (形式が合致すれば適応される) 参考︓Building a profile job configuration programmatically
in AWS Glue DataBrew
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
まとめ • (認定試験の様にサービスを選択しても)⽇本語のデータはうま く処理できない • ⽇本語のPIIを含むデータ処理を⾏う際には内容に応じた対策が必須 • 列を指定してのマスキングであればDataBrewで実施可能だが、 要件に応じて他のサービスとの組み合わせの検討が必須