Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ初心者がAWS Glue DataBrewでPII対策やってみた
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Akira Sato
July 25, 2024
0
77
データ初心者がAWS Glue DataBrewでPII対策やってみた
Akira Sato
July 25, 2024
Tweet
Share
More Decks by Akira Sato
See All by Akira Sato
FinOps入門
a22sato
0
100
AWSのコストについて再考してみる
a22sato
0
180
1度で2度おいしいBedrock入門
a22sato
0
41
Transit GWでNat VPCを作成する
a22sato
1
330
リソースをIaCで管理しよう
a22sato
0
320
Storage LensでS3を大掃除しよう
a22sato
0
470
20231030_LT登壇資料.pdf
a22sato
0
800
Featured
See All Featured
Building Applications with DynamoDB
mza
96
6.9k
Marketing to machines
jonoalderson
1
4.6k
Writing Fast Ruby
sferik
630
62k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
56
50k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
430
Testing 201, or: Great Expectations
jmmastey
46
8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
59
42k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Everyday Curiosity
cassininazir
0
130
Transcript
データ初⼼者が AWS Glue DataBrew でPII対策やってみた 2024/7/25 Akira Sato
⾃⼰紹介
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
What’s PII︖ • Personally Identifiable Information(PII)の略称 • 簡単に⾔ってしまえば個⼈情報 • 名前、⽣年⽉⽇、⾃宅住所、社会保障番号、運転免許番号、クレジットカード番号など
• 情報の内容に応じて分類されたりもする(直接/間接 など) PII とは︖
Why PII︖ あなたは機械学習エンジニアです。現在利⽤しているデータには個⼈を特定できる情報(PII)が含 まれています。社内ルールで学習にPIIを使⽤してはなりません。あなたは、MLモデルで使⽤する保 険データを提供するために適切なAWSサービスを選択しなければなりません。 最も費⽤対効果の⾼い⽅法で要件を満たすにはどの⼿段をとりますか。 a. 真⼼を込めて⼿作業 b. 伝統のscript
c. 先輩秘伝のLambda d. AWS Glue DataBrew 問題 認定試験だと選べるけど、 “本当に︖” が気になる
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
いきなり結論 • ⽇本語のデータはうまく処理できない 結論
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
Glue DataBrewとは︖ • AWS Glue DataBrew は、データのクリーニング、正規化、変換を⾏う ためのフルマネージドのビジュアルデータ準備サービスです。 AWS Glue
ETL とは異なり、使⽤するコードを作成する必要がありません。 • 詳細は AWS BLACK BELT ONLINE SEMINAR をご参照ください 参考︓AWS Glue DataBrew 今回はDataBrewのPII マスキング機能を使ってみる
今回のデータ • サンプルデータは架空の個⼈情報を100⼈分⽤意 → ⽒名(⽇⽶)、メールアドレス、住所(⽇⽶)、電話番号、クレジットカード番号
Glue DataBrew(1/3) • データをS3に格納後、取り込むだけで簡単に利⽤できる
Glue DataBrew(2/3) • オプションを選択するだけでPIIのマスキングができる
Glue DataBrew(3/3) • ⽇本語はマスクされない事がわかる
なぜマスクされないのか︖ • アメリカにおけるPIIをマスキングする機能なので⽇本語は適応外 (形式が合致すれば適応される) 参考︓Building a profile job configuration programmatically
in AWS Glue DataBrew
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
まとめ • (認定試験の様にサービスを選択しても)⽇本語のデータはうま く処理できない • ⽇本語のPIIを含むデータ処理を⾏う際には内容に応じた対策が必須 • 列を指定してのマスキングであればDataBrewで実施可能だが、 要件に応じて他のサービスとの組み合わせの検討が必須