Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ初心者がAWS Glue DataBrewでPII対策やってみた
Search
Akira Sato
July 25, 2024
0
58
データ初心者がAWS Glue DataBrewでPII対策やってみた
Akira Sato
July 25, 2024
Tweet
Share
More Decks by Akira Sato
See All by Akira Sato
FinOps入門
a22sato
0
76
AWSのコストについて再考してみる
a22sato
0
170
1度で2度おいしいBedrock入門
a22sato
0
27
Transit GWでNat VPCを作成する
a22sato
1
320
リソースをIaCで管理しよう
a22sato
0
310
Storage LensでS3を大掃除しよう
a22sato
0
450
20231030_LT登壇資料.pdf
a22sato
0
760
Featured
See All Featured
Designing for Performance
lara
610
69k
The Pragmatic Product Professional
lauravandoore
36
7k
Why Our Code Smells
bkeepers
PRO
340
57k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Code Reviewing Like a Champion
maltzj
526
40k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Side Projects
sachag
455
43k
Building a Modern Day E-commerce SEO Strategy
aleyda
44
7.9k
Transcript
データ初⼼者が AWS Glue DataBrew でPII対策やってみた 2024/7/25 Akira Sato
⾃⼰紹介
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
What’s PII︖ • Personally Identifiable Information(PII)の略称 • 簡単に⾔ってしまえば個⼈情報 • 名前、⽣年⽉⽇、⾃宅住所、社会保障番号、運転免許番号、クレジットカード番号など
• 情報の内容に応じて分類されたりもする(直接/間接 など) PII とは︖
Why PII︖ あなたは機械学習エンジニアです。現在利⽤しているデータには個⼈を特定できる情報(PII)が含 まれています。社内ルールで学習にPIIを使⽤してはなりません。あなたは、MLモデルで使⽤する保 険データを提供するために適切なAWSサービスを選択しなければなりません。 最も費⽤対効果の⾼い⽅法で要件を満たすにはどの⼿段をとりますか。 a. 真⼼を込めて⼿作業 b. 伝統のscript
c. 先輩秘伝のLambda d. AWS Glue DataBrew 問題 認定試験だと選べるけど、 “本当に︖” が気になる
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
いきなり結論 • ⽇本語のデータはうまく処理できない 結論
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
Glue DataBrewとは︖ • AWS Glue DataBrew は、データのクリーニング、正規化、変換を⾏う ためのフルマネージドのビジュアルデータ準備サービスです。 AWS Glue
ETL とは異なり、使⽤するコードを作成する必要がありません。 • 詳細は AWS BLACK BELT ONLINE SEMINAR をご参照ください 参考︓AWS Glue DataBrew 今回はDataBrewのPII マスキング機能を使ってみる
今回のデータ • サンプルデータは架空の個⼈情報を100⼈分⽤意 → ⽒名(⽇⽶)、メールアドレス、住所(⽇⽶)、電話番号、クレジットカード番号
Glue DataBrew(1/3) • データをS3に格納後、取り込むだけで簡単に利⽤できる
Glue DataBrew(2/3) • オプションを選択するだけでPIIのマスキングができる
Glue DataBrew(3/3) • ⽇本語はマスクされない事がわかる
なぜマスクされないのか︖ • アメリカにおけるPIIをマスキングする機能なので⽇本語は適応外 (形式が合致すれば適応される) 参考︓Building a profile job configuration programmatically
in AWS Glue DataBrew
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
まとめ • (認定試験の様にサービスを選択しても)⽇本語のデータはうま く処理できない • ⽇本語のPIIを含むデータ処理を⾏う際には内容に応じた対策が必須 • 列を指定してのマスキングであればDataBrewで実施可能だが、 要件に応じて他のサービスとの組み合わせの検討が必須