Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ初心者がAWS Glue DataBrewでPII対策やってみた
Search
Akira Sato
July 25, 2024
0
76
データ初心者がAWS Glue DataBrewでPII対策やってみた
Akira Sato
July 25, 2024
Tweet
Share
More Decks by Akira Sato
See All by Akira Sato
FinOps入門
a22sato
0
97
AWSのコストについて再考してみる
a22sato
0
180
1度で2度おいしいBedrock入門
a22sato
0
40
Transit GWでNat VPCを作成する
a22sato
1
330
リソースをIaCで管理しよう
a22sato
0
320
Storage LensでS3を大掃除しよう
a22sato
0
470
20231030_LT登壇資料.pdf
a22sato
0
790
Featured
See All Featured
Site-Speed That Sticks
csswizardry
13
1k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
46
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
300
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
Six Lessons from altMBA
skipperchong
29
4.1k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
0
1.8k
BBQ
matthewcrist
89
10k
The Curious Case for Waylosing
cassininazir
0
200
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
280
Transcript
データ初⼼者が AWS Glue DataBrew でPII対策やってみた 2024/7/25 Akira Sato
⾃⼰紹介
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
What’s PII︖ • Personally Identifiable Information(PII)の略称 • 簡単に⾔ってしまえば個⼈情報 • 名前、⽣年⽉⽇、⾃宅住所、社会保障番号、運転免許番号、クレジットカード番号など
• 情報の内容に応じて分類されたりもする(直接/間接 など) PII とは︖
Why PII︖ あなたは機械学習エンジニアです。現在利⽤しているデータには個⼈を特定できる情報(PII)が含 まれています。社内ルールで学習にPIIを使⽤してはなりません。あなたは、MLモデルで使⽤する保 険データを提供するために適切なAWSサービスを選択しなければなりません。 最も費⽤対効果の⾼い⽅法で要件を満たすにはどの⼿段をとりますか。 a. 真⼼を込めて⼿作業 b. 伝統のscript
c. 先輩秘伝のLambda d. AWS Glue DataBrew 問題 認定試験だと選べるけど、 “本当に︖” が気になる
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
いきなり結論 • ⽇本語のデータはうまく処理できない 結論
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
Glue DataBrewとは︖ • AWS Glue DataBrew は、データのクリーニング、正規化、変換を⾏う ためのフルマネージドのビジュアルデータ準備サービスです。 AWS Glue
ETL とは異なり、使⽤するコードを作成する必要がありません。 • 詳細は AWS BLACK BELT ONLINE SEMINAR をご参照ください 参考︓AWS Glue DataBrew 今回はDataBrewのPII マスキング機能を使ってみる
今回のデータ • サンプルデータは架空の個⼈情報を100⼈分⽤意 → ⽒名(⽇⽶)、メールアドレス、住所(⽇⽶)、電話番号、クレジットカード番号
Glue DataBrew(1/3) • データをS3に格納後、取り込むだけで簡単に利⽤できる
Glue DataBrew(2/3) • オプションを選択するだけでPIIのマスキングができる
Glue DataBrew(3/3) • ⽇本語はマスクされない事がわかる
なぜマスクされないのか︖ • アメリカにおけるPIIをマスキングする機能なので⽇本語は適応外 (形式が合致すれば適応される) 参考︓Building a profile job configuration programmatically
in AWS Glue DataBrew
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
まとめ • (認定試験の様にサービスを選択しても)⽇本語のデータはうま く処理できない • ⽇本語のPIIを含むデータ処理を⾏う際には内容に応じた対策が必須 • 列を指定してのマスキングであればDataBrewで実施可能だが、 要件に応じて他のサービスとの組み合わせの検討が必須