Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
KDD2018 チュートリアルの紹介(Privacy Preserving Data Mining)
Search
Shunsuke Soeda
November 07, 2018
Education
0
160
KDD2018 チュートリアルの紹介(Privacy Preserving Data Mining)
KDD 2018 の、30分くらいでの紹介。元々の Tutorial は以下のURL:
https://sites.google.com/view/kdd2018privacytutorial
Shunsuke Soeda
November 07, 2018
Tweet
Share
Other Decks in Education
See All in Education
栃木県警サイバーセキュリティ研修会2026
nomizone
0
200
JavaScript - Lecture 6 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
Use Cases and Course Review - Lecture 8 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.4k
多様なメンター、多様な基準
yasulab
PRO
5
19k
外国籍エンジニアの挑戦・新卒半年後、気づきと成長の物語
hypebeans
0
740
AWS re_Invent に全力で参加したくて筋トレを頑張っている話
amarelo_n24
2
130
0121
cbtlibrary
0
130
学習指導要領と解説に基づく学習内容の構造化の試み / Course of study Commentary LOD JAET 2025
masao
0
130
1021
cbtlibrary
0
400
Cifrado asimétrico
irocho
0
390
子どもが自立した学習者となるデジタルの活用について
naokikato
PRO
0
190
俺と地方勉強会 - KomeKaigi・地方勉強会への期待 -
pharaohkj
1
1.6k
Featured
See All Featured
Navigating Weather and Climate Data
rabernat
0
110
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
260
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
200
What does AI have to do with Human Rights?
axbom
PRO
0
2k
Prompt Engineering for Job Search
mfonobong
0
160
The Language of Interfaces
destraynor
162
26k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
170
Optimizing for Happiness
mojombo
379
71k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.9k
Marketing to machines
jonoalderson
1
4.6k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1.1k
Transcript
論文紹介 KDD 2018 Tutorial Privacy-preserving Data Mining in Industry: Practical
Challenges and Lessons Learned Shunsuke Soeda LINE Corporation
自己紹介 副田 俊介(そえだ しゅんすけ) • 所属 • LAPプロダクトマネジメント室 / Data
labs • データの収集と、それをビジネスへの活用に関する PM • 過去 ゲーム木探索アルゴリズム → 人流シミュレータ → 広告基盤のデータ接続 → データ管理・活用 プライバシー保護 Main Part time
本日紹介する内容 • Privacy-preserving Data Mining in Industry: Practical Challenges and
Lessons Learned https://sites.google.com/view/kdd2018privacytutorial
質問! • 以下の言葉についてご存知ですか? • Privacy preserving data mining • データの匿名化
• k-匿名性 (k-anonymity) • Differential privacy
目次 • Privacy breaches and lessons learned • Differential privacy:
definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
目次 • Privacy breaches and lessons learned • Differential privacy:
definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
Privacy Breaches and Lessons Learned • Attacks on privacy •
Governor of Massachusetts • AOL • Netflix • Web browsing data • Facebook • Amazon • Genomic data
Netflix Prize
Netflix Prize • 2006年10月 Netflix が Netflix prize を発表 •
ユーザーの 10% のデータの提供 • 平均で 1ユーザーあたり 200レビュー
Netflix dataの再識別 (de-anonymization)
Privacy Attacks On Ad Targeting
Facebook vs Korolova 10個のキャンペーンで1人のユーザーをターゲティングする
Facebook vs Korolova 10個のキャンペーンで1人のユーザーをターゲティングする
Facebook vs Korolova: Recap • コンテキスト: 広告のマイクロターゲティング • 気づき: キャンペーンを利用して個人を
特定できる
攻撃が何故成功するのか? • 間接的に個人を特定するのに有用なデータの存在 • 少数でも成功なら成功 • 高次元のデータ • アクティブなデータ
目次 • Privacy breaches and lessons learned • Differential privacy:
definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
プライバシーの定義
プライバシーの定義
プライバシーの定義 直感的には: 特定のユーザーのデータがなかったとしても、出てくる結果が変わらな い。
Differential Privacy • データベース D とD’ が、データ 1人分の違いしかない場合には「近 所にある」と呼ぶ •
Differential Privacy [DMNS06]
Differential Privacy • ε-Differential Privacy: M(D) と M(D’) がほぼ同じ。
Differential Privacy: Takeaway points • 少数のデータを入れ替えることで定義される、プライバシーの概念 • 最悪ケース • 頑健性(auxiliary
data や 相関性のあるデータ) • 組合せ可能(f(M(D)) = M(D)) • 定量化可能 • プライバシー予算の概念
目次 • Privacy breaches and lessons learned • Differential privacy:
definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
目的: Google Chrome 不正な設定の変更の状況の改善(モニタリング)
Randomized response: 機微情報の収集 • 1960年代に、機微な情報を集めるために提案 “あなたは共産党員ですか?” • こっそり コインを投げる •
表なら”yes”と答える • 裏なら正直に答える 実際の分布を推定: 2 × (“YES” の割合 - 1⁄2 )
Randomized response: 機微情報の収集 • 1960年代に、機微な情報を集めるために提案 “あなたは共産党員ですか?” • こっそり コインを投げる •
表なら”yes”と答える コインをもう一回投げて、表なら “YES” 裏なら “NO” と答える • 裏なら正直に答える 実際の分布を推定: 2 × (“YES” の割合 - 1⁄2 ) Differential privacy の条件を満たす
RAPPOR: two-level randomized response Randomize response を繰り返し使うと問題だよね? — 何回もやって平均を取ると、正解が分かってしまう :-(
解決策: 結果を記録(memoize)しておいて、使い回す —長いデータランダムなデータは、それ自体がトラッキングに使えるID になってしまう :-( 解決策: 二段階で行う!記録された 結果を更にランダム化する
生データ→ノイズを除去したデータ→分布
Open sourced • https://github.com/google/rappor
Key takeaway points RAPPOR - locally differentially-private mechanism for reporting
of categorical and string data • Differential privacy の、初のインターネット規模での実装 • 説明可能性 • オープンソース化されている
EOP