Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
KDD2018 チュートリアルの紹介(Privacy Preserving Data Mining)
Search
Shunsuke Soeda
November 07, 2018
Education
0
93
KDD2018 チュートリアルの紹介(Privacy Preserving Data Mining)
KDD 2018 の、30分くらいでの紹介。元々の Tutorial は以下のURL:
https://sites.google.com/view/kdd2018privacytutorial
Shunsuke Soeda
November 07, 2018
Tweet
Share
Other Decks in Education
See All in Education
Design Guidelines and Principles - Lecture 7 - Information Visualisation (4019538FNR)
signer
PRO
0
1.7k
自由の森学園学校紹介資料
jiyunomori
0
1.5k
Introduction - Lecture 1 - Information Visualisation (4019538FNR)
signer
PRO
0
3.5k
Earthquake and Disaster Prevention Information for UTokyo International Students
utokyoissr2360
0
620
Поступление в ТОГУ 2024
pnuslide
0
36k
自己紹介 / who-am-i
yasulab
2
3.1k
Monaca Educationを活用した課題解決型の探究学習の実践
asial_edu
0
200
経験に複利を効かせろ!ふりかえり研修2024
pokotyamu
21
7.5k
2024年度春学期 統計学 講義の進め方と成績評価について (2024. 4. 11)
akiraasano
PRO
0
100
MonacaEducation導入手引き2024年第1版
asial_edu
1
150
第33回 JAWS-UG札幌 クラウド女子会コラボ 勉強会
nagisa53
2
350
HyRead2324
cbtlibrary
0
120
Featured
See All Featured
Fantastic passwords and where to find them - at NoRuKo
philnash
36
2.5k
The Power of CSS Pseudo Elements
geoffreycrofte
59
5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
77
42k
Docker and Python
trallard
33
2.7k
Raft: Consensus for Rubyists
vanstee
132
6.3k
How to name files
jennybc
64
93k
Git: the NoSQL Database
bkeepers
PRO
422
63k
StorybookのUI Testing Handbookを読んだ
zakiyama
12
4.6k
What the flash - Photography Introduction
edds
64
11k
Mobile First: as difficult as doing things right
swwweet
216
8.6k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
20
1.6k
Six Lessons from altMBA
skipperchong
20
3k
Transcript
論文紹介 KDD 2018 Tutorial Privacy-preserving Data Mining in Industry: Practical
Challenges and Lessons Learned Shunsuke Soeda LINE Corporation
自己紹介 副田 俊介(そえだ しゅんすけ) • 所属 • LAPプロダクトマネジメント室 / Data
labs • データの収集と、それをビジネスへの活用に関する PM • 過去 ゲーム木探索アルゴリズム → 人流シミュレータ → 広告基盤のデータ接続 → データ管理・活用 プライバシー保護 Main Part time
本日紹介する内容 • Privacy-preserving Data Mining in Industry: Practical Challenges and
Lessons Learned https://sites.google.com/view/kdd2018privacytutorial
質問! • 以下の言葉についてご存知ですか? • Privacy preserving data mining • データの匿名化
• k-匿名性 (k-anonymity) • Differential privacy
目次 • Privacy breaches and lessons learned • Differential privacy:
definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
目次 • Privacy breaches and lessons learned • Differential privacy:
definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
Privacy Breaches and Lessons Learned • Attacks on privacy •
Governor of Massachusetts • AOL • Netflix • Web browsing data • Facebook • Amazon • Genomic data
Netflix Prize
Netflix Prize • 2006年10月 Netflix が Netflix prize を発表 •
ユーザーの 10% のデータの提供 • 平均で 1ユーザーあたり 200レビュー
Netflix dataの再識別 (de-anonymization)
Privacy Attacks On Ad Targeting
Facebook vs Korolova 10個のキャンペーンで1人のユーザーをターゲティングする
Facebook vs Korolova 10個のキャンペーンで1人のユーザーをターゲティングする
Facebook vs Korolova: Recap • コンテキスト: 広告のマイクロターゲティング • 気づき: キャンペーンを利用して個人を
特定できる
攻撃が何故成功するのか? • 間接的に個人を特定するのに有用なデータの存在 • 少数でも成功なら成功 • 高次元のデータ • アクティブなデータ
目次 • Privacy breaches and lessons learned • Differential privacy:
definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
プライバシーの定義
プライバシーの定義
プライバシーの定義 直感的には: 特定のユーザーのデータがなかったとしても、出てくる結果が変わらな い。
Differential Privacy • データベース D とD’ が、データ 1人分の違いしかない場合には「近 所にある」と呼ぶ •
Differential Privacy [DMNS06]
Differential Privacy • ε-Differential Privacy: M(D) と M(D’) がほぼ同じ。
Differential Privacy: Takeaway points • 少数のデータを入れ替えることで定義される、プライバシーの概念 • 最悪ケース • 頑健性(auxiliary
data や 相関性のあるデータ) • 組合せ可能(f(M(D)) = M(D)) • 定量化可能 • プライバシー予算の概念
目次 • Privacy breaches and lessons learned • Differential privacy:
definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
目的: Google Chrome 不正な設定の変更の状況の改善(モニタリング)
Randomized response: 機微情報の収集 • 1960年代に、機微な情報を集めるために提案 “あなたは共産党員ですか?” • こっそり コインを投げる •
表なら”yes”と答える • 裏なら正直に答える 実際の分布を推定: 2 × (“YES” の割合 - 1⁄2 )
Randomized response: 機微情報の収集 • 1960年代に、機微な情報を集めるために提案 “あなたは共産党員ですか?” • こっそり コインを投げる •
表なら”yes”と答える コインをもう一回投げて、表なら “YES” 裏なら “NO” と答える • 裏なら正直に答える 実際の分布を推定: 2 × (“YES” の割合 - 1⁄2 ) Differential privacy の条件を満たす
RAPPOR: two-level randomized response Randomize response を繰り返し使うと問題だよね? — 何回もやって平均を取ると、正解が分かってしまう :-(
解決策: 結果を記録(memoize)しておいて、使い回す —長いデータランダムなデータは、それ自体がトラッキングに使えるID になってしまう :-( 解決策: 二段階で行う!記録された 結果を更にランダム化する
生データ→ノイズを除去したデータ→分布
Open sourced • https://github.com/google/rappor
Key takeaway points RAPPOR - locally differentially-private mechanism for reporting
of categorical and string data • Differential privacy の、初のインターネット規模での実装 • 説明可能性 • オープンソース化されている
EOP