Upgrade to Pro — share decks privately, control downloads, hide ads and more …

KDD2018 チュートリアルの紹介(Privacy Preserving Data Mining)

KDD2018 チュートリアルの紹介(Privacy Preserving Data Mining)

KDD 2018 の、30分くらいでの紹介。元々の Tutorial は以下のURL:
https://sites.google.com/view/kdd2018privacytutorial

Shunsuke Soeda

November 07, 2018
Tweet

Other Decks in Education

Transcript

  1. 論文紹介 KDD 2018 Tutorial Privacy-preserving Data Mining in Industry: Practical

    Challenges and Lessons Learned Shunsuke Soeda LINE Corporation
  2. 自己紹介 副田 俊介(そえだ しゅんすけ) • 所属 • LAPプロダクトマネジメント室 / Data

    labs • データの収集と、それをビジネスへの活用に関する PM • 過去 ゲーム木探索アルゴリズム → 人流シミュレータ → 広告基盤のデータ接続 → データ管理・活用 プライバシー保護 Main Part time
  3. 本日紹介する内容 • Privacy-preserving Data Mining in Industry: Practical Challenges and

    Lessons Learned https://sites.google.com/view/kdd2018privacytutorial
  4. 目次 • Privacy breaches and lessons learned • Differential privacy:

    definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
  5. 目次 • Privacy breaches and lessons learned • Differential privacy:

    definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
  6. Privacy Breaches and Lessons Learned • Attacks on privacy •

    Governor of Massachusetts • AOL • Netflix • Web browsing data • Facebook • Amazon • Genomic data
  7. Netflix Prize • 2006年10月 Netflix が Netflix prize を発表 •

    ユーザーの 10% のデータの提供 • 平均で 1ユーザーあたり 200レビュー
  8. 目次 • Privacy breaches and lessons learned • Differential privacy:

    definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
  9. Differential Privacy: Takeaway points • 少数のデータを入れ替えることで定義される、プライバシーの概念 • 最悪ケース • 頑健性(auxiliary

    data や 相関性のあるデータ) • 組合せ可能(f(M(D)) = M(D)) • 定量化可能 • プライバシー予算の概念
  10. 目次 • Privacy breaches and lessons learned • Differential privacy:

    definition and techniques • Privacy techniques in practice: Challenges and Lessons Learned • Google’s RAPPOR
  11. Randomized response: 機微情報の収集 • 1960年代に、機微な情報を集めるために提案 “あなたは共産党員ですか?” • こっそり コインを投げる •

    表なら”yes”と答える コインをもう一回投げて、表なら “YES” 裏なら “NO” と答える • 裏なら正直に答える 実際の分布を推定: 2 × (“YES” の割合 - 1⁄2 ) Differential privacy の条件を満たす
  12. RAPPOR: two-level randomized response Randomize response を繰り返し使うと問題だよね? — 何回もやって平均を取ると、正解が分かってしまう :-(

    解決策: 結果を記録(memoize)しておいて、使い回す —長いデータランダムなデータは、それ自体がトラッキングに使えるID になってしまう :-( 解決策: 二段階で行う!記録された 結果を更にランダム化する
  13. Key takeaway points RAPPOR - locally differentially-private mechanism for reporting

    of categorical and string data • Differential privacy の、初のインターネット規模での実装 • 説明可能性 • オープンソース化されている
  14. EOP