Upgrade to Pro — share decks privately, control downloads, hide ads and more …

差分プライバシーによるクエリ処理の基本の「キ」

 差分プライバシーによるクエリ処理の基本の「キ」

髙橋翼(LINE株式会社 Senior Research Scientist)

差分プライバシーは、データベースから統計的な出力を開示する際のプライバシー基準であり、米国国政調査やビッグテックを中心に実用化が進められています。本発表では、データベースへのクエリ処理を、差分プライバシーによって保護しながら実現する方法について紹介します。まず、差分プライバシーの基本事項を平易に導入することから始め、基本的な差分プライバシーのメカニズムであるラプラスメカニズムの概念と実装方法について紹介します。

※PRIVACY TECH NIGHT #02での登壇資料です
https://privacytechnight.connpass.com/event/278138/

LINE Developers

April 25, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. Tsubasa TAKAHASHI, Ph.D Senior Research Scientist at LINE R&D Activity

    • R&D on Privacy x ML (LINE Data Science Center) • Differential Privacy / Federated Learning / … • DBSJ理事など各種委員を担当 Selected Publication • 差分プライバシー x クエリ処理 @VLDB 2022 w/ 京都⼤学 • 差分プライバシー + シャッフリング @SIGMOD 2022 • 差分プライバシー x データ合成 @ICDE 2021, ICLR 2022 w/ 京都⼤学 • 差分プライバシー + 秘密計算 @BigData 2022 w/ 早稲⽥⼤学 • Graph NNのポイズニング @BigData 2019 • テンソル分解 for 異常検知 @WWW 2017 w/ CMU Univ. NEC LINE ⽊更津⾼専卒業 筑波⼤ 学⼠/修⼠ 筑波⼤社会⼈博⼠ CMU訪問研究員 上林奨励賞 中央研究所配属 匿名化の研究2010~15 AIセキュリティ2016~18 R&D on Privacy Tech 2019~ 3
  2. LINE’s R&D on Privacy Techs 4 Publications on Three Major

    Data Base Conferences https://linecorp.com/ja/pr/news/ja/2022/4269
  3. Federated Learning w/ Differential Privacy • Released on late September

    2022 • Learning sticker recommendation feature is now on your app 5 https://www.youtube.com/watch?v=kTBshg1O7b0 https://tech-verse.me/ja/sessions/124
  4. Disclosure Avoidance in US Census 2020 ⽶国の国政調査 (2020年) の結果は 差分プライバシーで保護

    https://www.census.gov/about/policies/privacy/statistical_safeguards/disclosure-avoidance-2020-census.html
  5. Personal Data is the new oil “Personal data is the

    new oil of the Internet and the new currency of the digital world”, 9 Meglena Kuneva, European Consumer Commissioner, March 2009 https://jp.weforum.org/reports/personal-data-emergence- new-asset-class
  6. Personal Data is the new oil • オイルを使うと、排気ガスが⽣じる 10 •

    排気ガス規制 • 排気ガスの少ない ⾃動⾞の推進
  7. 差分プライバシー[1]とは︖ • プライバシーの⽔準を統計的に表現した尺度 à Part 2 • ノイズ加算によるプライバシー保護のメカニズム à Part

    3 • 累積的なプライバシー消費の定量的な管理の枠組み à Part 4 12 𝜖 [1] C. Dwork. Differential privacy. ICALP, 2006.
  8. Differential Privacyと匿名化の対⽐ 13 匿名化 (k-匿名化[2]等) Differential Privacy プライバシーパラメータ の決定⽅法 根拠なし

    統計的根拠から決定 プライバシー消費の管理 不可 可能 外部知識との突合 匿名化が破綻 頑健 (破綻しない) 複数回のリリース 匿名化が破綻 プライバシー消費を積算 [2] L. Sweeney. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570, 2002. GAFAMやトップ⼤学を中⼼に 研究開発が⾮常に活発
  9. 𝝐-差分プライバシー [1] メカニズム ℳ: 𝒟 → 𝒮 が 𝝐-差分プライバシー を満たすとは

    任意の隣接データベースの組 𝐷, 𝐷! ∈ 𝒟 および 任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである 15 Pr ℳ 𝐷 ∈ 𝑆 ≤ exp 𝜖 Pr ℳ 𝐷! ∈ 𝑆 ⼊⼒が変化しても出⼒の傾向はほとんど変わらない(最⼤でも 𝐞𝐱𝐩(𝝐)) 関数や アルゴ リズム等 【重要】 後ほど 解説︕ [1] C. Dwork. Differential privacy. ICALP, 2006.
  10. Differential Privacyとは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ 𝜖 で表現 Sensitive Data

    𝑫 Output 16 𝑫′︓𝑫の隣接データベース 𝑫と1レコード だけ異なる データベース 𝜖 𝝐︓プライバシー強度 0 ∞ 0.5 1 2 強 弱 実⽤的な範囲 (と⾔われている) 4 8 …
  11. 隣接データベース 17 NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M

    David ¥3M … 𝑫の隣接データベース(の⼀部) NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M Eve ¥15M NAME Salary Alice ¥10M Cynthia ¥5M David ¥3M NAME Salary Alice ¥10M Bob ¥20M David ¥3M NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M Franc ¥100M 𝑫 任意の1レコードだけが異なるデータベースの組 最もスタンダードな定義では 1レコードの追加 or 削除 を考える 𝑑" 𝐷, 𝐷! = 1 𝑑! ⋅,⋅ ︓ハミング距離
  12. プライバシー強度 ε の解釈 仮説検定による経験的プライバシーの測定 [3] 18 ℳ 𝑦 𝐷 or

    𝐷! ? 𝐷 or 𝐷! 𝐷 𝐷′ 𝜖#$% = max log 1 − FP FN , log 1 − FN FP 経験的差分プライバシー False Positive︓真の⼊⼒は𝐷, 予想は𝐷′ False Negative︓真の⼊⼒は𝐷!, 予想は𝐷 出⼒𝑦の観測から⼊⼒が𝐷であるか𝐷!であるかを当てるゲームを考える [3] Peter Kairouz, et al. The composition theorem for differential privacy. ICML2015
  13. プライバシー強度 ε の解釈 • 証拠能⼒ (Evidence) としての強さに関する考察 (via Bayes Factor)

    [4] 19 [4] N. Hoshino. A firm foundation for statistical disclosure control. Japanese Journal of Statistics and Data Science, 3(2):721–746, 2020. (出典) [4]のTable 3 (出典) [4]のTable 4
  14. Differential Privacyとは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ 𝜖 で表現 Sensitive Data

    𝑫 Output 20 NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M Eve ¥15M NAME Salary Alice ¥10M Cynthia ¥5M David ¥3M XX JPY Avg. Salary YY JPY ZZ JPY 出⼒の違いが⼩さくて、 ⾒分けられないなら安全 Avg. Salary 決定的なアルゴリズムでは 出⼒の差異を容易に⾒分けることが できてしまうのでアルゴリズムに ランダム性を持たせる必要がある ノイズの挿⼊
  15. Differential Privacyとは︖ • ノイズの加算により、所定の 𝜖 のプライバシー強度を達成 • いかなる知識との突合にも頑健なプライバシー保護が達成される Sensitive Data

    𝑫 Output 22 𝑫′︓neighbor of 𝑫 𝑫と1レコード だけ異なる データベース プライバシー保護された 統計値を提供 区別困難 ≃ 𝝐 で表される程度に 所定の区別困難さを 達成するように ノイズを設計
  16. 最も基本的なメカニズム︓ラプラスメカニズム 23 ℳ 𝐷 = 𝑓 𝐷 + Lap 0,

    Δ! 𝜖 𝜖 = 10 𝜖 = 1 𝜖 = 0.1 最も基本的なノイズ加算のメカニズム • 隣接データベースの定義 • センシティビティΔ& の導出 • プライバシーパラメータ𝜖の決定 設計に必要となる項⽬ 平均0、分散b = Δ# /𝜖 のラプラス分布からノイズをサンプリング
  17. ノイズの設計とセンシティビティ センシティビティΔ& • 関数 𝑓 の出⼒の最⼤の変化量(想定する隣接性における) 24 Δ! = sup

    𝑓 𝐷 − 𝑓 𝐷" # Examples Δ"#$%&'()* = 1 Δ+&,-% = 1 Δ*.)- = 1 𝑛 乱暴なノイズの加算は差分プライバシーを保証しません ノイズで 覆い隠す 度合い ※ 隣接データベースの想定によって センシティビティは変わる 𝐿' -センシティビティ
  18. センシティビティの導出 • 前提︓1ユーザあたり1レコード • 演算︓カウント 25 NAME Cancer Alice Yes

    Bob No Cynthia No NAME Cancer Alice Yes Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Flora Yes #Yes = 1 #Yes = 2 #Yes = 3 差分︓1 差分︓1 Δ! = 1 𝐷 𝐷/ 𝐷/ add remove
  19. ラプラスメカニズムの挙動 27 𝜖 = 1, Δ0 = 1 𝜖 =

    1, Δ0 = 1 𝜖 = 1, Δ0 = 1 Due to generating random noise, the outputs are probabilistic. 全く同じ条件でも確率的な挙動をする
  20. ラプラスメカニズムの挙動 28 𝜖 = 0.1 𝜖 = 0.5 𝜖 =

    2 𝜖 = 0.05 𝜖 = 10 Δ0 = 1 プライバシー強度 𝜖 を変動させた場合
  21. 隣接データベースの想定が変わると︖ • 前提︓1ユーザあたり最⼤4レコード • 演算︓Group-by-count (年代ごとの購⼊回数) 29 NAME Age Purchased

    Alice 20 Ringo Alice 20 Mikan Alice 20 Banana Alice 20 Tomato Bob 24 Ringo Cynthia 32 Tomato Cynthia 32 Tomato Δ! = 4 NAME Age Purchased Bob 24 Ringo Cynthia 32 Tomato Cynthia 32 Tomato
  22. 30 ラプラスメカニズムの挙動 𝜖 = 1, Δ0 = 1 𝜖 =

    1, Δ0 = 4 𝜖 = 1, Δ0 = 0.1 Δ# を変動させた場合 ※ 本来、ヒストグラムのセンシティビティは1。この⽐較はシミュレーション センシティビティが⼩さいアルゴリズムを考えることが有⽤性の観点で重要
  23. Differential Privacyとは︖ • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖#

    … #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌 Privacy Parameter 𝝐𝒌 32
  24. 繰り返し問い合わせによる情報漏洩 33 #Ad view #Purchase 80 40 #Ad view #Purchase

    42 22 #Ad view #Purchase 41 21 Subscribed Service Purchase or not #Purchase Sum A or B (A∪B) yes 40 80 no 40 A yes 22 42 no 20 B yes 21 41 no 20 A and B (A∩B) yes 3 3 no 0 All service subscribers Service A’s subscribers Service B’s subscribers Very small number. High risk to be identified. Sensitive Data 𝑫 Green: inferred value 統計化されておりプライバシーは 保護されているように⾒える
  25. 差分プライバシーの繰り返し適⽤ 34 #Ad view #Purchase 80 à 82 40 à

    39 #Ad view #Purchase 42 à 45 22 à 24 #Ad view #Purchase 41 à 43 21 à 21 Subscribed Service Purchase or not #Purchase Sum A or B (A∪B) yes 39 82 no 43 A yes 24 45 no 21 B yes 21 43 no 22 A and B (A∩B) yes 6 6 no 0 All service subscribers Service A’s subscribers Service B’s subscribers Sensitive Data 𝑫 Green: inferred value Differential Privacy を保証するノイズ
  26. プライバシー予算の設定 35 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖# … #Queries

    𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌&𝟏 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌3𝟏 Privacy Parameter 𝝐𝒌3𝟏 • プライバシー消費は累積される (プライバシー合成定理) • 累積プライバシー消費の許容可能な上限値(プライバシー予算)を 決めておく必要がある
  27. まとめ • 差分プライバシーとは︖ • プライバシーの⽔準を統計的に表現した尺度 • 所定のノイズの加算によってDPを保証できる • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み •

    適正利⽤のために考えるべき4つのポイント • 隣接データベースの定義 • 関数のセンシティビティ • プライバシーパラメータ𝝐の解釈・設定 • プライバシー消費の管理 (予算管理) 36 これらの設計情報を開⽰して 透明性を担保することも重要
  28. 主な論⽂採択実績 38 Title Conference / WS Authors Out-of-Distribution Detection with

    Reconstruction Error and Typicality- based Penalty WACV2023 Osada, Takahashi, Ahsan, Nishide Fair and Robust Metric for Evaluating Touch-based Continuous Mobile Device Authentication IUI2023 Kudo, Takahashi, Yamana, Ushiyama HDPView: Differentially Private Materialized View for Exploring High Dimensional Relational Data VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno Homomorphic Encryption-Friendly Privacy-Preserving Partitioning Algorithm for Differential Privacy BigData2022 Ushiyama, Takahashi, Kudo, Yamana P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model ICDE2021 Takagi, Takahashi, Cao, Yoshikawa Construction of Differentially Private Summaries over Fully Homomorphic Encryption DEXA2021 Ushiyama, Takahashi, Kudo, Yamana Continuous and Gradual Style Changes of Graphic Designs with Generative Model IUI2021 Ueno, Sato Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks BigData2019 Takahashi インターンシップの成果 インターンシップの成果 Best Poster Honorable Mention受賞
  29. 無制限のクエリ応答を実現するには︖ Question • How can we explore (unforeknown) data to

    design data analytics while preserving privacy without the query limitation? Possible Solutions • Building “intermediates” satisfying differential privacy 39 Sensitive Data 𝑫 satisfying 𝝐-DP Data Scientist Query 𝒒𝟏 Query 𝒒𝒌 Differentially Private “Intermediates” … (unlimited) …
  30. 無制限のクエリ応答を実現するには︖ Question • How can we explore (unforeknown) data to

    design data analytics while preserving privacy without the query limitation? Possible Solutions • Building “intermediates” satisfying differential privacy 40 Online Sanitization Data-aware Partitioning Workload- aware Optimization Data Synthesis P3GM [ICDE21] PEARL [ICLR22] HDPView [VLDB22] Query Agnostic ✔ ✔ ✔ ✔ ✔ Analytical Reliability ✔ ✔ ✔ ✔ Noise Resistance ✔ ✔ ✔ Space Efficient ✔ ✔ ✔ ✔
  31. Privacy Preserving Data Synthesis • 機微データを模倣するデータ合成をプライバシー保護した形で学習したモデル • 【課題】⽣成モデルの学習は複雑なためノイズの影響を受けやすい • 【提案】ノイズに頑健なエンべディングをDP制約下で獲得

    41 Train with Generative Model Synthesize ナイーブ法 P3GM (ours) ε=1.0 ε=0.2 PEARL (ours) ε=1.0 ε=1.0 ナイーブ法 P3GM PERAL Embedding End-to-end w/ DP-SGD DP-PCA Characteristic Function under DP Reconstruction DP-SGD Non-private (adversarial) 実⽤的なプライバシ基準(ε≦1)下で ⽐較的⾼い近似性能を達成 ICDE2021採択 / ICLR2022採択
  32. Query Processing under DP & FHE 43 Encrypted Database DP

    Summary Data-aware Partitioning Key Generation Decryption Decryption Server Computation Server Data Analyst Query Encryption Data Owners ... data movement ... key distribution Adopt DP ... evaluation key ... secret key Problem: Long execution time of data-aware partitioning over ciphertexts DEXA2021採択
  33. Query Processing under DP & FHE 44 ⇒ 𝑩 =

    {{1,2}, {3,4,5}, {6,7}} 𝜺 = 𝟎. 𝟓 𝜺𝟏 = 𝟎. 𝟏𝟐𝟓, 𝜺𝟐 = 𝟎. 𝟑𝟕𝟓 → 𝒕 = 𝟏/𝜺𝟐 = 𝟐. 𝟔𝟕 Check only the difference between adjacent data Ø O(n) computational complexity Main idea Ø Simplify partitioning by focusing only on large gaps between consecutive values Procedure 1. Calculate difference between adjacent data 2. Compare difference and threshold 3. Perform “merge” or “divide” BigData2022採択
  34. プライバシーテックに関する公開資料 チュートリアル • 差分プライバシーによるクエリ処理の基本・実践・最前線 • https://speakerdeck.com/line_developers/chai-fen- puraibasiniyorukuerichu-li-noji-ben-shi-jian-zui-qian-xian • 差分プライバシーによるデータ活⽤最前線 •

    https://speakerdeck.com/line_developers/the-forefront-of-data- utilization-through-differential-privacy Web掲載記事 • LINEで進むプライバシーテックの実装──基礎研究を経て、事業の最 前線へ⾝を投じた2⼈が描く世界とは (EnterpriseZine) • https://enterprisezine.jp/article/detail/17251 46
  35. インターンシップレポート • ⾔語モデルにおける公平性の評価技術の開発 • 2022年 ⼤⽻さん (NAIST) • https://engineering.linecorp.com/ja/blog/evaluating-fairness-in-language-models •

    Positive-Unlabeled Learningを⽤いた位置情報とチェックインログに基づく滞在店舗推定 • 2022年 ⽩井さん (⼤阪⼤学) • https://engineering.linecorp.com/ja/blog/estimation-of-stores-to-stay-based-on-location-and-check-in-logs-using- positive-unlabeled-learning • プライバシを保護したFederated Learningの安全性評価 • 2021年 松本さん (お茶の⽔⼥⼦⼤学) • https://engineering.linecorp.com/ja/blog/internship2021-safety-assessment-federated-learning • 有⽤性の⾼いモデルを獲得する差分プライベート学習⼿法 • 2021年 伊藤さん (⼤阪⼤学) • https://engineering.linecorp.com/ja/blog/internship2021-data-synthesis-and-differentially-private-learning • 多次元データに対する差分プライベートなデータ探索 • 2020年 加藤さん (京都⼤学) • https://engineering.linecorp.com/ja/blog/differentially-private-data-exploration-for-multidimensional-data • ⽣成モデルのプライバシ保護技術について • 2019年 ⾼⽊さん (京都⼤学) • https://engineering.linecorp.com/ja/blog/privacy-protection-technology-of-generative-model 47