差分プライバシーによるクエリ処理の基本の「キ」

Slide 1

Slide 1 text

差分プライバシーによるクエリ処理の基本の「キ」 2023.4.25 Privacy Tech Night #02 Tsubasa TAKAHASHI LINE Data Science Center Machine Learning Privacy & Trust Team

Slide 2

Slide 2 text

Tsubasa TAKAHASHI, Ph.D Senior Research Scientist at LINE 2 https://enterprisezine.jp/article/detail/17251

Slide 3

Slide 3 text

Tsubasa TAKAHASHI, Ph.D Senior Research Scientist at LINE R&D Activity • R&D on Privacy x ML (LINE Data Science Center) • Differential Privacy / Federated Learning / … • DBSJ理事など各種委員を担当 Selected Publication • 差分プライバシー x クエリ処理 @VLDB 2022 w/ 京都⼤学 • 差分プライバシー + シャッフリング @SIGMOD 2022 • 差分プライバシー x データ合成 @ICDE 2021, ICLR 2022 w/ 京都⼤学 • 差分プライバシー + 秘密計算 @BigData 2022 w/ 早稲⽥⼤学 • Graph NNのポイズニング @BigData 2019 • テンソル分解 for 異常検知 @WWW 2017 w/ CMU Univ. NEC LINE ⽊更津⾼専卒業筑波⼤学⼠/修⼠筑波⼤社会⼈博⼠ CMU訪問研究員上林奨励賞中央研究所配属匿名化の研究2010~15 AIセキュリティ2016~18 R&D on Privacy Tech 2019~ 3

Slide 4

Slide 4 text

LINE’s R&D on Privacy Techs 4 Publications on Three Major Data Base Conferences https://linecorp.com/ja/pr/news/ja/2022/4269

Slide 5

Slide 5 text

Federated Learning w/ Differential Privacy • Released on late September 2022 • Learning sticker recommendation feature is now on your app 5 https://www.youtube.com/watch?v=kTBshg1O7b0 https://tech-verse.me/ja/sessions/124

Slide 6

Slide 6 text

Differential Privacy is an “Innovation Triger” 6 https://infocert.digital/analyst-reports/2021-gartner-hype-cycle-for-privacy/ 市場動向︓the 2021 Gartner Hype Cycle for Privacy

Slide 7

Slide 7 text

Disclosure Avoidance in US Census 2020 ⽶国の国政調査 (2020年) の結果は差分プライバシーで保護 https://www.census.gov/about/policies/privacy/statistical_safeguards/disclosure-avoidance-2020-census.html

Slide 8

Slide 8 text

“Personal Data is the new oil” 8

Slide 9

Slide 9 text

Personal Data is the new oil “Personal data is the new oil of the Internet and the new currency of the digital world”, 9 Meglena Kuneva, European Consumer Commissioner, March 2009 https://jp.weforum.org/reports/personal-data-emergence- new-asset-class

Slide 10

Slide 10 text

Personal Data is the new oil • オイルを使うと、排気ガスが⽣じる 10 • 排気ガス規制 • 排気ガスの少ない⾃動⾞の推進

Slide 11

Slide 11 text

Personal Data is the new oil • データを使うと、プライバシーへの懸念が⽣じる 11 Privacy How to measure? How to bound?

Slide 12

Slide 12 text

差分プライバシー[1]とは︖ • プライバシーの⽔準を統計的に表現した尺度 à Part 2 • ノイズ加算によるプライバシー保護のメカニズム à Part 3 • 累積的なプライバシー消費の定量的な管理の枠組み à Part 4 12 𝜖 [1] C. Dwork. Differential privacy. ICALP, 2006.

Slide 13

Slide 13 text

Differential Privacyと匿名化の対⽐ 13 匿名化 (k-匿名化[2]等) Differential Privacy プライバシーパラメータの決定⽅法根拠なし統計的根拠から決定プライバシー消費の管理不可可能外部知識との突合匿名化が破綻頑健 (破綻しない) 複数回のリリース匿名化が破綻プライバシー消費を積算 [2] L. Sweeney. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570, 2002. GAFAMやトップ⼤学を中⼼に研究開発が⾮常に活発

Slide 14

Slide 14 text

Part 2 統計的なプライバシーの⽔準 14

Slide 15

Slide 15 text

𝝐-差分プライバシー [1] メカニズム ℳ: 𝒟 → 𝒮 が 𝝐-差分プライバシーを満たすとは任意の隣接データベースの組 𝐷, 𝐷! ∈ 𝒟 および任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである 15 Pr ℳ 𝐷 ∈ 𝑆 ≤ exp 𝜖 Pr ℳ 𝐷! ∈ 𝑆 ⼊⼒が変化しても出⼒の傾向はほとんど変わらない（最⼤でも 𝐞𝐱𝐩(𝝐)）関数やアルゴリズム等【重要】後ほど解説︕ [1] C. Dwork. Differential privacy. ICALP, 2006.

Slide 16

Slide 16 text

Differential Privacyとは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ 𝜖 で表現 Sensitive Data 𝑫 Output 16 𝑫′︓𝑫の隣接データベース 𝑫と1レコードだけ異なるデータベース 𝜖 𝝐︓プライバシー強度 0 ∞ 0.5 1 2 強弱実⽤的な範囲 (と⾔われている) 4 8 …

Slide 17

Slide 17 text

隣接データベース 17 NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M … 𝑫の隣接データベース（の⼀部） NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M Eve ¥15M NAME Salary Alice ¥10M Cynthia ¥5M David ¥3M NAME Salary Alice ¥10M Bob ¥20M David ¥3M NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M Franc ¥100M 𝑫 任意の1レコードだけが異なるデータベースの組最もスタンダードな定義では 1レコードの追加 or 削除を考える 𝑑" 𝐷, 𝐷! = 1 𝑑! ⋅,⋅ ︓ハミング距離

Slide 18

Slide 18 text

プライバシー強度 ε の解釈仮説検定による経験的プライバシーの測定 [3] 18 ℳ 𝑦 𝐷 or 𝐷! ? 𝐷 or 𝐷! 𝐷 𝐷′ 𝜖#$% = max log 1 − FP FN , log 1 − FN FP 経験的差分プライバシー False Positive︓真の⼊⼒は𝐷, 予想は𝐷′ False Negative︓真の⼊⼒は𝐷!, 予想は𝐷 出⼒𝑦の観測から⼊⼒が𝐷であるか𝐷!であるかを当てるゲームを考える [3] Peter Kairouz, et al. The composition theorem for differential privacy. ICML2015

Slide 19

Slide 19 text

プライバシー強度 ε の解釈 • 証拠能⼒ (Evidence) としての強さに関する考察 (via Bayes Factor) [4] 19 [4] N. Hoshino. A firm foundation for statistical disclosure control. Japanese Journal of Statistics and Data Science, 3(2):721–746, 2020. (出典) [4]のTable 3 (出典) [4]のTable 4

Slide 20

Slide 20 text

Differential Privacyとは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ 𝜖 で表現 Sensitive Data 𝑫 Output 20 NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M NAME Salary Alice ¥10M Bob ¥20M Cynthia ¥5M David ¥3M Eve ¥15M NAME Salary Alice ¥10M Cynthia ¥5M David ¥3M XX JPY Avg. Salary YY JPY ZZ JPY 出⼒の違いが⼩さくて、⾒分けられないなら安全 Avg. Salary 決定的なアルゴリズムでは出⼒の差異を容易に⾒分けることができてしまうのでアルゴリズムにランダム性を持たせる必要があるノイズの挿⼊

Slide 21

Slide 21 text

Part 3 ノイズ加算によるプライバシー保護 21

Slide 22

Slide 22 text

Differential Privacyとは︖ • ノイズの加算により、所定の 𝜖 のプライバシー強度を達成 • いかなる知識との突合にも頑健なプライバシー保護が達成される Sensitive Data 𝑫 Output 22 𝑫′︓neighbor of 𝑫 𝑫と1レコードだけ異なるデータベースプライバシー保護された統計値を提供区別困難 ≃ 𝝐 で表される程度に所定の区別困難さを達成するようにノイズを設計

Slide 23

Slide 23 text

最も基本的なメカニズム︓ラプラスメカニズム 23 ℳ 𝐷 = 𝑓 𝐷 + Lap 0, Δ! 𝜖 𝜖 = 10 𝜖 = 1 𝜖 = 0.1 最も基本的なノイズ加算のメカニズム • 隣接データベースの定義 • センシティビティΔ& の導出 • プライバシーパラメータ𝜖の決定設計に必要となる項⽬平均0、分散b = Δ# /𝜖 のラプラス分布からノイズをサンプリング

Slide 24

Slide 24 text

ノイズの設計とセンシティビティセンシティビティΔ& • 関数 𝑓 の出⼒の最⼤の変化量（想定する隣接性における） 24 Δ! = sup 𝑓 𝐷 − 𝑓 𝐷" # Examples Δ"#$%&'()* = 1 Δ+&,-% = 1 Δ*.)- = 1 𝑛 乱暴なノイズの加算は差分プライバシーを保証しませんノイズで覆い隠す度合い ※ 隣接データベースの想定によってセンシティビティは変わる 𝐿' -センシティビティ

Slide 25

Slide 25 text

センシティビティの導出 • 前提︓1ユーザあたり1レコード • 演算︓カウント 25 NAME Cancer Alice Yes Bob No Cynthia No NAME Cancer Alice Yes Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Flora Yes #Yes = 1 #Yes = 2 #Yes = 3 差分︓1 差分︓1 Δ! = 1 𝐷 𝐷/ 𝐷/ add remove

Slide 26

Slide 26 text

ラプラスメカニズムの実装 26 ポイントを抑えればコーディングはとても簡単

Slide 27

Slide 27 text

ラプラスメカニズムの挙動 27 𝜖 = 1, Δ0 = 1 𝜖 = 1, Δ0 = 1 𝜖 = 1, Δ0 = 1 Due to generating random noise, the outputs are probabilistic. 全く同じ条件でも確率的な挙動をする

Slide 28

Slide 28 text

ラプラスメカニズムの挙動 28 𝜖 = 0.1 𝜖 = 0.5 𝜖 = 2 𝜖 = 0.05 𝜖 = 10 Δ0 = 1 プライバシー強度 𝜖 を変動させた場合

Slide 29

Slide 29 text

隣接データベースの想定が変わると︖ • 前提︓1ユーザあたり最⼤4レコード • 演算︓Group-by-count (年代ごとの購⼊回数) 29 NAME Age Purchased Alice 20 Ringo Alice 20 Mikan Alice 20 Banana Alice 20 Tomato Bob 24 Ringo Cynthia 32 Tomato Cynthia 32 Tomato Δ! = 4 NAME Age Purchased Bob 24 Ringo Cynthia 32 Tomato Cynthia 32 Tomato

Slide 30

Slide 30 text

30 ラプラスメカニズムの挙動 𝜖 = 1, Δ0 = 1 𝜖 = 1, Δ0 = 4 𝜖 = 1, Δ0 = 0.1 Δ# を変動させた場合 ※ 本来、ヒストグラムのセンシティビティは1。この⽐較はシミュレーションセンシティビティが⼩さいアルゴリズムを考えることが有⽤性の観点で重要

Slide 31

Slide 31 text

Part 4 累積的なプライバシー消費の管理 31

Slide 32

Slide 32 text

Differential Privacyとは︖ • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖# … #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌 Privacy Parameter 𝝐𝒌 32

Slide 33

Slide 33 text

繰り返し問い合わせによる情報漏洩 33 #Ad view #Purchase 80 40 #Ad view #Purchase 42 22 #Ad view #Purchase 41 21 Subscribed Service Purchase or not #Purchase Sum A or B (A∪B) yes 40 80 no 40 A yes 22 42 no 20 B yes 21 41 no 20 A and B (A∩B) yes 3 3 no 0 All service subscribers Service A’s subscribers Service B’s subscribers Very small number. High risk to be identified. Sensitive Data 𝑫 Green: inferred value 統計化されておりプライバシーは保護されているように⾒える

Slide 34

Slide 34 text

差分プライバシーの繰り返し適⽤ 34 #Ad view #Purchase 80 à 82 40 à 39 #Ad view #Purchase 42 à 45 22 à 24 #Ad view #Purchase 41 à 43 21 à 21 Subscribed Service Purchase or not #Purchase Sum A or B (A∪B) yes 39 82 no 43 A yes 24 45 no 21 B yes 21 43 no 22 A and B (A∩B) yes 6 6 no 0 All service subscribers Service A’s subscribers Service B’s subscribers Sensitive Data 𝑫 Green: inferred value Differential Privacy を保証するノイズ

Slide 35

Slide 35 text

プライバシー予算の設定 35 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖# … #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌&𝟏 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌3𝟏 Privacy Parameter 𝝐𝒌3𝟏 • プライバシー消費は累積される (プライバシー合成定理) • 累積プライバシー消費の許容可能な上限値（プライバシー予算）を決めておく必要がある

Slide 36

Slide 36 text

まとめ • 差分プライバシーとは︖ • プライバシーの⽔準を統計的に表現した尺度 • 所定のノイズの加算によってDPを保証できる • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み • 適正利⽤のために考えるべき４つのポイント • 隣接データベースの定義 • 関数のセンシティビティ • プライバシーパラメータ𝝐の解釈・設定 • プライバシー消費の管理 (予算管理) 36 これらの設計情報を開⽰して透明性を担保することも重要

Slide 37

Slide 37 text

Part 5 (extra) LINE’s R&D on Privacy Techs 37

Slide 38

Slide 38 text

主な論⽂採択実績 38 Title Conference / WS Authors Out-of-Distribution Detection with Reconstruction Error and Typicality- based Penalty WACV2023 Osada, Takahashi, Ahsan, Nishide Fair and Robust Metric for Evaluating Touch-based Continuous Mobile Device Authentication IUI2023 Kudo, Takahashi, Yamana, Ushiyama HDPView: Differentially Private Materialized View for Exploring High Dimensional Relational Data VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno Homomorphic Encryption-Friendly Privacy-Preserving Partitioning Algorithm for Differential Privacy BigData2022 Ushiyama, Takahashi, Kudo, Yamana P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model ICDE2021 Takagi, Takahashi, Cao, Yoshikawa Construction of Differentially Private Summaries over Fully Homomorphic Encryption DEXA2021 Ushiyama, Takahashi, Kudo, Yamana Continuous and Gradual Style Changes of Graphic Designs with Generative Model IUI2021 Ueno, Sato Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks BigData2019 Takahashi インターンシップの成果インターンシップの成果 Best Poster Honorable Mention受賞

Slide 39

Slide 39 text

無制限のクエリ応答を実現するには︖ Question • How can we explore (unforeknown) data to design data analytics while preserving privacy without the query limitation? Possible Solutions • Building “intermediates” satisfying differential privacy 39 Sensitive Data 𝑫 satisfying 𝝐-DP Data Scientist Query 𝒒𝟏 Query 𝒒𝒌 Differentially Private “Intermediates” … (unlimited) …

Slide 40

Slide 40 text

無制限のクエリ応答を実現するには︖ Question • How can we explore (unforeknown) data to design data analytics while preserving privacy without the query limitation? Possible Solutions • Building “intermediates” satisfying differential privacy 40 Online Sanitization Data-aware Partitioning Workload- aware Optimization Data Synthesis P3GM [ICDE21] PEARL [ICLR22] HDPView [VLDB22] Query Agnostic ✔ ✔ ✔ ✔ ✔ Analytical Reliability ✔ ✔ ✔ ✔ Noise Resistance ✔ ✔ ✔ Space Efficient ✔ ✔ ✔ ✔

Slide 41

Slide 41 text

Privacy Preserving Data Synthesis • 機微データを模倣するデータ合成をプライバシー保護した形で学習したモデル • 【課題】⽣成モデルの学習は複雑なためノイズの影響を受けやすい • 【提案】ノイズに頑健なエンべディングをDP制約下で獲得 41 Train with Generative Model Synthesize ナイーブ法 P3GM (ours) ε=1.0 ε=0.2 PEARL (ours) ε=1.0 ε=1.0 ナイーブ法 P3GM PERAL Embedding End-to-end w/ DP-SGD DP-PCA Characteristic Function under DP Reconstruction DP-SGD Non-private (adversarial) 実⽤的なプライバシ基準(ε≦1)下で⽐較的⾼い近似性能を達成 ICDE2021採択 / ICLR2022採択

Slide 42

Slide 42 text

HDPView: A Differentially Private View • 任意のクエリに対して⼩さいノイズで応答可能なプライバシー保護型クエリ処理機構を実現するための中間データ構築法 42 Noise Resistance Space Efficient Query Agnostic Analytical Reliability VLDB2022採択

Slide 43

Slide 43 text

Query Processing under DP & FHE 43 Encrypted Database DP Summary Data-aware Partitioning Key Generation Decryption Decryption Server Computation Server Data Analyst Query Encryption Data Owners ... data movement ... key distribution Adopt DP ... evaluation key ... secret key Problem: Long execution time of data-aware partitioning over ciphertexts DEXA2021採択

Slide 44

Slide 44 text

Query Processing under DP & FHE 44 ⇒ 𝑩 = {{1,2}, {3,4,5}, {6,7}} 𝜺 = 𝟎. 𝟓 𝜺𝟏 = 𝟎. 𝟏𝟐𝟓, 𝜺𝟐 = 𝟎. 𝟑𝟕𝟓 → 𝒕 = 𝟏/𝜺𝟐 = 𝟐. 𝟔𝟕 Check only the difference between adjacent data Ø O(n) computational complexity Main idea Ø Simplify partitioning by focusing only on large gaps between consecutive values Procedure 1. Calculate difference between adjacent data 2. Compare difference and threshold 3. Perform “merge” or “divide” BigData2022採択

Slide 45

Slide 45 text

まとめ • 差分プライバシーをはじめとするプライバシーテックに興味を持ってもらえる⽅が増え、業界が活性化されると幸いです • LINEでは、プライバシーテックを注⼒トピックと捉え、研究開発に邁進しております • インターンシップで⼀緒に研究開発してくれる⽅を募集しています︕ 45

Slide 46

Slide 46 text

プライバシーテックに関する公開資料チュートリアル • 差分プライバシーによるクエリ処理の基本・実践・最前線 • https://speakerdeck.com/line_developers/chai-fen- puraibasiniyorukuerichu-li-noji-ben-shi-jian-zui-qian-xian • 差分プライバシーによるデータ活⽤最前線 • https://speakerdeck.com/line_developers/the-forefront-of-data- utilization-through-differential-privacy Web掲載記事 • LINEで進むプライバシーテックの実装──基礎研究を経て、事業の最前線へ⾝を投じた2⼈が描く世界とは (EnterpriseZine) • https://enterprisezine.jp/article/detail/17251 46

Slide 47

Slide 47 text

インターンシップレポート • ⾔語モデルにおける公平性の評価技術の開発 • 2022年⼤⽻さん (NAIST) • https://engineering.linecorp.com/ja/blog/evaluating-fairness-in-language-models • Positive-Unlabeled Learningを⽤いた位置情報とチェックインログに基づく滞在店舗推定 • 2022年⽩井さん (⼤阪⼤学) • https://engineering.linecorp.com/ja/blog/estimation-of-stores-to-stay-based-on-location-and-check-in-logs-using- positive-unlabeled-learning • プライバシを保護したFederated Learningの安全性評価 • 2021年松本さん (お茶の⽔⼥⼦⼤学) • https://engineering.linecorp.com/ja/blog/internship2021-safety-assessment-federated-learning • 有⽤性の⾼いモデルを獲得する差分プライベート学習⼿法 • 2021年伊藤さん (⼤阪⼤学) • https://engineering.linecorp.com/ja/blog/internship2021-data-synthesis-and-differentially-private-learning • 多次元データに対する差分プライベートなデータ探索 • 2020年加藤さん (京都⼤学) • https://engineering.linecorp.com/ja/blog/differentially-private-data-exploration-for-multidimensional-data • ⽣成モデルのプライバシ保護技術について • 2019年⾼⽊さん (京都⼤学) • https://engineering.linecorp.com/ja/blog/privacy-protection-technology-of-generative-model 47