差分プライバシーによるクエリ処理の基本・実践・最前線

Slide 1

Slide 1 text

差分プライバシーによるクエリ処理の基本・実践・最前線 2023.3.8 DEIM2023チュートリアルT6 髙橋翼⻑⾕川聡 LINE Data Science Center Machine Learning Privacy & Trust Team

Slide 2

Slide 2 text

チュートリアルT6︓ 差分プライバシーによるクエリ処理の基本・実践・最前線 1. 基本編︓差分プライバシー（DP）の基礎（25min.） 2. 実践編︓DPクエリ応答の実⽤化に向けて（40min.） 3. 最前線︓DPクエリ応答の課題と研究事例（15min.） Takahashi Hasegawa Takahashi Keyword︓データ結合統計値公開仮説検定ラプラスノイズ Personal Data is the new oil / 差分プライバシーとは︖ Keyword︓プライバシー合成索引最⼤クリーク User Contribution プライバシー予算管理 / 複雑なテーブルへの対応無制限のクエリ応答 / JOINの実現 / 秘密計算+DP Keyword︓データ合成ビュークエリ近似 TEE 準同型暗号

Slide 3

Slide 3 text

LINE’s R&D on Privacy Techs 3 Publications on Three Major Data Base Conferences https://linecorp.com/ja/pr/news/ja/2022/4269

Slide 4

Slide 4 text

Federated Learning w/ Differential Privacy • Released on late September 2022 • Learning sticker recommendation feature is now on your app 4 https://www.youtube.com/watch?v=kTBshg1O7b0 https://tech-verse.me/ja/sessions/124

Slide 5

Slide 5 text

Differential Privacy is an “Innovation Triger” 5 https://infocert.digital/analyst-reports/2021-gartner-hype-cycle-for-privacy/ 市場動向︓the 2021 Gartner Hype Cycle for Privacy

Slide 6

Slide 6 text

チュートリアルの⽬的 • 差分プライバシーの普及 • 差分プライバシー研究の発展と促進 • 差分プライバシーの学習コンテンツの提供 • 前回は「機械学習編」今回は「データベース編」 6

Slide 7

Slide 7 text

“Personal Data is the new oil” 7

Slide 8

Slide 8 text

Personal Data is the new oil “Personal data is the new oil of the Internet and the new currency of the digital world”, 8 Meglena Kuneva, European Consumer Commissioner, March 2009 https://jp.weforum.org/reports/personal-data-emergence- new-asset-class

Slide 9

Slide 9 text

Personal Data is the new oil • オイルを使うと、排気ガスが漏れる 9 • 排気ガス規制 • 排気ガスの少ない⾃動⾞の推進

Slide 10

Slide 10 text

Personal Data is the new oil • データを使うと、プライバシーが漏れる 10 Privacy How to measure? How to bound?

Slide 11

Slide 11 text

Combination of stats may leak our privacy 11 #Ad view #Purchase 80 40 #Ad view #Purchase 42 22 #Ad view #Purchase 41 21 Subscribed Service Purchase or not #Purchase Sum A or B (A∪B) yes 40 80 no 40 A yes 22 42 no 20 B yes 21 41 no 20 A and B (A∩B) yes 3 3 no 0 All service subscribers Service A’s subscribers Service B’s subscribers Very small number. High risk to be identified. Sensitive Data 𝑫 Green: inferred value 統計化されておりプライバシーは保護されているように⾒える

Slide 12

Slide 12 text

A Solution︓Differential Privacy [1] 12 #Ad view #Purchase 80 à 82 40 à 39 #Ad view #Purchase 42 à 45 22 à 24 #Ad view #Purchase 41 à 43 21 à 21 Subscribed Service Purchase or not #Purchase Sum A or B (A∪B) yes 39 82 no 43 A yes 24 45 no 21 B yes 21 43 no 22 A and B (A∩B) yes 6 6 no 0 All service subscribers Service A’s subscribers Service B’s subscribers Sensitive Data 𝑫 Green: inferred value Differential Privacy を保証するノイズ [1] C. Dwork. Differential privacy. ICALP, 2006.

Slide 13

Slide 13 text

Differential Privacyとは︖（詳細は後述） • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供 Sensitive Data 𝑫 Noisy Output プライバシー保護された統計値を提供 13

Slide 14

Slide 14 text

Differential Privacyとは︖（詳細は後述） • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供 Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐 で表される程度に 𝑫′︓neighbor of 𝑫 所定の区別困難さを達成するようにノイズを設計プライバシー保護された統計値を提供 14

Slide 15

Slide 15 text

Differential Privacyとは︖（詳細は後述） • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖# … #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌 Privacy Parameter 𝝐𝒌 15

Slide 16

Slide 16 text

Differential Privacy is a Privacy Meter 16 𝑞 𝑞(𝐷) 𝐷 あるデータに対するプライバシーの消費 (漏洩)を定量的に測定する尺度 / 制限するフレームワーク 𝜖

Slide 17

Slide 17 text

Differential Privacy ~匿名化との対⽐~ 17 匿名化 (k-匿名化[2]等) Differential Privacy プライバシーパラメータの決定⽅法根拠なし統計的根拠から決定プライバシー消費の管理不可可能外部知識との突合匿名化が破綻頑健 (破綻しない) 複数回のリリース匿名化が破綻プライバシー消費を積算 [2] L. Sweeney. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570, 2002. GAFAMやトップ⼤学を中⼼に研究開発が⾮常に活発

Slide 18

Slide 18 text

ユースケース • クエリ応答 ß このチュートリアルのフォーカス • 統計値の公開 • 複数データを突合したクロス集計の公開 • 機械学習モデルのリリース / MLaaS • 合成データの⽣成 • 統計値の収集 / 分散学習・連合学習 18

Slide 19

Slide 19 text

Disclosure Avoidance in US Census 2020 ⽶国の国政調査 (2020年) の結果は差分プライバシーで保護 https://www.census.gov/about/policies/privacy/statistical_safeguards/disclosure-avoidance-2020-census.html

Slide 20

Slide 20 text

Ads Data Hub (Google) • Google広告のログと広告主のデータを突合して広告効果を分析 • Difference Check等のプライバシー保護機能が実装 • DPは未実装 (2023.2末時点)。ユースケースは類似 20 https://developers.google.com/ads-data-hub

Slide 21

Slide 21 text

NTTドコモとJALによる個⼈データ結合の実証実験 • ハッシュ / TEE / 準同型暗号 / DP等によるセキュアなデータ結合 https://www.docomo.ne.jp/binary/pdf/info/news_release/topics_221020_00.pdf 21

Slide 22

Slide 22 text

差分プライバシーの基礎 22

Slide 23

Slide 23 text

𝝐-差分プライバシー [1] メカニズム ℳ: 𝒟 → 𝒮 が 𝝐-差分プライバシーを満たすとは任意の隣接データベースの組 𝐷, 𝐷" ∈ 𝒟 および任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである 23 Pr ℳ 𝐷 ∈ 𝑆 ≤ exp 𝜖 Pr ℳ 𝐷! ∈ 𝑆 exp 𝜖 ≃ 1 + 𝜖 𝜖が⼩さいときには概ね⼊⼒が変化しても出⼒の傾向はほとんど変わらない（最⼤でも 𝐞𝐱𝐩(𝝐)） 𝝐︓プライバシー強度 0 ∞ 0.5 1 2 強弱実⽤的な範囲 4 8 … 関数やアルゴリズム等【重要】後ほど解説︕ [1] C. Dwork. Differential privacy. ICALP, 2006.

Slide 24

Slide 24 text

4つの重要ポイント • 隣接データベースの定義 • 関数のセンシティビティ • User Contribution • プライバシーパラメータ𝝐の解釈・設定 • プライバシー消費の管理 (予算管理) 24

Slide 25

Slide 25 text

隣接データベース 25 セントラルモデルにおける隣接性 NAME Cancer Alice Yes Bob No Cynthia No David Yes … 𝑫の隣接データベース（の⼀部） NAME Cancer Alice Yes Bob No Cynthia No David Yes Eve Yes NAME Cancer Alice Yes Cynthia No David Yes NAME Cancer Alice Yes Bob No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Franc No 𝑫 隣接データベース︓任意の1要素だけが異なるデータベースの組 1要素の追加と削除のみを考える 𝑑# 𝐷, 𝐷" = 1 𝑑# ⋅,⋅ ︓ハミング距離

Slide 26

Slide 26 text

隣接データベース間で識別不能性を保証 26 メカニズム ℳ: 𝒟 → 𝒮 が 𝝐-差分プライバシーを満たすとは任意の隣接データベースの組 𝐷, 𝐷" ∈ 𝒟 および任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである Pr ℳ 𝐷 ∈ 𝑆 ≤ exp 𝜖 Pr ℳ 𝐷! ∈ 𝑆 NAME Cancer Alice Yes Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Eve Yes NAME Cancer Alice Yes Cynthia No David Yes ℳ ℳ ℳ 𝐞𝐱𝐩(𝝐)程度しか区別ができない è ⼊⼒の差異も区別が難しい

Slide 27

Slide 27 text

（参考）DPのバリエーション 27 𝝐, 𝜹 -差分プライバシー Pr ℳ 𝐷 ∈ 𝑆 ≤ exp 𝜖 Pr ℳ 𝐷! ∈ 𝑆 + 𝛿 Bounded 差分プライバシー [4] NAME Cancer Alice Yes Bob No Cynthia No David Yes 𝑫の隣接データベース 𝑫 NAME Cancer Alice Yes Bob Yes Cynthia No David Yes NAME Cancer Alice No Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia Yes David Yes NAME Cancer Alice Yes Bob No Cynthia No David No 1タプルの値の変更だけ考える [4] D. Kifer and A. Machanavajjhala. No free lunch in data privacy. SIGMOD2011

Slide 28

Slide 28 text

（参考）隣接データベースいろいろ 28 セントラルモデル（⼊⼒の要素数が１以上）ローカルモデル（⼊⼒の要素数が１）⼊⼒の隣接性︓追加 / 削除（編集距離１） Central DP (Unbounded DP) Removal Local DP ⼊⼒の隣接性︓付け替え（編集距離２） Bounded DP Local DP Central DPとLocal DPは想定するモデルに違いがある

Slide 29

Slide 29 text

ノイズの設計とセンシティビティセンシティビティΔ! • 関数 𝑓 の出⼒の最⼤の変化量（想定する隣接性における） 29 Δ! = sup 𝑓 𝐷 − 𝑓 𝐷" # Examples Δ$%&'()*+, = 1 Δ-(./' = 1 Δ,0+/ = 1 𝑛 ※ CDPの場合乱暴なノイズの加算は差分プライバシーを保証しませんノイズで覆い隠す度合い ※ 隣接データベースの想定によってセンシティビティは変わる

Slide 30

Slide 30 text

ラプラスメカニズム 30 平均0、分散b = Δ!/𝜖 のラプラス分布からノイズをサンプリング ℳ 𝐷 = 𝑓 𝐷 + Lap 0, Δ! 𝜖 𝜖 = 10 𝜖 = 1 𝜖 = 0.1

Slide 31

Slide 31 text

ラプラスメカニズムが𝝐-DPであることの証明 31 Pr[𝑀 𝐷 = 𝑦] Pr[𝑀 𝐷" = 𝑦] = Π#𝑃$%& 𝑦# − 𝑓 𝐷 # Π#𝑃$%& 𝑦# − 𝑓 𝐷" # = Π# exp 𝑏'( 𝑦# − 𝑓 𝐷 # − 𝑦# − 𝑓 𝐷" # ≤ Π# exp 𝑏'( 𝑓 𝐷 # − 𝑓 𝐷" # = exp 𝑏'( E # 𝑓 𝐷 # − 𝑓 𝐷" # = exp 𝑏'( 𝑓 𝐷 − 𝑓 𝐷" ( = exp 𝜖 Δ! 𝑓 𝐷 − 𝑓 𝐷" ( ≤ exp 𝜖 𝑃$%& 𝑥 = 1 2𝑏 exp(−𝑏'(|𝑥|) 𝑏 = Δ! 𝜖 Δ! ≥ 𝑓 𝐷 − 𝑓 𝐷" ( 𝑥( − 𝑥) ≤ |𝑥( − 𝑥) |

Slide 32

Slide 32 text

プライバシー強度 ε の解釈仮説検定による経験的プライバシーの測定 [5] 32 ℳ 𝑦 以下のような仮説検定を考える 𝐻1 :出⼒𝑦は⼊⼒𝐷から作られた 𝐻2 :出⼒𝑦は⼊⼒𝐷3から作られた棄却領域を𝑠 ∈ 𝑆, ̅ 𝑠 ∈ ̅ 𝑆とする Pr ℳ 𝐷 ∈ 𝑠 Pr ℳ 𝐷3 ∈ ̅ 𝑠 真の⼊⼒は𝐷, 予想は𝐷′ (False Positive Rate) 真の⼊⼒は𝐷3, 予想は𝐷 (False Negative Rate) 𝐷 or 𝐷" ? 𝐷 or 𝐷" 𝐷 𝐷′ [5] Peter Kairouz, et al. The composition theorem for differential privacy. ICML2015

Slide 33

Slide 33 text

プライバシー強度 ε の解釈仮説検定による経験的プライバシーの測定 [5] 33 ℳ 𝑦 𝐷 or 𝐷" ? 𝐷 or 𝐷" 𝐷 𝐷′ Pr ℳ 𝐷 ∈ 𝑠 + exp 𝜖 Pr ℳ 𝐷3 ∈ ̅ 𝑠 ≥ 1 exp 𝜖 Pr ℳ 𝐷 ∈ 𝑠 + Pr ℳ 𝐷3 ∈ ̅ 𝑠 ≥ 1 𝜖*+, = max log 1 − FP FN , log 1 − FN FP メカニズムℳが𝜖-DPを満たすとき左の関係が成⽴ à 右の計算式が導出経験的差分プライバシー

Slide 34

Slide 34 text

プライバシー強度 ε の解釈仮説検定による経験的プライバシーの測定 [5] • 注意 • 経験的プライバシーの計測値はある前提における識別不能性に過ぎない • DPの理論保証 (upper bound) と乖離がある可能性を理解しておく必要あり 34 𝜖*+, = max log 1 − FP FN , log 1 − FN FP Benign à à à Worst case 経験的差分プライバシー

Slide 35

Slide 35 text

プライバシー強度 ε の解釈 • 証拠能⼒ (Evidence) としての強さに関する考察 (via Bayes Factor) [6] 35 [6] N. Hoshino. A firm foundation for statistical disclosure control. Japanese Journal of Statistics and Data Science, 3(2):721–746, 2020. (出典) [4]のTable 3 (出典) [4]のTable 4

Slide 36

Slide 36 text

パート1のまとめ • Personal data is the new oil • 差分プライバシー︓プライバシーの⽔準を統計的に表現した尺度 • 所定のノイズの加算によってDPを保証できる • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み • 適正利⽤のために考えるべき４つのポイント • 隣接データベースの定義 • 関数のセンシティビティ • プライバシーパラメータ𝝐の解釈・設定 • プライバシー消費の管理 (予算管理) 36

Slide 37

Slide 37 text

Slide 38

Slide 38 text

実践編 : DPクエリ応答の実⽤化に向けて • ラプラスメカニズムの実装⽅法 • プライバシー予算管理 • 繰り返し問合せとプライバシー合成定理 • 複雑なテーブルへの対応 • ユーザが複数のレコードに紐づくDBの場合 38

Slide 39

Slide 39 text

ラプラスメカニズムの実装⽅法 39

Slide 40

Slide 40 text

(再掲)ノイズの設計とセンシティビティセンシティビティΔ! • 関数 𝑓 の出⼒の最⼤の変化量（想定する隣接性における） 40 Δ! = sup 𝑓 𝐷 − 𝑓 𝐷" # Examples Δ$%&'()*+, = 1 Δ-(./' = 1 Δ,0+/ = 1 𝑛 ラプラスメカニズム • 平均0、パラメータb = Δ! /𝜖 のラプラス分布からノイズをサンプリング ℳ 𝐷 = 𝑓 𝐷 + Lap 0, Δ! 𝜖 乱暴なノイズの加算は差分プライバシーを保証しませんノイズで覆い隠す度合い

Slide 41

Slide 41 text

ラプラスメカニズムの実装 41 ポイントを抑えればコーディングはとても簡単

Slide 42

Slide 42 text

ラプラスメカニズムの挙動 42 𝜖 = 1, Δ4 = 1 𝜖 = 1, Δ4 = 1 𝜖 = 1, Δ4 = 1 Due to generating random noise, the outputs are probabilistic. 全く同じ条件でも確率的な挙動をする

Slide 43

Slide 43 text

ラプラスメカニズムの挙動 43 𝜖 = 0.1 𝜖 = 0.5 𝜖 = 2 𝜖 = 0.05 𝜖 = 10 Δ4 = 1 プライバシー強度 𝜖 を変動させた場合

Slide 44

Slide 44 text

44 ラプラスメカニズムの挙動 𝜖 = 1, Δ4 = 1 𝜖 = 1, Δ4 = 4 𝜖 = 1, Δ4 = 0.1 Δ$ を変動させた場合 ※ 本来、ヒストグラムのセンシティビティは1。この⽐較はシミュレーションセンシティビティが⼩さいアルゴリズムを考えることが有⽤性の観点で重要

Slide 45

Slide 45 text

本パートのまとめ • ラプラスメカニズムの実装⽅法を紹介 • センシティビティΔG と𝝐からラプラスノイズの量が定まる • ノイズを抑えるには? • 𝝐を⼤きくする(プライバシー強度を弱める) • Δ! が⼩さいアルゴリズムを考える 45

Slide 46

Slide 46 text

プライバシー予算管理 46

Slide 47

Slide 47 text

DBへの繰り返し問合せ 47 ℳ 𝜖$ DBは, ラプラスメカニズムなどを⽤いて, 𝜖( -DPを満たす結果をユーザに返答する 𝜖( -DPを満たしたクエリQ1の結果が欲しい

Slide 48

Slide 48 text

DBへの繰り返し問合せ 48 𝜖$ 𝜖) -DPを満たしたクエリQ2の結果が欲しい ℳ 𝜖% DBは, ラプラスメカニズムなどを⽤いて, 𝜖) -DPを満たす結果をユーザに返答する

Slide 49

Slide 49 text

DBへの繰り返し問合せ 49 𝜖$ 𝜖% DB利⽤者の持つ情報が増えた分, プライバシー強度は下がっているのでは? 果たしてプライバシー強度𝝐はどうなっている? Q1とQ2の結果を持っている. プライバシーを暴いてやろう 𝜖( , 𝜖) の結果を出⼒したが, 果たしてトータルの𝝐はいくら?

Slide 50

Slide 50 text

直列合成定理 50 ℳ ℳ ℳ 𝜖$ 𝜖% 𝜖& メカニズムℳを左記のように3回実施。直列合成定理によるプライバシー消費の合計は 𝜖'(')* = 𝜖$ + 𝜖% + 𝜖& メカニズムでデータを評価するたびに「プライバシーを消費する」と考える • 直列合成定理は最もナイーブでルーズなプライバシー消費の合算⽅法である • Renyi-DPやAdvanced Compositionなどのタイトな合成⼿法が提案されている差分プライバシーを適正に利⽤するためのキーポイント合計のプライバシー消費 𝝐𝐭𝐨𝐭𝐚𝐥 が事前に設定したプライバシー予算 𝝐 を超えないように管理が必要

Slide 51

Slide 51 text

並列合成定理メカニズムℳが適⽤されるレコードの集合がそれぞれ互いに素である場合 51 ℳ ℳ ℳ 𝜖$ 𝜖% 𝜖& メカニズムℳが適⽤されるレコードの集合が互いに素であるとき, 𝐦𝐚𝐱𝒊 𝝐𝒊 -DPを満たす 𝜖'(')* = max( 𝜖$ , 𝜖% , 𝜖& ) プライバシー消費を抑えるためのキーポイント

Slide 52

Slide 52 text

直列合成定理と並列合成定理の組み合わせ • Q2とQ3はレコード集合に重複あり è 直列合成定理 • Q1と{Q2,Q3}は互いに素 è 並列合成定理 52 ℳ ℳ ℳ 𝜖$ 𝜖% 𝜖& 𝜖'(')* = max( 𝜖$ , 𝜖% + 𝜖& ) Q3 Q2 Q1 • 直列合成定理と並列合成定理は組み合わせて利⽤可能

Slide 53

Slide 53 text

直列合成定理と並列合成定理のまとめ • 基本的なプライバシー消費の考え⽅は, 直列合成定理(もしくは派⽣). • クエリ間で⽤いるレコード集合が互いに素な場合のみ, 並列合成定理 • 並列合成定理は, プライバシー消費を抑えることが期待できる. 53

Slide 54

Slide 54 text

クエリ応答における合成定理の使⽤例 • 例1) 次のクエリは各々𝜖 -DPを満たすとする. TotalのPrivacy消費は? • Q1:SELECT COUNT(age) FROM T WHERE 10 <= age <= 20 AND 100 <= height <= 120 • Q2:SELECT COUNT(age) FROM T WHERE 5 <= age <= 25 AND 80 <= height <= 105 • Q3:SELECT COUNT(age) FROM T WHERE 30 <= age <= 40 AND 150 <= height <= 180 54

Slide 55

Slide 55 text

Slide 56

Slide 56 text

Slide 57

Slide 57 text

クエリ応答における合成定理の使⽤例 • 例2) 次のクエリは各々𝜖 -DPを満たすとする. TotalのPrivacy消費は? • Q1:SELECT COUNT(age) FROM T WHERE 10 <= age <= 20 AND 100 <= height <= 120 • Q2:SELECT COUNT(age) FROM T WHERE 5 <= age <= 25 AND 80 <= height <= 105 • Q3:SELECT COUNT(age) FROM T WHERE 30 <= age <= 40 AND 150 <= height <= 180 • Q4:SELECT COUNT(age) FROM T WHERE 17 <= age <= 32 AND 90 <= height <= 160 57 age height Q3 Q1 Q2 Q4 Q1とQ2とQ4は重複, Q3とQ4は重複

Slide 58

Slide 58 text

クエリ応答における合成定理の使⽤例 • 例2) 次のクエリは各々𝜖 -DPを満たすとする. TotalのPrivacy消費は? • Q1:SELECT COUNT(age) FROM T WHERE 10 <= age <= 20 AND 100 <= height <= 120 • Q2:SELECT COUNT(age) FROM T WHERE 5 <= age <= 25 AND 80 <= height <= 105 • Q3:SELECT COUNT(age) FROM T WHERE 30 <= age <= 40 AND 150 <= height <= 180 • Q4:SELECT COUNT(age) FROM T WHERE 17 <= age <= 32 AND 90 <= height <= 160 58 age height Q3 Q1 Q2 Q4 Q1とQ2とQ4は重複, Q3とQ4は重複 𝜖'(')* = max ε + ε + ε, ε + ε = 3ε

Slide 59

Slide 59 text

クエリ応答におけるプライバシー消費の体系的な計算⽅法 • 最⼤のプライバシー消費は, クエリの最⼤重複数で計算可能 • ※ 各クエリで消費する𝜖が同⼀の場合 • クエリの最⼤重複数 ≦ クエリグラフの最⼤クリークサイズ [7] 59 Q3 Q1 Q2 Q4 Q2 Q1 Q3 Q4 クエリグラフ[8] [7] J.Smith et. al., Making the Most of Parallel Composition in Differential Privacy., PETS2022 [8] A.Inan et. al., Sensitivity analysis for non-interactive differential privacy: bounds and efficient algorithms., IEEE TDSC2017 ノード : クエリエッジ : クエリ間で重複あり / なし

Slide 60

Slide 60 text

最⼤クリークサイズの計算問題はNP-Hard • クリークとは? • あらゆる2つの頂点をつなぐ辺が存在する頂点集合 • 最⼤クリークとは? • クリークの中で最も頂点数が多いもの • 最⼤クリークサイズ計算問題を解くメリット • NP-Hardだが既存の⾼速なソルバを利⽤できる 60 Q2 Q1 Q3 Q4 : 最⼤クリーク

Slide 61

Slide 61 text

関連する話題 • 近似計算による⾼速化 • 最⼤クリークサイズ ≦ グラフの彩⾊数の関係を利⽤し, グラフの彩⾊数の近似計算を⽤いるもの[7] • 各クエリで消費する𝜖が任意の場合 • 最⼤重みクリーク列挙問題として定式化[7] 61 Q2 𝜖" Q1 𝜖! Q3 𝜖% Q4 𝜖& [7] J.Smith et. al., Making the Most of Parallel Composition in Differential Privacy., PETS2022

Slide 62

Slide 62 text

本パートのまとめ • プライバシー消費の基本的な考え⽅は(直列/並列)合成定理 • クエリ応答におけるプライバシー計算の計算⽅法の1つを紹介 • クエリグラフを作成し, 最⼤クリークサイズの計算問題を解く. • 最⼤クリークサイズの計算は既存の⾼速なソルバを利⽤可能. 62

Slide 63

Slide 63 text

複雑なテーブルへの対応 63

Slide 64

Slide 64 text

1⼈あたり複数レコードを持つDBへの問合せ 64 :Alice :Bob :Cynthia 𝜖( -DPを満たしたレコードの総数が欲しい

Slide 65

Slide 65 text

1⼈あたり複数レコードを持つDBへの問合せ 65 ラプラスメカニズムを使い, 𝜖( を満たす形で出⼒するか. カウントクエリはセンシティビティ = 1 だから…

Slide 66

Slide 66 text

1⼈あたり複数レコードを持つDBへの問合せ 66 ℳ 𝜖$ DPの定義を思い出してもらいたい. 果たして本当にこれで良いのだろうか? Lap 0, 1 𝜖! 𝜖( -DPを満たしたレコードの総数が欲しい

Slide 67

Slide 67 text

DPは1レコード単位の保護の提供が基本 • 隣接DBの定義より, DPは1レコード単位の保護を提供 • 隣接DB : 任意の1レコードが追加/削除されたDB • 1⼈あたり複数レコードを持つ場合, 通常のDPは不⼗分な可能性あり • 1ユーザ単位での保護を提供したい 67 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 D (1⼈あたり複数レコードを持つDB) NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 Dの隣接データベース(の⼀部) …

Slide 68

Slide 68 text

1⼈あたり複数レコードを持つDBへの対応 Naïve approach : Group Privacyの適⽤ • Group Privacy [1] • cレコード単位での保護を提供する. exp 𝜖 à exp(𝜖𝑐)でDPを再定義 • 𝝐, 𝒄-Group Privacy ó 𝝐/𝒄-Differential Privacy • ≒ cレコード単位の保護のために, c倍強いDPによる保護. 68 Pr ℳ 𝑋 ∈ 𝑆 ≤ exp 𝜖𝑐 Pr ℳ 𝑋" ∈ 𝑆 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 … D (1⼈あたり複数レコードを持つDB) Dの隣接データベース(の⼀部), c = 3 [1] Cynthia Dwork., Differential Privacy., ICALP2006

Slide 69

Slide 69 text

(別視点) 1ユーザ単位の隣接性におけるカウントのセンシティビティを考えてみる • [仮定] 1ユーザの持つレコード数を最⼤cとする è カウントクエリのセンシティビティΔHIJKL = 𝑐 • ラプラスメカニズムの場合 69 𝑐 𝑐 Count(D) Count(D’) Count(D’’) ℳ 𝐷 = 𝑓 𝐷 + Lap 0, 𝑐 𝜖 𝝐/𝒄-Differential Privacy (User-Level DP)

Slide 70

Slide 70 text

Naïve approachの⽋点 • 1⼈が持つレコード数の最⼤値をcとして設定する必要がある. • è 外れ値に影響されやすい. 以下の例ではc=50となってしまう. 70 50 3 4 3 0 10 20 30 40 50 60 Alice Bob Cynthia David #records 各ユーザの持つレコード数 c

Slide 71

Slide 71 text

1⼈あたり複数レコードを持つDBへの対応 Bounding user contribution approach[9] • User contributionを閾値tでboundし, User-Level DP※を適⽤ • User contribution ≒ クエリ結果に対する1ユーザあたりの寄与度 ※ ≒ ユーザ単位の隣接性で, センシティビティを考えるDP • User contributionはクエリ結果の寄与の仕⽅により2種類 • パーティション = クエリ結果の⼀部 71 Alice Alice Alice Alice Bob Bob Alice Alice David Bob Bob David David Per-partition contribution cross-partition contribution あるパーティションに複数寄与複数のパーティションにわたって寄与 [9] R.Wilson et. al., Differentially Private SQL with Bounded User Contribution., PETS2020

Slide 72

Slide 72 text

Bounding per-partition contributionの例 • Rating=5と答えたレビューの総数を知りたい • SELECT COUNT(*) FROM tbl WHERE Rating = 5 72 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Alice orange 5 Bob apple 5 Bob banana 5 Cynthia banana 5 Cynthia cherry 5 David apple 5 David orange 4 Table: tbl 3 2 2 2 2 2 1 1 0 2 4 6 8 10 raw bounding per-partion cont. (t=2) クエリ結果(各ユーザの貢献度の可視化) Alice Bob Cynthia David ※ Aliceは閾値t=2により, 貢献度 3 à 2 となっている.

Slide 73

Slide 73 text

Bounding user contribution approach vs Naïve approach • DP満たした形で, Rating=5と答えたレビューの総数を知る • SELECT COUNT(*) FROM tbl WHERE Rating = 5 73 ※ cやtは, 公開情報以外を使った(データ依存での)設定は, ⼀般的にNG 8 7.47 9.22 0 2 4 6 8 10 non-private ε-DP with bounding user cont. (t=2, ε=2.0) ε-DP with naïve approach(c=4,ε=2.0)

Slide 74

Slide 74 text

Bounding cross-partition contributionの例 • Itemごとのレビューの数を知りたい • SELECT Item, COUNT(*) FROM tbl GROUP BY Item 74 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 2 3 raw bound. cont. (t=2) raw bound. cont. (t=2) raw bound. cont. (t=2) raw bound. cont. (t=2) apple banana cherry orange クエリ結果(各ユーザごとの貢献度の可視化) Alice Bob Cynthia David ※ Aliceは閾値t=2により, 貢献度 4 à 2 となっている.

Slide 75

Slide 75 text

Bounding user contribution approach vs Naïve approach • DPを満たした形で, Itemごとのレビューの数を知る • SELECT Item, COUNT(*) FROM tbl GROUP BY Item 75 3 3 2 2 2.39 2.62 1.83 2.31 3.83 4.74 3.74 1.03 0 1 2 3 4 5 apple banana cherry orange non-private ε-DP with bounding user cont. (t=2, ε=2.0) ε-DP with naïve approach (c=4, ε=2.0)

Slide 76

Slide 76 text

それぞれの⼿法の利点/⽋点のまとめ 76 利点⽋点 Naïve approach 情報を保持したままノイズ付与を実施外れ値(ユーザの持つレコードの数に偏り)に対して脆弱 Bounding user contribution approach [9] 外れ値に対して頑健情報を削ってからノイズ付与を実施 [9] R.Wilson et. al., Differentially Private SQL with Bounded User Contribution., PETS2020

Slide 77

Slide 77 text

Bounding user contribution approachの実装 • ZetaSQL DP extension • [9]を実装したもの. 詳しくは[10]を参照 • ANONYMIZATION句 • プライバシーパラメータepsilonに加え, contributionの閾値kappaなどを指定. • ANON_COUNT • ANONYMIZATION句で指定したプライバシー基準を満たすカウント関数 77 [9] R.Wilson et. al., Differentially Private SQL with Bounded User Contribution., PETS2020 [10] https://github.com/google/differential-privacy/tree/main/examples/zetasql

Slide 78

Slide 78 text

本パートのまとめ • 1⼈あたり複数レコードを持つDBの場合, 通常のDPではユーザ単位のプライバシー保護が難しい • Bounding user contribution approachを紹介 • User contributionをbound, ユーザ単位の隣接性でセンシティビティを定義し, そのセンシティビティに基づいたDPを適⽤. 78

Slide 79

Slide 79 text

Slide 80

Slide 80 text

Research Issues • ノイズを減らしたい（根源的な課題） • クエリを無制限にうちたい • JOINを実現したい • プライバシー消費の累積をタイトに⾒積もりたい • 秘密計算とのハイブリッドを実現したい 80

Slide 81

Slide 81 text

無制限のクエリ応答を実現するには︖ 81

Slide 82

Slide 82 text

無制限のクエリ応答を実現するには︖ Question • How can we explore (unforeknown) data to design data analytics while preserving privacy without the query limitation? 82 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖# … #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌%𝟏 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌5𝟏 Privacy Parameter 𝝐𝒌5𝟏

Slide 83

Slide 83 text

無制限のクエリ応答を実現するには︖ Question • How can we explore (unforeknown) data to design data analytics while preserving privacy without the query limitation? Possible Solutions • Building “intermediates” satisfying differential privacy 83 Sensitive Data 𝑫 satisfying 𝝐-DP Data Scientist Query 𝒒𝟏 Query 𝒒𝒌 Differentially Private “Intermediates” … (unlimited) …

Slide 84

Slide 84 text

無制限のクエリ応答を実現するには︖ Question • How can we explore (unforeknown) data to design data analytics while preserving privacy without the query limitation? Possible Solutions • Building “intermediates” satisfying differential privacy 84 Online Sanitization Data-aware Partitioning Workload- aware Optimization Data Synthesis P3GM [ICDE21] PEARL [ICLR22] HDPView [VLDB22] Query Agnostic ✔ ✔ ✔ ✔ ✔ Analytical Reliability ✔ ✔ ✔ ✔ Noise Resistance ✔ ✔ ✔ Space Efficient ✔ ✔ ✔ ✔

Slide 85

Slide 85 text

Privacy Preserving Data Synthesis • 機微データを模倣するデータ合成をプライバシー保護した形で学習したモデル • 【課題】⽣成モデルの学習は複雑なためノイズの影響を受けやすい • 【提案】ノイズに頑健なエンべディングをDP制約下で獲得 85 Train with Generative Model Synthesize ナイーブ法 P3GM (ours) ε=1.0 ε=0.2 PEARL (ours) ε=1.0 ε=1.0 ナイーブ法 P3GM PERAL Embedding End-to-end w/ DP-SGD DP-PCA Characteristic Function under DP Reconstruction DP-SGD Non-private (adversarial) 実⽤的なプライバシ基準(ε≦1)下で⽐較的⾼い近似性能を達成 ICDE2021採択 / ICLR2022採択

Slide 86

Slide 86 text

HDPView: A Differentially Private View • 任意のクエリに対して⼩さいノイズで応答可能なプライバシー保護型クエリ処理機構を実現するための中間データ構築法 86 Noise Resistance Space Efficient Query Agnostic Analytical Reliability VLDB2022採択

Slide 87

Slide 87 text

Partitioning Strategy 87 1+ 0+ 5+ 4+ 2+ 1+ 8+ 7+ 13+ 62+ 64+ 0+ 0+ 0+ 1+ 1+ Age ~20 20~30 30~40 40~50 ~10M 20M 30M 40M 4+ 24+ 13+ 126+ 0+ 2+ Salary 1+ 0+ 5+ 4+ 2+ 1+ 8+ 7+ 13+ 62+ 64+ 0+ 0+ 0+ 1+ 1+ 4+ 24+ 13+ 126+ 0+ 2+ 79 + 6x (4 + ) + (13 + ) + (126 + ) /2 = 80 + 2.5x PE àAE=0 PE àAE=1 AE︓Aggregation Error PE︓Perturbation Error Q. How can we find a partitioning minimizing AE + PE? Range Counting Query Data-aware Partitioning

Slide 88

Slide 88 text

Brief Algorithm of HDPView • Recursive bisection–based algorithm 88 1 0 6 0 2 2 2 32 8 4 3 4 0 1 64 0 16 0 0 0 0 0 12 1 9 8 24 2 3 4 6 6 0 6 3 4 1 0 6 2 32 8 0 1 64 0 2 2 4 3 4 0 16 0 0 0 0 0 12 1 9 8 24 2 3 4 6 6 0 6 3 4 Each block runs 2 mechanisms 1. Random converge distinguish stop or not 2. Random cut carefully choose a cutting point Pros︓Simple & Effective • Data-distribution-aware • Parallel privacy composition over different blocks • Scalable 1 0 6 0 2 2 2 32 8 4 3 4 0 1 64 0 16 0 0 0 0 0 12 1 9 8 24 2 3 4 6 6 0 6 3 4

Slide 89

Slide 89 text

Performance of HDPView 89 Identity Privtree HDMM Privbayes HDPView (ours) ARR 1.94×10! 7.05 35.34 3.79 𝟏. 𝟎𝟎 Size of view Error (relative) Average relative RMSE (ARR) over 8 workloads and 8 datasets

Slide 90

Slide 90 text

JOINを実現するには︖ 90

Slide 91

Slide 91 text

JOINの実現に⽴ちはだかる課題 • 課題 • Self-joinを⽤いる際にSensitivityをどう扱えばよいか︖ • よく⽤いられる⽅策︓Truncation Mechanism • クエリへの貢献 (値の⼤きさ等) が 𝜏 より⼤きい個⼈をテーブルから削除 • ある個⼈に変更があっても、⾼々𝜏の変化 à sensitivity = 𝜏 • à クエリの結果にバイアスが⼊る à バイアスの⼩さい 𝝉 はどう選ぶ︖ 91

Slide 92

Slide 92 text

Self-joinがなぜ問題か︖ • ナイーブなTruncationがうまく機能しない • あるユーザの追加/削除が他のユーザにも影響してしまうため • Self-joinなしの従来の想定よりも閾値𝝉の値に⼤きく依存してしまう à 𝜏 をどう設定するか︖ 92 SELCT SUM(Amount) FROM Transaction, People P1, People P2 WHERE P1.ID = From AND P2.ID = To; ID Location p1 Tokyo p2 Kyoto p3 Hokkaido p4 Okinawa … From To Amount p1 p2 1,000 p3 p4 1,000 p5 p6 1,000 p7 p8 1,000 p9 p10 1,000 … … p1 p3 p5 p7 p9 p2 p4 p6 p8 p10 𝜏 = 1,000 𝐼 𝐼3 … p1 p3 p5 p7 p9 p2 p4 p6 p8 p10 pz α 𝑄 𝐼, 𝜏 = 1,000× 1 2 𝑁 𝑄 𝐼3, 𝜏 = 0 N 追加 People(ID, Location) Transaction(From, To, Amount)

Slide 93

Slide 93 text

Race-to-the-Top (R2T) メカニズム [SIGMOD22] • 基本戦略︓様々な𝝉を競わせ、最も誤差の⼩さい値を出⼒ • 𝜏の候補は2のn乗の値に限る • DPを保証しながら \ 𝑄(𝐼, 𝜏)を 93 真の出⼒ Truncation by 𝜏 Truncation by 𝜏 + DP Truncation による誤差 DPのノイズによる誤差 DPに必要なノイズノイズの加算を前提とした補正項 𝝉を競わせて最⼤値をR2Tメカニズムの出⼒とする (引⽤) https://dl.acm.org/doi/pdf/10.1145/3514221.3517844 真の出⼒ R2Tの出⼒

Slide 94

Slide 94 text

Evaluation: Error Level • 多くのクエリでR2Tの性能が⾼い (誤差が⼩さい) 94 (引⽤) https://dl.acm.org/doi/pdf/10.1145/3514221.3517844

Slide 95

Slide 95 text

プライバシー消費のタイトな管理 95

Slide 96

Slide 96 text

プライバシー合成 • Strong Composition • Advanced Composition • Renyi Differential Privacy • などなど年々新しい合成法が提案されている (DPの沼) 96

Slide 97

Slide 97 text

より安全なデータ活⽤ ~ 秘密計算とのハイブリッド ~ 97

Slide 98

Slide 98 text

秘密計算結果のDPによる保護 • DPの最適なノイズの探索は、繰り返し計算がよく使われる • DPのメカニズムをそのまま秘密計算で実装することは難しい • 準同型暗号の設計上の制約 • DPメカニズムの計算オーダーの⾼さ 98

Slide 99

Slide 99 text

Crypto ε [SIGMOD2020] 99 Encrypted Database DP Index Partitioning with equi-width Key Generation Decryption Cryptographic Service Provider (CSP) Analytics Server (AS) Data Analyst Query Encryption Data Owners ... data movement ... key distribution Adopt DP via Garbled Circuit ... secret key ... public key 1. Large errors of DP by partitioning with equi-width 2. Reveal the order of sorting by sorting via Garbled Circuit

Slide 100

Slide 100 text

DP-Summary [DEXA2021] 100 Encrypted Database DP Summary Data-aware Partitioning Key Generation Decryption Decryption Server Computation Server Data Analyst Query Encryption Data Owners ... data movement ... key distribution Adopt DP ... evaluation key ... secret key Problem: Long execution time of data-aware partitioning over ciphertexts

Slide 101

Slide 101 text

HE-friendly Partitioning [BigData2022] 101 ⇒ 𝑩 = {{1,2}, {3,4,5}, {6,7}} 𝜺 = 𝟎. 𝟓 𝜺𝟏 = 𝟎. 𝟏𝟐𝟓, 𝜺𝟐 = 𝟎. 𝟑𝟕𝟓 → 𝒕 = 𝟏/𝜺𝟐 = 𝟐. 𝟔𝟕 Check only the difference between adjacent data Ø O(n) computational complexity Main idea Ø Simplify partitioning by focusing only on large gaps between consecutive values Procedure 1. Calculate difference between adjacent data 2. Compare difference and threshold 3. Perform “merge” or “divide”

Slide 102

Slide 102 text

NTTドコモとJALによる個⼈データ結合の実証実験 • ハッシュ / TEE / 準同型暗号 / DP等によるセキュアなデータ結合 https://www.docomo.ne.jp/binary/pdf/info/news_release/topics_221020_00.pdf 102

Slide 103

Slide 103 text

• TEEによる完全性の担保によりソルト付きハッシュの「ソルト破棄処理」を保証 • ソルト破棄処理+k-匿名化 5&& • 秘密計算によって安全にデータ突合と集計ができ、さらにTEEによりその処理の完全性も担保 • DPによって2組織 (のいずれか) に adversaryがいたとしてもノイズ加算された集計表に対する推定能⼒を制限 • 上記2つの処理より、処理中・処理後のデータも⾮個⼈情報とみなされる NTTドコモとJALによる個⼈データ結合の実証実験

Slide 104

Slide 104 text

まだまだ未解決課題が多いです • ノイズを減らしたい（根源的な課題） • クエリを無制限にうちたい • JOINを実現したい • プライバシー消費の累積をタイトに⾒積もりたい • 秘密計算とのハイブリッドを実現したい 104 是⾮いっしょに議論・研究・事例づくりをしましょう︕

Slide 105

Slide 105 text

まとめ 105

Slide 106

Slide 106 text

本チュートリアルでご紹介した内容 106 1. 基本編︓差分プライバシー（DP）の基礎（25min.） 2. 実践編︓DPクエリ応答の実⽤化に向けて（40min.） 3. 最前線︓DPクエリ応答の課題と研究事例（15min.） Takahashi Hasegawa Takahashi Keyword︓データ結合統計値公開仮説検定ラプラスノイズ Personal Data is the new oil / 差分プライバシーとは︖ Keyword︓プライバシー合成索引最⼤クリーク User Contribution プライバシー予算管理 / 複雑なテーブルへの対応無制限のクエリ応答 / JOINの実現 / 秘密計算+DP Keyword︓データ合成ビュークエリ近似 TEE 準同型暗号

Slide 107

Slide 107 text

まとめ • 差分プライバシーをはじめとするプライバシーテックに興味を持ってもらえる⽅が増え、業界が活性化されると幸いです • 本チュートリアルが卒業研究・修⼠/博⼠論⽂のテーマ探しの参考になればうれしいです • LINEでは、プライバシーテックを注⼒トピックと捉え、研究開発に邁進しております • インターンで⼀緒に研究開発してくれる⽅を募集しています 107