差分プライバシーによるクエリ処理の基本・実践・最前線

差分プライバシーによるクエリ処理の基本・実践・最前線 2023.3.8 DEIM2023チュートリアルT6 髙橋翼⻑⾕川聡 LINE Data
Science Center Machine Learning Privacy & Trust Team

チュートリアルT6︓ 差分プライバシーによるクエリ処理の基本・実践・最前線 1. 基本編︓差分プライバシー（DP）の基礎（25min.） 2. 実践編︓DPクエリ応答の実⽤化に向けて（40min.） 3. 最前線︓DPクエリ応答の課題と研究事例（15min.） Takahashi Hasegawa
Takahashi Keyword︓データ結合統計値公開仮説検定ラプラスノイズ Personal Data is the new oil / 差分プライバシーとは︖ Keyword︓プライバシー合成索引最⼤クリーク User Contribution プライバシー予算管理 / 複雑なテーブルへの対応無制限のクエリ応答 / JOINの実現 / 秘密計算+DP Keyword︓データ合成ビュークエリ近似 TEE 準同型暗号

LINE’s R&D on Privacy Techs 3 Publications on Three Major
Data Base Conferences https://linecorp.com/ja/pr/news/ja/2022/4269

Federated Learning w/ Differential Privacy • Released on late September
2022 • Learning sticker recommendation feature is now on your app 4 https://www.youtube.com/watch?v=kTBshg1O7b0 https://tech-verse.me/ja/sessions/124

Differential Privacy is an “Innovation Triger” 5 https://infocert.digital/analyst-reports/2021-gartner-hype-cycle-for-privacy/ 市場動向︓the 2021
Gartner Hype Cycle for Privacy

チュートリアルの⽬的 • 差分プライバシーの普及 • 差分プライバシー研究の発展と促進 • 差分プライバシーの学習コンテンツの提供 • 前回は「機械学習編」今回は「データベース編」
6

“Personal Data is the new oil” 7

Personal Data is the new oil “Personal data is the
new oil of the Internet and the new currency of the digital world”, 8 Meglena Kuneva, European Consumer Commissioner, March 2009 https://jp.weforum.org/reports/personal-data-emergence- new-asset-class

Personal Data is the new oil • オイルを使うと、排気ガスが漏れる 9 •
排気ガス規制 • 排気ガスの少ない⾃動⾞の推進

Personal Data is the new oil • データを使うと、プライバシーが漏れる 10 Privacy
How to measure? How to bound?

Combination of stats may leak our privacy 11 #Ad view
#Purchase 80 40 #Ad view #Purchase 42 22 #Ad view #Purchase 41 21 Subscribed Service Purchase or not #Purchase Sum A or B (A∪B) yes 40 80 no 40 A yes 22 42 no 20 B yes 21 41 no 20 A and B (A∩B) yes 3 3 no 0 All service subscribers Service A’s subscribers Service B’s subscribers Very small number. High risk to be identified. Sensitive Data 𝑫 Green: inferred value 統計化されておりプライバシーは保護されているように⾒える

A Solution︓Differential Privacy [1] 12 #Ad view #Purchase 80 à
82 40 à 39 #Ad view #Purchase 42 à 45 22 à 24 #Ad view #Purchase 41 à 43 21 à 21 Subscribed Service Purchase or not #Purchase Sum A or B (A∪B) yes 39 82 no 43 A yes 24 45 no 21 B yes 21 43 no 22 A and B (A∩B) yes 6 6 no 0 All service subscribers Service A’s subscribers Service B’s subscribers Sensitive Data 𝑫 Green: inferred value Differential Privacy を保証するノイズ [1] C. Dwork. Differential privacy. ICALP, 2006.

Differential Privacyとは︖（詳細は後述） • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供
Sensitive Data 𝑫 Noisy Output プライバシー保護された統計値を提供 13

Differential Privacyとは︖（詳細は後述） • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供
Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐 で表される程度に 𝑫′︓neighbor of 𝑫 所定の区別困難さを達成するようにノイズを設計プライバシー保護された統計値を提供 14

Differential Privacyとは︖（詳細は後述） • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖#
… #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌 Privacy Parameter 𝝐𝒌 15

Differential Privacy is a Privacy Meter 16 𝑞 𝑞(𝐷) 𝐷
あるデータに対するプライバシーの消費 (漏洩)を定量的に測定する尺度 / 制限するフレームワーク 𝜖

Differential Privacy ~匿名化との対⽐~ 17 匿名化 (k-匿名化[2]等) Differential Privacy プライバシーパラメータの決定⽅法
根拠なし統計的根拠から決定プライバシー消費の管理不可可能外部知識との突合匿名化が破綻頑健 (破綻しない) 複数回のリリース匿名化が破綻プライバシー消費を積算 [2] L. Sweeney. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570, 2002. GAFAMやトップ⼤学を中⼼に研究開発が⾮常に活発

ユースケース • クエリ応答 ß このチュートリアルのフォーカス • 統計値の公開 • 複数データを突合したクロス集計の公開 •
機械学習モデルのリリース / MLaaS • 合成データの⽣成 • 統計値の収集 / 分散学習・連合学習 18

Disclosure Avoidance in US Census 2020 ⽶国の国政調査 (2020年) の結果は差分プライバシーで保護
https://www.census.gov/about/policies/privacy/statistical_safeguards/disclosure-avoidance-2020-census.html

Ads Data Hub (Google) • Google広告のログと広告主のデータを突合して広告効果を分析 • Difference Check等のプライバシー保護機能が実装 •
DPは未実装 (2023.2末時点)。ユースケースは類似 20 https://developers.google.com/ads-data-hub

NTTドコモとJALによる個⼈データ結合の実証実験 • ハッシュ / TEE / 準同型暗号 / DP等によるセキュアなデータ結合 https://www.docomo.ne.jp/binary/pdf/info/news_release/topics_221020_00.pdf
21

差分プライバシーの基礎 22

𝝐-差分プライバシー [1] メカニズム ℳ: 𝒟 → 𝒮 が 𝝐-差分プライバシーを満たすとは
任意の隣接データベースの組 𝐷, 𝐷" ∈ 𝒟 および任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである 23 Pr ℳ 𝐷 ∈ 𝑆 ≤ exp 𝜖 Pr ℳ 𝐷! ∈ 𝑆 exp 𝜖 ≃ 1 + 𝜖 𝜖が⼩さいときには概ね⼊⼒が変化しても出⼒の傾向はほとんど変わらない（最⼤でも 𝐞𝐱𝐩(𝝐)） 𝝐︓プライバシー強度 0 ∞ 0.5 1 2 強弱実⽤的な範囲 4 8 … 関数やアルゴリズム等【重要】後ほど解説︕ [1] C. Dwork. Differential privacy. ICALP, 2006.

4つの重要ポイント • 隣接データベースの定義 • 関数のセンシティビティ • User Contribution • プライバシーパラメータ𝝐の解釈・設定
• プライバシー消費の管理 (予算管理) 24

隣接データベース 25 セントラルモデルにおける隣接性 NAME Cancer Alice Yes Bob No Cynthia
No David Yes … 𝑫の隣接データベース（の⼀部） NAME Cancer Alice Yes Bob No Cynthia No David Yes Eve Yes NAME Cancer Alice Yes Cynthia No David Yes NAME Cancer Alice Yes Bob No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Franc No 𝑫 隣接データベース︓任意の1要素だけが異なるデータベースの組 1要素の追加と削除のみを考える 𝑑# 𝐷, 𝐷" = 1 𝑑# ⋅,⋅ ︓ハミング距離

隣接データベース間で識別不能性を保証 26 メカニズム ℳ: 𝒟 → 𝒮 が 𝝐-差分プライバシーを満たすとは
任意の隣接データベースの組 𝐷, 𝐷" ∈ 𝒟 および任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである Pr ℳ 𝐷 ∈ 𝑆 ≤ exp 𝜖 Pr ℳ 𝐷! ∈ 𝑆 NAME Cancer Alice Yes Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Eve Yes NAME Cancer Alice Yes Cynthia No David Yes ℳ ℳ ℳ 𝐞𝐱𝐩(𝝐)程度しか区別ができない è ⼊⼒の差異も区別が難しい

（参考）DPのバリエーション 27 𝝐, 𝜹 -差分プライバシー Pr ℳ 𝐷 ∈ 𝑆
≤ exp 𝜖 Pr ℳ 𝐷! ∈ 𝑆 + 𝛿 Bounded 差分プライバシー [4] NAME Cancer Alice Yes Bob No Cynthia No David Yes 𝑫の隣接データベース 𝑫 NAME Cancer Alice Yes Bob Yes Cynthia No David Yes NAME Cancer Alice No Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia Yes David Yes NAME Cancer Alice Yes Bob No Cynthia No David No 1タプルの値の変更だけ考える [4] D. Kifer and A. Machanavajjhala. No free lunch in data privacy. SIGMOD2011

（参考）隣接データベースいろいろ 28 セントラルモデル（⼊⼒の要素数が１以上）ローカルモデル（⼊⼒の要素数が１）⼊⼒の隣接性︓追加 / 削除（編集距離１）
Central DP (Unbounded DP) Removal Local DP ⼊⼒の隣接性︓付け替え（編集距離２） Bounded DP Local DP Central DPとLocal DPは想定するモデルに違いがある

ノイズの設計とセンシティビティセンシティビティΔ! • 関数 𝑓 の出⼒の最⼤の変化量（想定する隣接性における） 29 Δ! = sup
𝑓 𝐷 − 𝑓 𝐷" # Examples Δ$%&'()*+, = 1 Δ-(./' = 1 Δ,0+/ = 1 𝑛 ※ CDPの場合乱暴なノイズの加算は差分プライバシーを保証しませんノイズで覆い隠す度合い ※ 隣接データベースの想定によってセンシティビティは変わる

ラプラスメカニズム 30 平均0、分散b = Δ!/𝜖 のラプラス分布からノイズをサンプリング ℳ 𝐷 = 𝑓
𝐷 + Lap 0, Δ! 𝜖 𝜖 = 10 𝜖 = 1 𝜖 = 0.1

ラプラスメカニズムが𝝐-DPであることの証明 31 Pr[𝑀 𝐷 = 𝑦] Pr[𝑀 𝐷" = 𝑦]
= Π#𝑃$%& 𝑦# − 𝑓 𝐷 # Π#𝑃$%& 𝑦# − 𝑓 𝐷" # = Π# exp 𝑏'( 𝑦# − 𝑓 𝐷 # − 𝑦# − 𝑓 𝐷" # ≤ Π# exp 𝑏'( 𝑓 𝐷 # − 𝑓 𝐷" # = exp 𝑏'( E # 𝑓 𝐷 # − 𝑓 𝐷" # = exp 𝑏'( 𝑓 𝐷 − 𝑓 𝐷" ( = exp 𝜖 Δ! 𝑓 𝐷 − 𝑓 𝐷" ( ≤ exp 𝜖 𝑃$%& 𝑥 = 1 2𝑏 exp(−𝑏'(|𝑥|) 𝑏 = Δ! 𝜖 Δ! ≥ 𝑓 𝐷 − 𝑓 𝐷" ( 𝑥( − 𝑥) ≤ |𝑥( − 𝑥) |

プライバシー強度 ε の解釈仮説検定による経験的プライバシーの測定 [5] 32 ℳ 𝑦 以下のような仮説検定を考える 𝐻1
:出⼒𝑦は⼊⼒𝐷から作られた 𝐻2 :出⼒𝑦は⼊⼒𝐷3から作られた棄却領域を𝑠 ∈ 𝑆, ̅ 𝑠 ∈ ̅ 𝑆とする Pr ℳ 𝐷 ∈ 𝑠 Pr ℳ 𝐷3 ∈ ̅ 𝑠 真の⼊⼒は𝐷, 予想は𝐷′ (False Positive Rate) 真の⼊⼒は𝐷3, 予想は𝐷 (False Negative Rate) 𝐷 or 𝐷" ? 𝐷 or 𝐷" 𝐷 𝐷′ [5] Peter Kairouz, et al. The composition theorem for differential privacy. ICML2015

プライバシー強度 ε の解釈仮説検定による経験的プライバシーの測定 [5] 33 ℳ 𝑦 𝐷 or
𝐷" ? 𝐷 or 𝐷" 𝐷 𝐷′ Pr ℳ 𝐷 ∈ 𝑠 + exp 𝜖 Pr ℳ 𝐷3 ∈ ̅ 𝑠 ≥ 1 exp 𝜖 Pr ℳ 𝐷 ∈ 𝑠 + Pr ℳ 𝐷3 ∈ ̅ 𝑠 ≥ 1 𝜖*+, = max log 1 − FP FN , log 1 − FN FP メカニズムℳが𝜖-DPを満たすとき左の関係が成⽴ à 右の計算式が導出経験的差分プライバシー

プライバシー強度 ε の解釈仮説検定による経験的プライバシーの測定 [5] • 注意 • 経験的プライバシーの計測値はある前提における識別不能性に
過ぎない • DPの理論保証 (upper bound) と乖離がある可能性を理解しておく必要あり 34 𝜖*+, = max log 1 − FP FN , log 1 − FN FP Benign à à à Worst case 経験的差分プライバシー

プライバシー強度 ε の解釈 • 証拠能⼒ (Evidence) としての強さに関する考察 (via Bayes Factor)
[6] 35 [6] N. Hoshino. A firm foundation for statistical disclosure control. Japanese Journal of Statistics and Data Science, 3(2):721–746, 2020. (出典) [4]のTable 3 (出典) [4]のTable 4

パート1のまとめ • Personal data is the new oil • 差分プライバシー︓プライバシーの⽔準を統計的に表現した尺度
• 所定のノイズの加算によってDPを保証できる • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み • 適正利⽤のために考えるべき４つのポイント • 隣接データベースの定義 • 関数のセンシティビティ • プライバシーパラメータ𝝐の解釈・設定 • プライバシー消費の管理 (予算管理) 36

実践編 : DPクエリ応答の実⽤化に向けて • ラプラスメカニズムの実装⽅法 • プライバシー予算管理 • 繰り返し問合せとプライバシー合成定理 •
複雑なテーブルへの対応 • ユーザが複数のレコードに紐づくDBの場合 38

ラプラスメカニズムの実装⽅法 39

(再掲)ノイズの設計とセンシティビティセンシティビティΔ! • 関数 𝑓 の出⼒の最⼤の変化量（想定する隣接性における） 40 Δ! = sup
𝑓 𝐷 − 𝑓 𝐷" # Examples Δ$%&'()*+, = 1 Δ-(./' = 1 Δ,0+/ = 1 𝑛 ラプラスメカニズム • 平均0、パラメータb = Δ! /𝜖 のラプラス分布からノイズをサンプリング ℳ 𝐷 = 𝑓 𝐷 + Lap 0, Δ! 𝜖 乱暴なノイズの加算は差分プライバシーを保証しませんノイズで覆い隠す度合い

ラプラスメカニズムの実装 41 ポイントを抑えればコーディングはとても簡単

ラプラスメカニズムの挙動 42 𝜖 = 1, Δ4 = 1 𝜖 =
1, Δ4 = 1 𝜖 = 1, Δ4 = 1 Due to generating random noise, the outputs are probabilistic. 全く同じ条件でも確率的な挙動をする

ラプラスメカニズムの挙動 43 𝜖 = 0.1 𝜖 = 0.5 𝜖 =
2 𝜖 = 0.05 𝜖 = 10 Δ4 = 1 プライバシー強度 𝜖 を変動させた場合

44 ラプラスメカニズムの挙動 𝜖 = 1, Δ4 = 1 𝜖 =
1, Δ4 = 4 𝜖 = 1, Δ4 = 0.1 Δ$ を変動させた場合 ※ 本来、ヒストグラムのセンシティビティは1。この⽐較はシミュレーションセンシティビティが⼩さいアルゴリズムを考えることが有⽤性の観点で重要

本パートのまとめ • ラプラスメカニズムの実装⽅法を紹介 • センシティビティΔG と𝝐からラプラスノイズの量が定まる • ノイズを抑えるには? • 𝝐を⼤きくする(プライバシー強度を弱める)
• Δ! が⼩さいアルゴリズムを考える 45

プライバシー予算管理 46

DBへの繰り返し問合せ 47 ℳ 𝜖$ DBは, ラプラスメカニズムなどを⽤いて, 𝜖( -DPを満たす結果をユーザに返答する 𝜖( -DPを満たした
クエリQ1の結果が欲しい

DBへの繰り返し問合せ 48 𝜖$ 𝜖) -DPを満たしたクエリQ2の結果が欲しい ℳ 𝜖% DBは, ラプラスメカニズムなどを⽤いて,
𝜖) -DPを満たす結果をユーザに返答する

DBへの繰り返し問合せ 49 𝜖$ 𝜖% DB利⽤者の持つ情報が増えた分, プライバシー強度は下がっているのでは? 果たしてプライバシー強度𝝐はどうなっている? Q1とQ2の結果を持っている. プライバシーを暴いてやろう 𝜖(
, 𝜖) の結果を出⼒したが, 果たしてトータルの𝝐はいくら?

直列合成定理 50 ℳ ℳ ℳ 𝜖$ 𝜖% 𝜖& メカニズムℳを左記のように3回実施。直列合成定理によるプライバシー消費の合計は
𝜖'(')* = 𝜖$ + 𝜖% + 𝜖& メカニズムでデータを評価するたびに「プライバシーを消費する」と考える • 直列合成定理は最もナイーブでルーズなプライバシー消費の合算⽅法である • Renyi-DPやAdvanced Compositionなどのタイトな合成⼿法が提案されている差分プライバシーを適正に利⽤するためのキーポイント合計のプライバシー消費 𝝐𝐭𝐨𝐭𝐚𝐥 が事前に設定したプライバシー予算 𝝐 を超えないように管理が必要

並列合成定理メカニズムℳが適⽤されるレコードの集合がそれぞれ互いに素である場合 51 ℳ ℳ ℳ 𝜖$ 𝜖%
𝜖& メカニズムℳが適⽤されるレコードの集合が互いに素であるとき, 𝐦𝐚𝐱𝒊 𝝐𝒊 -DPを満たす 𝜖'(')* = max( 𝜖$ , 𝜖% , 𝜖& ) プライバシー消費を抑えるためのキーポイント

直列合成定理と並列合成定理の組み合わせ • Q2とQ3はレコード集合に重複あり è 直列合成定理 • Q1と{Q2,Q3}は互いに素 è 並列合成定理 52
ℳ ℳ ℳ 𝜖$ 𝜖% 𝜖& 𝜖'(')* = max( 𝜖$ , 𝜖% + 𝜖& ) Q3 Q2 Q1 • 直列合成定理と並列合成定理は組み合わせて利⽤可能

直列合成定理と並列合成定理のまとめ • 基本的なプライバシー消費の考え⽅は, 直列合成定理(もしくは派⽣). • クエリ間で⽤いるレコード集合が互いに素な場合のみ, 並列合成定理 • 並列合成定理は, プライバシー消費を抑えることが期待できる.
53

クエリ応答における合成定理の使⽤例 • 例1) 次のクエリは各々𝜖 -DPを満たすとする. TotalのPrivacy消費は? • Q1:SELECT COUNT(age) FROM
T WHERE 10 <= age <= 20 AND 100 <= height <= 120 • Q2:SELECT COUNT(age) FROM T WHERE 5 <= age <= 25 AND 80 <= height <= 105 • Q3:SELECT COUNT(age) FROM T WHERE 30 <= age <= 40 AND 150 <= height <= 180 54

T WHERE 10 <= age <= 20 AND 100 <= height <= 120 • Q2:SELECT COUNT(age) FROM T WHERE 5 <= age <= 25 AND 80 <= height <= 105 • Q3:SELECT COUNT(age) FROM T WHERE 30 <= age <= 40 AND 150 <= height <= 180 55 age height Q3 Q1 Q2 Q1とQ2は重複, Q3はいずれも重なりなし

T WHERE 10 <= age <= 20 AND 100 <= height <= 120 • Q2:SELECT COUNT(age) FROM T WHERE 5 <= age <= 25 AND 80 <= height <= 105 • Q3:SELECT COUNT(age) FROM T WHERE 30 <= age <= 40 AND 150 <= height <= 180 56 age height Q3 Q1 Q2 𝜖'(')* = max ε + ε, ε = 2ε Q1とQ2は重複, Q3はいずれも重なりなし

T WHERE 10 <= age <= 20 AND 100 <= height <= 120 • Q2:SELECT COUNT(age) FROM T WHERE 5 <= age <= 25 AND 80 <= height <= 105 • Q3:SELECT COUNT(age) FROM T WHERE 30 <= age <= 40 AND 150 <= height <= 180 • Q4:SELECT COUNT(age) FROM T WHERE 17 <= age <= 32 AND 90 <= height <= 160 57 age height Q3 Q1 Q2 Q4 Q1とQ2とQ4は重複, Q3とQ4は重複

T WHERE 10 <= age <= 20 AND 100 <= height <= 120 • Q2:SELECT COUNT(age) FROM T WHERE 5 <= age <= 25 AND 80 <= height <= 105 • Q3:SELECT COUNT(age) FROM T WHERE 30 <= age <= 40 AND 150 <= height <= 180 • Q4:SELECT COUNT(age) FROM T WHERE 17 <= age <= 32 AND 90 <= height <= 160 58 age height Q3 Q1 Q2 Q4 Q1とQ2とQ4は重複, Q3とQ4は重複 𝜖'(')* = max ε + ε + ε, ε + ε = 3ε

クエリ応答におけるプライバシー消費の体系的な計算⽅法 • 最⼤のプライバシー消費は, クエリの最⼤重複数で計算可能 • ※ 各クエリで消費する𝜖が同⼀の場合 • クエリの最⼤重複数
≦ クエリグラフの最⼤クリークサイズ [7] 59 Q3 Q1 Q2 Q4 Q2 Q1 Q3 Q4 クエリグラフ[8] [7] J.Smith et. al., Making the Most of Parallel Composition in Differential Privacy., PETS2022 [8] A.Inan et. al., Sensitivity analysis for non-interactive differential privacy: bounds and efficient algorithms., IEEE TDSC2017 ノード : クエリエッジ : クエリ間で重複あり / なし

最⼤クリークサイズの計算問題はNP-Hard • クリークとは? • あらゆる2つの頂点をつなぐ辺が存在する頂点集合 • 最⼤クリークとは? • クリークの中で最も頂点数が多いもの •
最⼤クリークサイズ計算問題を解くメリット • NP-Hardだが既存の⾼速なソルバを利⽤できる 60 Q2 Q1 Q3 Q4 : 最⼤クリーク

関連する話題 • 近似計算による⾼速化 • 最⼤クリークサイズ ≦ グラフの彩⾊数の関係を利⽤し, グラフの彩⾊数の近似計算を⽤いるもの[7]
• 各クエリで消費する𝜖が任意の場合 • 最⼤重みクリーク列挙問題として定式化[7] 61 Q2 𝜖" Q1 𝜖! Q3 𝜖% Q4 𝜖& [7] J.Smith et. al., Making the Most of Parallel Composition in Differential Privacy., PETS2022

本パートのまとめ • プライバシー消費の基本的な考え⽅は(直列/並列)合成定理 • クエリ応答におけるプライバシー計算の計算⽅法の1つを紹介 • クエリグラフを作成し, 最⼤クリークサイズの計算問題を解く. • 最⼤クリークサイズの計算は既存の⾼速なソルバを利⽤可能.
62

複雑なテーブルへの対応 63

1⼈あたり複数レコードを持つDBへの問合せ 64 :Alice :Bob :Cynthia 𝜖( -DPを満たしたレコードの総数が欲しい

1⼈あたり複数レコードを持つDBへの問合せ 65 ラプラスメカニズムを使い, 𝜖( を満たす形で出⼒するか. カウントクエリはセンシティビティ = 1 だから…

1⼈あたり複数レコードを持つDBへの問合せ 66 ℳ 𝜖$ DPの定義を思い出してもらいたい. 果たして本当にこれで良いのだろうか? Lap 0, 1 𝜖!
𝜖( -DPを満たしたレコードの総数が欲しい

DPは1レコード単位の保護の提供が基本 • 隣接DBの定義より, DPは1レコード単位の保護を提供 • 隣接DB : 任意の1レコードが追加/削除されたDB • 1⼈あたり複数レコードを持つ場合,
通常のDPは不⼗分な可能性あり • 1ユーザ単位での保護を提供したい 67 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 D (1⼈あたり複数レコードを持つDB) NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 Dの隣接データベース(の⼀部) …

1⼈あたり複数レコードを持つDBへの対応 Naïve approach : Group Privacyの適⽤ • Group Privacy [1]
• cレコード単位での保護を提供する. exp 𝜖 à exp(𝜖𝑐)でDPを再定義 • 𝝐, 𝒄-Group Privacy ó 𝝐/𝒄-Differential Privacy • ≒ cレコード単位の保護のために, c倍強いDPによる保護. 68 Pr ℳ 𝑋 ∈ 𝑆 ≤ exp 𝜖𝑐 Pr ℳ 𝑋" ∈ 𝑆 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Bob apple 3 Cynthia banana 5 Cynthia cherry 4 … D (1⼈あたり複数レコードを持つDB) Dの隣接データベース(の⼀部), c = 3 [1] Cynthia Dwork., Differential Privacy., ICALP2006

(別視点) 1ユーザ単位の隣接性におけるカウントのセンシティビティを考えてみる • [仮定] 1ユーザの持つレコード数を最⼤cとする è カウントクエリのセンシティビティΔHIJKL = 𝑐
• ラプラスメカニズムの場合 69 𝑐 𝑐 Count(D) Count(D’) Count(D’’) ℳ 𝐷 = 𝑓 𝐷 + Lap 0, 𝑐 𝜖 𝝐/𝒄-Differential Privacy (User-Level DP)

Naïve approachの⽋点 • 1⼈が持つレコード数の最⼤値をcとして設定する必要がある. • è 外れ値に影響されやすい. 以下の例ではc=50となってしまう. 70 50
3 4 3 0 10 20 30 40 50 60 Alice Bob Cynthia David #records 各ユーザの持つレコード数 c

1⼈あたり複数レコードを持つDBへの対応 Bounding user contribution approach[9] • User contributionを閾値tでboundし, User-Level DP※を適⽤
• User contribution ≒ クエリ結果に対する1ユーザあたりの寄与度 ※ ≒ ユーザ単位の隣接性で, センシティビティを考えるDP • User contributionはクエリ結果の寄与の仕⽅により2種類 • パーティション = クエリ結果の⼀部 71 Alice Alice Alice Alice Bob Bob Alice Alice David Bob Bob David David Per-partition contribution cross-partition contribution あるパーティションに複数寄与複数のパーティションにわたって寄与 [9] R.Wilson et. al., Differentially Private SQL with Bounded User Contribution., PETS2020

Bounding per-partition contributionの例 • Rating=5と答えたレビューの総数を知りたい • SELECT COUNT(*) FROM tbl
WHERE Rating = 5 72 NAME Item Rating Alice apple 5 Alice banana 4 Alice cherry 5 Alice orange 5 Bob apple 5 Bob banana 5 Cynthia banana 5 Cynthia cherry 5 David apple 5 David orange 4 Table: tbl 3 2 2 2 2 2 1 1 0 2 4 6 8 10 raw bounding per-partion cont. (t=2) クエリ結果(各ユーザの貢献度の可視化) Alice Bob Cynthia David ※ Aliceは閾値t=2により, 貢献度 3 à 2 となっている.

Bounding user contribution approach vs Naïve approach • DP満たした形で, Rating=5と答えたレビューの総数を知る
• SELECT COUNT(*) FROM tbl WHERE Rating = 5 73 ※ cやtは, 公開情報以外を使った(データ依存での)設定は, ⼀般的にNG 8 7.47 9.22 0 2 4 6 8 10 non-private ε-DP with bounding user cont. (t=2, ε=2.0) ε-DP with naïve approach(c=4,ε=2.0)

Bounding cross-partition contributionの例 • Itemごとのレビューの数を知りたい • SELECT Item, COUNT(*) FROM
tbl GROUP BY Item 74 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 2 3 raw bound. cont. (t=2) raw bound. cont. (t=2) raw bound. cont. (t=2) raw bound. cont. (t=2) apple banana cherry orange クエリ結果(各ユーザごとの貢献度の可視化) Alice Bob Cynthia David ※ Aliceは閾値t=2により, 貢献度 4 à 2 となっている.

Bounding user contribution approach vs Naïve approach • DPを満たした形で, Itemごとのレビューの数を知る
• SELECT Item, COUNT(*) FROM tbl GROUP BY Item 75 3 3 2 2 2.39 2.62 1.83 2.31 3.83 4.74 3.74 1.03 0 1 2 3 4 5 apple banana cherry orange non-private ε-DP with bounding user cont. (t=2, ε=2.0) ε-DP with naïve approach (c=4, ε=2.0)

それぞれの⼿法の利点/⽋点のまとめ 76 利点⽋点 Naïve approach 情報を保持したままノイズ付与を実施外れ値(ユーザの持つレコードの数に偏り)に対して脆弱
Bounding user contribution approach [9] 外れ値に対して頑健情報を削ってからノイズ付与を実施 [9] R.Wilson et. al., Differentially Private SQL with Bounded User Contribution., PETS2020

Bounding user contribution approachの実装 • ZetaSQL DP extension • [9]を実装したもの.
詳しくは[10]を参照 • ANONYMIZATION句 • プライバシーパラメータepsilonに加え, contributionの閾値kappaなどを指定. • ANON_COUNT • ANONYMIZATION句で指定したプライバシー基準を満たすカウント関数 77 [9] R.Wilson et. al., Differentially Private SQL with Bounded User Contribution., PETS2020 [10] https://github.com/google/differential-privacy/tree/main/examples/zetasql

本パートのまとめ • 1⼈あたり複数レコードを持つDBの場合, 通常のDPではユーザ単位のプライバシー保護が難しい • Bounding user contribution approachを紹介
• User contributionをbound, ユーザ単位の隣接性でセンシティビティを定義し, そのセンシティビティに基づいたDPを適⽤. 78

Research Issues • ノイズを減らしたい（根源的な課題） • クエリを無制限にうちたい • JOINを実現したい • プライバシー消費の累積をタイトに⾒積もりたい
• 秘密計算とのハイブリッドを実現したい 80

無制限のクエリ応答を実現するには︖ 81

無制限のクエリ応答を実現するには︖ Question • How can we explore (unforeknown) data to
design data analytics while preserving privacy without the query limitation? 82 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖# … #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌%𝟏 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌5𝟏 Privacy Parameter 𝝐𝒌5𝟏

design data analytics while preserving privacy without the query limitation? Possible Solutions • Building “intermediates” satisfying differential privacy 83 Sensitive Data 𝑫 satisfying 𝝐-DP Data Scientist Query 𝒒𝟏 Query 𝒒𝒌 Differentially Private “Intermediates” … (unlimited) …

design data analytics while preserving privacy without the query limitation? Possible Solutions • Building “intermediates” satisfying differential privacy 84 Online Sanitization Data-aware Partitioning Workload- aware Optimization Data Synthesis P3GM [ICDE21] PEARL [ICLR22] HDPView [VLDB22] Query Agnostic ✔ ✔ ✔ ✔ ✔ Analytical Reliability ✔ ✔ ✔ ✔ Noise Resistance ✔ ✔ ✔ Space Efficient ✔ ✔ ✔ ✔

Privacy Preserving Data Synthesis • 機微データを模倣するデータ合成をプライバシー保護した形で学習したモデル • 【課題】⽣成モデルの学習は複雑なためノイズの影響を受けやすい • 【提案】ノイズに頑健なエンべディングをDP制約下で獲得
85 Train with Generative Model Synthesize ナイーブ法 P3GM (ours) ε=1.0 ε=0.2 PEARL (ours) ε=1.0 ε=1.0 ナイーブ法 P3GM PERAL Embedding End-to-end w/ DP-SGD DP-PCA Characteristic Function under DP Reconstruction DP-SGD Non-private (adversarial) 実⽤的なプライバシ基準(ε≦1)下で⽐較的⾼い近似性能を達成 ICDE2021採択 / ICLR2022採択

HDPView: A Differentially Private View • 任意のクエリに対して⼩さいノイズで応答可能なプライバシー保護型クエリ処理機構を実現するための中間データ構築法 86 Noise
Resistance Space Efficient Query Agnostic Analytical Reliability VLDB2022採択

Partitioning Strategy 87 1+ 0+ 5+ 4+ 2+ 1+ 8+
7+ 13+ 62+ 64+ 0+ 0+ 0+ 1+ 1+ Age ~20 20~30 30~40 40~50 ~10M 20M 30M 40M 4+ 24+ 13+ 126+ 0+ 2+ Salary 1+ 0+ 5+ 4+ 2+ 1+ 8+ 7+ 13+ 62+ 64+ 0+ 0+ 0+ 1+ 1+ 4+ 24+ 13+ 126+ 0+ 2+ 79 + 6x (4 + ) + (13 + ) + (126 + ) /2 = 80 + 2.5x PE àAE=0 PE àAE=1 AE︓Aggregation Error PE︓Perturbation Error Q. How can we find a partitioning minimizing AE + PE? Range Counting Query Data-aware Partitioning

Brief Algorithm of HDPView • Recursive bisection–based algorithm 88 1
0 6 0 2 2 2 32 8 4 3 4 0 1 64 0 16 0 0 0 0 0 12 1 9 8 24 2 3 4 6 6 0 6 3 4 1 0 6 2 32 8 0 1 64 0 2 2 4 3 4 0 16 0 0 0 0 0 12 1 9 8 24 2 3 4 6 6 0 6 3 4 Each block runs 2 mechanisms 1. Random converge distinguish stop or not 2. Random cut carefully choose a cutting point Pros︓Simple & Effective • Data-distribution-aware • Parallel privacy composition over different blocks • Scalable 1 0 6 0 2 2 2 32 8 4 3 4 0 1 64 0 16 0 0 0 0 0 12 1 9 8 24 2 3 4 6 6 0 6 3 4

Performance of HDPView 89 Identity Privtree HDMM Privbayes HDPView (ours)
ARR 1.94×10! 7.05 35.34 3.79 𝟏. 𝟎𝟎 Size of view Error (relative) Average relative RMSE (ARR) over 8 workloads and 8 datasets

JOINを実現するには︖ 90

JOINの実現に⽴ちはだかる課題 • 課題 • Self-joinを⽤いる際にSensitivityをどう扱えばよいか︖ • よく⽤いられる⽅策︓Truncation Mechanism • クエリへの貢献
(値の⼤きさ等) が 𝜏 より⼤きい個⼈をテーブルから削除 • ある個⼈に変更があっても、⾼々𝜏の変化 à sensitivity = 𝜏 • à クエリの結果にバイアスが⼊る à バイアスの⼩さい 𝝉 はどう選ぶ︖ 91

Self-joinがなぜ問題か︖ • ナイーブなTruncationがうまく機能しない • あるユーザの追加/削除が他のユーザにも影響してしまうため • Self-joinなしの従来の想定よりも閾値𝝉の値に⼤きく依存してしまう à 𝜏 をどう設定するか︖
92 SELCT SUM(Amount) FROM Transaction, People P1, People P2 WHERE P1.ID = From AND P2.ID = To; ID Location p1 Tokyo p2 Kyoto p3 Hokkaido p4 Okinawa … From To Amount p1 p2 1,000 p3 p4 1,000 p5 p6 1,000 p7 p8 1,000 p9 p10 1,000 … … p1 p3 p5 p7 p9 p2 p4 p6 p8 p10 𝜏 = 1,000 𝐼 𝐼3 … p1 p3 p5 p7 p9 p2 p4 p6 p8 p10 pz α 𝑄 𝐼, 𝜏 = 1,000× 1 2 𝑁 𝑄 𝐼3, 𝜏 = 0 N 追加 People(ID, Location) Transaction(From, To, Amount)

Race-to-the-Top (R2T) メカニズム [SIGMOD22] • 基本戦略︓様々な𝝉を競わせ、最も誤差の⼩さい値を出⼒ • 𝜏の候補は2のn乗の値に限る • DPを保証しながら
\ 𝑄(𝐼, 𝜏)を 93 真の出⼒ Truncation by 𝜏 Truncation by 𝜏 + DP Truncation による誤差 DPのノイズによる誤差 DPに必要なノイズノイズの加算を前提とした補正項 𝝉を競わせて最⼤値をR2Tメカニズムの出⼒とする (引⽤) https://dl.acm.org/doi/pdf/10.1145/3514221.3517844 真の出⼒ R2Tの出⼒

Evaluation: Error Level • 多くのクエリでR2Tの性能が⾼い (誤差が⼩さい) 94 (引⽤) https://dl.acm.org/doi/pdf/10.1145/3514221.3517844

プライバシー消費のタイトな管理 95

プライバシー合成 • Strong Composition • Advanced Composition • Renyi Differential
Privacy • などなど年々新しい合成法が提案されている (DPの沼) 96

より安全なデータ活⽤ ~ 秘密計算とのハイブリッド ~ 97

秘密計算結果のDPによる保護 • DPの最適なノイズの探索は、繰り返し計算がよく使われる • DPのメカニズムをそのまま秘密計算で実装することは難しい • 準同型暗号の設計上の制約 • DPメカニズムの計算オーダーの⾼さ 98

Crypto ε [SIGMOD2020] 99 Encrypted Database DP Index Partitioning with
equi-width Key Generation Decryption Cryptographic Service Provider (CSP) Analytics Server (AS) Data Analyst Query Encryption Data Owners ... data movement ... key distribution Adopt DP via Garbled Circuit ... secret key ... public key 1. Large errors of DP by partitioning with equi-width 2. Reveal the order of sorting by sorting via Garbled Circuit

DP-Summary [DEXA2021] 100 Encrypted Database DP Summary Data-aware Partitioning Key
Generation Decryption Decryption Server Computation Server Data Analyst Query Encryption Data Owners ... data movement ... key distribution Adopt DP ... evaluation key ... secret key Problem: Long execution time of data-aware partitioning over ciphertexts

HE-friendly Partitioning [BigData2022] 101 ⇒ 𝑩 = {{1,2}, {3,4,5}, {6,7}}
𝜺 = 𝟎. 𝟓 𝜺𝟏 = 𝟎. 𝟏𝟐𝟓, 𝜺𝟐 = 𝟎. 𝟑𝟕𝟓 → 𝒕 = 𝟏/𝜺𝟐 = 𝟐. 𝟔𝟕 Check only the difference between adjacent data Ø O(n) computational complexity Main idea Ø Simplify partitioning by focusing only on large gaps between consecutive values Procedure 1. Calculate difference between adjacent data 2. Compare difference and threshold 3. Perform “merge” or “divide”

NTTドコモとJALによる個⼈データ結合の実証実験 • ハッシュ / TEE / 準同型暗号 / DP等によるセキュアなデータ結合 https://www.docomo.ne.jp/binary/pdf/info/news_release/topics_221020_00.pdf
102

• TEEによる完全性の担保によりソルト付きハッシュの「ソルト破棄処理」を保証 • ソルト破棄処理+k-匿名化 5&& • 秘密計算によって安全にデータ突合と集計ができ、さらにTEEによりその処理の完全性も担保
• DPによって2組織 (のいずれか) に adversaryがいたとしてもノイズ加算された集計表に対する推定能⼒を制限 • 上記2つの処理より、処理中・処理後のデータも⾮個⼈情報とみなされる NTTドコモとJALによる個⼈データ結合の実証実験

まだまだ未解決課題が多いです • ノイズを減らしたい（根源的な課題） • クエリを無制限にうちたい • JOINを実現したい • プライバシー消費の累積をタイトに⾒積もりたい •
秘密計算とのハイブリッドを実現したい 104 是⾮いっしょに議論・研究・事例づくりをしましょう︕

まとめ 105

本チュートリアルでご紹介した内容 106 1. 基本編︓差分プライバシー（DP）の基礎（25min.） 2. 実践編︓DPクエリ応答の実⽤化に向けて（40min.） 3. 最前線︓DPクエリ応答の課題と研究事例（15min.） Takahashi Hasegawa

まとめ • 差分プライバシーをはじめとするプライバシーテックに興味を持ってもらえる⽅が増え、業界が活性化されると幸いです • 本チュートリアルが卒業研究・修⼠/博⼠論⽂のテーマ探しの参考になればうれしいです • LINEでは、プライバシーテックを注⼒トピックと捉え、研究開発に邁進しております
• インターンで⼀緒に研究開発してくれる⽅を募集しています 107

差分プライバシーによるクエリ処理の基本・実践・最前線

差分プライバシーによるクエリ処理の基本・実践・最前線

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript