段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving Deep Generative Model

段階的学習を⽤いたプライバシ保護型深層⽣成モデル⾼⽊駿† 京都⼤学髙橋翼 LINE株式会社曹洋
京都⼤学吉川正俊京都⼤学 †: 本研究は LINE株式会社におけるインターンシップの成果に基づきます

2 背景︓データ提供とプライバシ保護 • 組織・部⾨を超えたデータ共有・活⽤で、プライバシ問題が障壁に èプライバシリスクを低減したデータの提供⽅法を実現したい • Privacy Preserving Data Synthesis:
PPDS • 所定のプライバシ基準を満たす⽣成モデルの第三者への提供 • この⽣成モデルより、プライバシリスクを低減したデータをサンプルできるセンシティブデータ Data Mgmt Div. Rand. Seeds ⼈⼯データ Data Science Div. ⽣成モデル⽣成モデル

3 差分プライバシ • (ε, δ)-差分プライバシ︓ランダム化に基づく厳密なプライバシ基準 • アルゴリズムの出⼒から⼊⼒が識別困難であることを保証 è 個⼈のデータを推測されにくい Randomized
Algorithm Randomized Algorithm Output1 Output2 識別不能 She is gone. Pr[ℳ % ∈ '] ≤ exp(.) Pr ℳ %0 ∈ ' + 2 such that 34 %, %0 = 1

4 ⽣成モデルの学習過程において、パラメータの更新時にノイズを付加することで差分プライベートな⽣成モデルが構築できる差分プライベートな⽣成モデルの学習名前 ... ⾝⻑疾患 A ...
140 Yes B ... 160 No C ... 180 No ノイズを加えた学習差分プライバシを保証した⽣成モデル名前 ... ⾝⻑疾患 A ... 130 Yes B ... 170 No C ... 180 No データセットの⽣成差分プライバシが保証された⼈⼯データ⽣成モデルの学習は、次元がある程度⼤きくなってもノイズの⼤きさを抑えることができる

5 ⾼次元データに対して、元のデータらしさを保持することが困難課題元データ PrivBayes[2] ⽣成モデルナイーブな⼿法[4] DP-GM[3] 深層⽣成モデル（VAE[1]）

6 ⾼次元データに対しても、元のデータらしさを保持した⽣成モデルを差分プライバシの制約下で実現本研究の貢献元データ PrivBayes[2] ⽣成モデルナイーブな⼿法[4] DP-GM[3] 深層⽣成モデル（VAE[1]）
提案⼿法

7 本研究の貢献ベイジアンネットワーク GANs VAEs 提案法⾼次元データ × ×
◦ ◦ データらしさ ◦ × × ◦ 既存⼿法 PrivBayes [2] DP-GM [3] ナイーブ⼿法 [4] 深層⽣成モデル⽣成モデル DP-GAN [6] PATE-GAN [7]

準備 8

9 埋込みと再構築から成る確率モデルによる深層⽣成モデル乱数 !~#(0, ') を中間層に⼊⼒することで⼈⼯データを⽣成 Variational
AutoEncoder (VAE[1]) • 埋込み︓データ)を潜在空間 !~#(0, ') に埋込み • 再構築︓ ) ≈ + )となる+ )を!から⽣成 z~標準正規分布#(0, ') 潜在空間元の空間再構築埋め込み元の空間 ! ) + ) ,- ,. 標準正規分布データ⽣成埋込み〜再構築の過程 / → 1 → 2 / を学習

10 確率的勾配降下法 (SGD) において、重み!の更新Δにノイズ"を加えることで、学習されたモデルに差分プライバシーを保証 DP-SGD[4]: 深層モデルの差分プライベートな学習 #$ #% 名前
⾝⻑疾患 A 140 Yes B 160 No C 180 No #$ ← #$ + Δ$ + )$ #% ← #% + Δ% + )% 繰り返し

11 VAE を DP-SGD で訓練することで、差分プライバシを保証可能ただし、ノイズによってうまく収束しない VAE[1] + DP-SGD[4] 潜在空間
元の空間再構築埋め込み元の空間 ! " # " $% $& 不正確な埋め込み不正確な再構築

12 収束の困難さに関する考察潜在空間元の空間再構築埋め込み元の空間 ! " #
" "′ !′ % "′ 正しい埋め込み潜在空間元の空間再構築埋め込み元の空間 ! " !′ "′ & "'' ノイズノイズによる埋め込みの劣化 (′の再構築として)と)′を混ぜたようなデータを⽣成するように学習してしまう

13 事前に集めた類似するデータ群を対象に⽣成モデルを学習 DP-GM [3] • 利点︓埋め込みが不正確でもそれらしいデータを⽣成できる • 問題点 • “類似するデータ”をどうやって集める︖
• 差分プライバシの性質上、分割によってデータサイズが⼩さくなれば、必要なノイズが増えてしまう潜在空間元の空間再構築埋込み元の空間 ! " # " !′ "′ % "′ ノイズ

提案⼿法 Privacy Preserving Phased Generative Model (P3GM) 14

15 埋込みと再構築を分離した段階的学習ノイズによる埋込みの劣化を防ぎ、学習過程全体の効率の向上を図る基本的なアイディア • 段階１︓埋込みだけを学習 • 段階２︓埋込みを固定して再構築を学習潜在空間元の空間
再構築元の空間 ! " # " !′ "′ % "′ 段階1: 埋め込みの学習段階2: 再構築の学習 VAEは埋込みと再構築を同時学習 cf. VAE 埋込み

16 段階的学習が可能な確率モデル埋め込みの事前学習が可能な確率モデルを考える • 「潜在変数z=訓練データx」を仮定すると、埋込みを事前に学習可能 • つまり、! →
# = ! → % ! という過程を! ≈ % !となるように学習潜在空間=元の空間元の空間再構築元の空間 #′(= !′) ! % ! #(= !) !′ * !′ 埋め込み段階1: 埋め込みの学習

17 段階1: 埋め込み学習 • ! → #(= !) → '
!の過程を学習するには#の事前分布が必要 • ! = #であるから、 !の事前分布を求めればよいが、それは難しい →xの分布を混合正規分布(MoG)で近似潜在空間=元の空間元の空間再構築元の空間 #′ ! ' ! # !′ ) !′ 埋め込み混合正規分布段階1: 埋め込みの学習

18 段階1: 埋め込み学習 • データ!の従うMoGのパラメータをEMアルゴリズムで推定 • ⾼次元データはEMアルゴリズムがうまく機能しないため、PCAで次元圧縮 • 差分プライベートなEM、PCAとしてDP-EM [8]、DP-PCA
[9]を利⽤潜在空間=元の空間元の空間再構築元の空間 "′ ! $ ! " !′ % !′ 埋め込み混合正規分布段階1: 埋め込みの学習

19 段階2: 再構築学習 • 埋め込みを固定して、! ≈ # !となるようにDP-SGDで再構築を学習 • 段階1で推定した混合正規分布に従う変数$を⼊⼒してデータを⽣成
潜在空間=元の空間元の空間再構築元の空間 $′ ! # ! $ !′ & !′ 埋め込み段階2: 再構築の学習混合正規分布 z~混合正規分布

評価実験 20

21 実験の⼿順 • ⽣成データの質 = 機械学習タスクでの有⽤性 • ⽣成モデルから⽣成したデータセットを⽤いて機械学習モデルを訓練 • 機械学習タスクにおける性能（分類精度などのスコア）を実データで計測
• 実データと同様に良いスコアを⽰すか否かを評価 • 実験設定 • (1,10$%)-差分プライバシ • 分類モデル︓⼆値分類 • ロジスティック回帰など4モデルを利⽤ • 4モデルの平均スコアを算出 • スコア • AUROC︓いかに⼆つのクラスを分離できているか • AUPRC︓いかに間違いを出さずに真陽性を出せるか使⽤したデータセット

22 結果 • 提案法P3GMは 3/4のデータで最⾼スコア • 依存関係が単純なデータ (Adult) に関しては、ベイジアンネットワークを⽤いた PrivBayes
が他の深層学習法よりも効率よく学習できた、と考えられる • データ数の少ないUCI ISOLETデータはスコアの低下が著しい • 差分プライバシの性質上、少データの保護は難しく、ノイズが⼤きくなった、と考えられる

23 まとめ • 差分プライバシーの制約下、⾼次元データであっても、元のデータらしさを保持可能な⽣成モデルP3GMを提案 • 実験により提案法の有⽤性を確認元データ PrivBayes[2] ⽣成モデル
ナイーブな⼿法[4] DP-GM[3] 深層⽣成モデル（VAE[1]）提案⼿法

24 参考⽂献 [1] DP Kingma and Max Welling. "Auto-encoding variational
bayes." arXiv preprint arXiv:1312.6114 (2013). [2] J. Zhang, et al. "Privbayes: Private data release via bayesian networks." SIGMOD 2014. [3] G. Acs, et al. "Differentially private mixture of generative neural networks." IEEE Transactions on Knowledge and Data Engineering 31.6 (2018): 1109-1121. [4] M. Abadi, et al. "Deep learning with differential privacy." CCS 2016. [5] I. Goodfellow, et al. "Generative adversarial nets." NIPS (2014). [6] Xie, Liyang, et al. "Differentially private generative adversarial network." arXiv preprint arXiv:1802.06739 (2018). [7] J. Jordon, et al. “Generating Synthetic Data with Differential Privacy Guarantees.” ICLR (2019). [8] M. Park, et al. "DP-EM: Differentially private expectation maximization." AISTATS (2017). [9] W. Jiang, et al. "Wishart mechanism for differentially private principal components analysis." AAAI (2016).

段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving D...

段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving Deep Generative Model

LINE Developers

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript

段階的学習を⽤いたプライバシ保護型深層⽣成モデル⾼⽊駿† 京都⼤学髙橋翼 LINE株式会社曹洋

2 背景︓データ提供とプライバシ保護 • 組織・部⾨を超えたデータ共有・活⽤で、プライバシ問題が障壁に èプライバシリスクを低減したデータの提供⽅法を実現したい • Privacy Preserving Data Synthesis:

3 差分プライバシ • (ε, δ)-差分プライバシ︓ランダム化に基づく厳密なプライバシ基準 • アルゴリズムの出⼒から⼊⼒が識別困難であることを保証 è 個⼈のデータを推測されにくい Randomized

4 ⽣成モデルの学習過程において、パラメータの更新時にノイズを付加することで差分プライベートな⽣成モデルが構築できる差分プライベートな⽣成モデルの学習名前 ... ⾝⻑疾患 A ...

5 ⾼次元データに対して、元のデータらしさを保持することが困難課題元データ PrivBayes[2] ⽣成モデルナイーブな⼿法[4] DP-GM[3] 深層⽣成モデル（VAE[1]）

6 ⾼次元データに対しても、元のデータらしさを保持した⽣成モデルを差分プライバシの制約下で実現本研究の貢献元データ PrivBayes[2] ⽣成モデルナイーブな⼿法[4] DP-GM[3] 深層⽣成モデル（VAE[1]）

7 本研究の貢献ベイジアンネットワーク GANs VAEs 提案法⾼次元データ × ×

準備 8

9 埋込みと再構築から成る確率モデルによる深層⽣成モデル乱数 !~#(0, ') を中間層に⼊⼒することで⼈⼯データを⽣成 Variational

10 確率的勾配降下法 (SGD) において、重み!の更新Δにノイズ"を加えることで、学習されたモデルに差分プライバシーを保証 DP-SGD[4]: 深層モデルの差分プライベートな学習 #$ #% 名前

11 VAE を DP-SGD で訓練することで、差分プライバシを保証可能ただし、ノイズによってうまく収束しない VAE[1] + DP-SGD[4] 潜在空間

12 収束の困難さに関する考察潜在空間元の空間再構築埋め込み元の空間 ! " #

13 事前に集めた類似するデータ群を対象に⽣成モデルを学習 DP-GM [3] • 利点︓埋め込みが不正確でもそれらしいデータを⽣成できる • 問題点 • “類似するデータ”をどうやって集める︖

提案⼿法 Privacy Preserving Phased Generative Model (P3GM) 14

15 埋込みと再構築を分離した段階的学習ノイズによる埋込みの劣化を防ぎ、学習過程全体の効率の向上を図る基本的なアイディア • 段階１︓埋込みだけを学習 • 段階２︓埋込みを固定して再構築を学習潜在空間元の空間

16 段階的学習が可能な確率モデル埋め込みの事前学習が可能な確率モデルを考える • 「潜在変数z=訓練データx」を仮定すると、埋込みを事前に学習可能 • つまり、! →

17 段階1: 埋め込み学習 • ! → #(= !) → '

18 段階1: 埋め込み学習 • データ!の従うMoGのパラメータをEMアルゴリズムで推定 • ⾼次元データはEMアルゴリズムがうまく機能しないため、PCAで次元圧縮 • 差分プライベートなEM、PCAとしてDP-EM [8]、DP-PCA

19 段階2: 再構築学習 • 埋め込みを固定して、! ≈ # !となるようにDP-SGDで再構築を学習 • 段階1で推定した混合正規分布に従う変数$を⼊⼒してデータを⽣成

評価実験 20

21 実験の⼿順 • ⽣成データの質 = 機械学習タスクでの有⽤性 • ⽣成モデルから⽣成したデータセットを⽤いて機械学習モデルを訓練 • 機械学習タスクにおける性能（分類精度などのスコア）を実データで計測

22 結果 • 提案法P3GMは 3/4のデータで最⾼スコア • 依存関係が単純なデータ (Adult) に関しては、ベイジアンネットワークを⽤いた PrivBayes

23 まとめ • 差分プライバシーの制約下、⾼次元データであっても、元のデータらしさを保持可能な⽣成モデルP3GMを提案 • 実験により提案法の有⽤性を確認元データ PrivBayes[2] ⽣成モデル

24 参考⽂献 [1] DP Kingma and Max Welling. "Auto-encoding variational