段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving Deep Generative Model

段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving Deep Generative Model

高木駿 (京都大学), 高橋翼 (LINE株式会社), 曹洋 (京都大学), 吉川正俊 (京都大学)
※DEIM2020(第12回データ工学と情報マネジメントに関するフォーラム / 第18回日本データベース学会年次大会)での発表資料です。
https://cms.deim-forum.org/deim2020/program/?oral#/E2

53850955f15249a1a9dc49df6113e400?s=128

LINE Developers

March 02, 2020
Tweet

Transcript

  1. 段階的学習を⽤いた プライバシ保護型深層⽣成モデル ⾼⽊ 駿† 京都⼤学 髙橋 翼 LINE株式会社 曹 洋

    京都⼤学 吉川 正俊 京都⼤学 †: 本研究は LINE株式会社 における インターンシップの成果に基づきます
  2. 2 背景︓データ提供とプライバシ保護 • 組織・部⾨を超えたデータ共有・活⽤で、プライバシ問題が障壁に èプライバシリスクを低減したデータの提供⽅法を実現したい • Privacy Preserving Data Synthesis:

    PPDS • 所定のプライバシ基準を満たす⽣成モデルの第三者への提供 • この⽣成モデルより、プライバシリスクを低減したデータをサンプルできる センシティブデータ Data Mgmt Div. Rand. Seeds ⼈⼯データ Data Science Div. ⽣成モデル ⽣成モデル
  3. 3 差分プライバシ • (ε, δ)-差分プライバシ︓ランダム化に基づく厳密なプライバシ基準 • アルゴリズムの出⼒から⼊⼒が識別困難であることを保証 è 個⼈のデータを推測されにくい Randomized

    Algorithm Randomized Algorithm Output1 Output2 識別不能 She is gone. Pr[ℳ % ∈ '] ≤ exp(.) Pr ℳ %0 ∈ ' + 2 such that 34 %, %0 = 1
  4. 4 ⽣成モデルの学習過程において、パラメータの更新時にノイズを付加 することで差分プライベートな⽣成モデルが構築できる 差分プライベートな⽣成モデルの学習 名前 ... ⾝⻑ 疾患 A ...

    140 Yes B ... 160 No C ... 180 No ノイズを 加えた学習 差分プライバシを 保証した⽣成モデル 名前 ... ⾝⻑ 疾患 A ... 130 Yes B ... 170 No C ... 180 No データセット の⽣成 差分プライバシが保証された ⼈⼯データ ⽣成モデルの学習は、次元がある程度⼤きくなっても ノイズの⼤きさを抑えることができる
  5. 5 ⾼次元データに対して、元のデータらしさを保持することが困難 課題 元データ PrivBayes[2] ⽣成モデル ナイーブな⼿法[4] DP-GM[3] 深層⽣成モデル(VAE[1])

  6. 6 ⾼次元データに対しても、元のデータらしさを保持した⽣成モデルを 差分プライバシの制約下で実現 本研究の貢献 元データ PrivBayes[2] ⽣成モデル ナイーブな⼿法[4] DP-GM[3] 深層⽣成モデル(VAE[1])

    提案⼿法
  7. 7 本研究の貢献 ベイジアン ネットワーク GANs VAEs 提案法 ⾼次元データ × ×

    ◦ ◦ データらしさ ◦ × × ◦ 既存⼿法 PrivBayes [2] DP-GM [3] ナイーブ⼿法 [4] 深層⽣成モデル ⽣成モデル DP-GAN [6] PATE-GAN [7]
  8. 準備 8

  9. 9 埋込み と 再構築 から成る確率モデルによる深層⽣成モデル 乱数 !~#(0, ') を中間層に⼊⼒することで⼈⼯データを⽣成 Variational

    AutoEncoder (VAE[1]) • 埋込み︓データ)を潜在空間 !~#(0, ') に埋込み • 再構築︓ ) ≈ + )となる+ )を!から⽣成 z~標準正規分布#(0, ') 潜在空間 元の空間 再構築 埋め込み 元の空間 ! ) + ) ,- ,. 標準正規分布 データ⽣成 埋込み〜再構築の過程 / → 1 → 2 / を学習
  10. 10 確率的勾配降下法 (SGD) において、重み!の更新Δにノイズ"を加える ことで、学習されたモデルに差分プライバシーを保証 DP-SGD[4]: 深層モデルの差分プライベートな学習 #$ #% 名前

    ⾝⻑ 疾患 A 140 Yes B 160 No C 180 No #$ ← #$ + Δ$ + )$ #% ← #% + Δ% + )% 繰り返し
  11. 11 VAE を DP-SGD で訓練することで、差分プライバシを保証可能 ただし、ノイズによってうまく収束しない VAE[1] + DP-SGD[4] 潜在空間

    元の空間 再構築 埋め込み 元の空間 ! " # " $% $& 不正確な埋め込み 不正確な再構築
  12. 12 収束の困難さに関する考察 潜在空間 元の空間 再構築 埋め込み 元の空間 ! " #

    " "′ !′ % "′ 正しい埋め込み 潜在空間 元の空間 再構築 埋め込み 元の空間 ! " !′ "′ & "'' ノイズ ノイズによる 埋め込みの劣化 (′の再構築として)と)′を混ぜたようなデータを⽣成するように学習してしまう
  13. 13 事前に集めた類似するデータ群を対象に⽣成モデルを学習 DP-GM [3] • 利点︓埋め込みが不正確でもそれらしいデータを⽣成できる • 問題点 • “類似するデータ”をどうやって集める︖

    • 差分プライバシの性質上、分割によってデータサイズが⼩さくなれば、 必要なノイズが増えてしまう 潜在空間 元の空間 再構築 埋込み 元の空間 ! " # " !′ "′ % "′ ノイズ
  14. 提案⼿法 Privacy Preserving Phased Generative Model (P3GM) 14

  15. 15 埋込みと再構築を分離した段階的学習 ノイズによる埋込みの劣化を防ぎ、学習過程全体の効率の向上を図る 基本的なアイディア • 段階1︓埋込みだけを学習 • 段階2︓埋込みを固定して再構築を学習 潜在空間 元の空間

    再構築 元の空間 ! " # " !′ "′ % "′ 段階1: 埋め込みの学習 段階2: 再構築の学習 VAEは埋込みと再構築を 同時学習 cf. VAE 埋込み
  16. 16 段階的学習が可能な確率モデル 埋め込みの事前学習が可能な 確率モデル を考える • 「潜在変数z=訓練データx」を仮定すると、埋込みを事前に学習可能 • つまり、! →

    # = ! → % ! という過程を! ≈ % !となるように学習 潜在空間=元の空間 元の空間 再構築 元の空間 #′(= !′) ! % ! #(= !) !′ * !′ 埋め込み 段階1: 埋め込みの学習
  17. 17 段階1: 埋め込み学習 • ! → #(= !) → '

    !の過程を学習するには#の事前分布が必要 • ! = #であるから、 !の事前分布を求めればよいが、それは難しい →xの分布を混合正規分布(MoG)で近似 潜在空間=元の空間 元の空間 再構築 元の空間 #′ ! ' ! # !′ ) !′ 埋め込み 混合正規分布 段階1: 埋め込みの学習
  18. 18 段階1: 埋め込み学習 • データ!の従うMoGのパラメータをEMアルゴリズムで推定 • ⾼次元データはEMアルゴリズムがうまく機能しないため、PCAで次元圧縮 • 差分プライベートなEM、PCAとしてDP-EM [8]、DP-PCA

    [9]を利⽤ 潜在空間=元の空間 元の空間 再構築 元の空間 "′ ! $ ! " !′ % !′ 埋め込み 混合正規分布 段階1: 埋め込みの学習
  19. 19 段階2: 再構築学習 • 埋め込みを固定して、! ≈ # !となるようにDP-SGDで再構築を学習 • 段階1で推定した混合正規分布に従う変数$を⼊⼒してデータを⽣成

    潜在空間=元の空間 元の空間 再構築 元の空間 $′ ! # ! $ !′ & !′ 埋め込み 段階2: 再構築の学習 混合正規分布 z~混合正規分布
  20. 評価実験 20

  21. 21 実験の⼿順 • ⽣成データの質 = 機械学習タスクでの有⽤性 • ⽣成モデルから⽣成したデータセットを⽤いて機械学習モデルを訓練 • 機械学習タスクにおける性能(分類精度などのスコア)を実データで計測

    • 実データと同様に良いスコアを⽰すか否かを評価 • 実験設定 • (1,10$%)-差分プライバシ • 分類モデル︓⼆値分類 • ロジスティック回帰など4モデルを利⽤ • 4モデルの平均スコアを算出 • スコア • AUROC︓いかに⼆つのクラスを分離できているか • AUPRC︓いかに間違いを出さずに真陽性を出せるか 使⽤したデータセット
  22. 22 結果 • 提案法P3GMは 3/4のデータで最⾼スコア • 依存関係が単純なデータ (Adult) に関しては、ベイジアンネットワークを⽤いた PrivBayes

    が他の深層学習法よりも効率よく学習できた、と考えられる • データ数の少ないUCI ISOLETデータはスコアの低下が著しい • 差分プライバシの性質上、少データの保護は難しく、ノイズが⼤きくなった、と考えられる
  23. 23 まとめ • 差分プライバシーの制約下、⾼次元データであっても、元のデータ らしさを保持可能な⽣成モデルP3GMを提案 • 実験により提案法の有⽤性を確認 元データ PrivBayes[2] ⽣成モデル

    ナイーブな⼿法[4] DP-GM[3] 深層⽣成モデル(VAE[1]) 提案⼿法
  24. 24 参考⽂献 [1] DP Kingma and Max Welling. "Auto-encoding variational

    bayes." arXiv preprint arXiv:1312.6114 (2013). [2] J. Zhang, et al. "Privbayes: Private data release via bayesian networks." SIGMOD 2014. [3] G. Acs, et al. "Differentially private mixture of generative neural networks." IEEE Transactions on Knowledge and Data Engineering 31.6 (2018): 1109-1121. [4] M. Abadi, et al. "Deep learning with differential privacy." CCS 2016. [5] I. Goodfellow, et al. "Generative adversarial nets." NIPS (2014). [6] Xie, Liyang, et al. "Differentially private generative adversarial network." arXiv preprint arXiv:1802.06739 (2018). [7] J. Jordon, et al. “Generating Synthetic Data with Differential Privacy Guarantees.” ICLR (2019). [8] M. Park, et al. "DP-EM: Differentially private expectation maximization." AISTATS (2017). [9] W. Jiang, et al. "Wishart mechanism for differentially private principal components analysis." AAAI (2016).