Upgrade to Pro — share decks privately, control downloads, hide ads and more …

段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving Deep Generative Model

段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving Deep Generative Model

高木駿 (京都大学), 高橋翼 (LINE株式会社), 曹洋 (京都大学), 吉川正俊 (京都大学)
※DEIM2020(第12回データ工学と情報マネジメントに関するフォーラム / 第18回日本データベース学会年次大会)での発表資料です。
https://cms.deim-forum.org/deim2020/program/?oral#/E2

LINE Developers

March 02, 2020
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 段階的学習を⽤いた プライバシ保護型深層⽣成モデル ⾼⽊ 駿† 京都⼤学 髙橋 翼 LINE株式会社 曹 洋

    京都⼤学 吉川 正俊 京都⼤学 †: 本研究は LINE株式会社 における インターンシップの成果に基づきます
  2. 2 背景︓データ提供とプライバシ保護 • 組織・部⾨を超えたデータ共有・活⽤で、プライバシ問題が障壁に èプライバシリスクを低減したデータの提供⽅法を実現したい • Privacy Preserving Data Synthesis:

    PPDS • 所定のプライバシ基準を満たす⽣成モデルの第三者への提供 • この⽣成モデルより、プライバシリスクを低減したデータをサンプルできる センシティブデータ Data Mgmt Div. Rand. Seeds ⼈⼯データ Data Science Div. ⽣成モデル ⽣成モデル
  3. 4 ⽣成モデルの学習過程において、パラメータの更新時にノイズを付加 することで差分プライベートな⽣成モデルが構築できる 差分プライベートな⽣成モデルの学習 名前 ... ⾝⻑ 疾患 A ...

    140 Yes B ... 160 No C ... 180 No ノイズを 加えた学習 差分プライバシを 保証した⽣成モデル 名前 ... ⾝⻑ 疾患 A ... 130 Yes B ... 170 No C ... 180 No データセット の⽣成 差分プライバシが保証された ⼈⼯データ ⽣成モデルの学習は、次元がある程度⼤きくなっても ノイズの⼤きさを抑えることができる
  4. 7 本研究の貢献 ベイジアン ネットワーク GANs VAEs 提案法 ⾼次元データ × ×

    ◦ ◦ データらしさ ◦ × × ◦ 既存⼿法 PrivBayes [2] DP-GM [3] ナイーブ⼿法 [4] 深層⽣成モデル ⽣成モデル DP-GAN [6] PATE-GAN [7]
  5. 9 埋込み と 再構築 から成る確率モデルによる深層⽣成モデル 乱数 !~#(0, ') を中間層に⼊⼒することで⼈⼯データを⽣成 Variational

    AutoEncoder (VAE[1]) • 埋込み︓データ)を潜在空間 !~#(0, ') に埋込み • 再構築︓ ) ≈ + )となる+ )を!から⽣成 z~標準正規分布#(0, ') 潜在空間 元の空間 再構築 埋め込み 元の空間 ! ) + ) ,- ,. 標準正規分布 データ⽣成 埋込み〜再構築の過程 / → 1 → 2 / を学習
  6. 12 収束の困難さに関する考察 潜在空間 元の空間 再構築 埋め込み 元の空間 ! " #

    " "′ !′ % "′ 正しい埋め込み 潜在空間 元の空間 再構築 埋め込み 元の空間 ! " !′ "′ & "'' ノイズ ノイズによる 埋め込みの劣化 (′の再構築として)と)′を混ぜたようなデータを⽣成するように学習してしまう
  7. 13 事前に集めた類似するデータ群を対象に⽣成モデルを学習 DP-GM [3] • 利点︓埋め込みが不正確でもそれらしいデータを⽣成できる • 問題点 • “類似するデータ”をどうやって集める︖

    • 差分プライバシの性質上、分割によってデータサイズが⼩さくなれば、 必要なノイズが増えてしまう 潜在空間 元の空間 再構築 埋込み 元の空間 ! " # " !′ "′ % "′ ノイズ
  8. 16 段階的学習が可能な確率モデル 埋め込みの事前学習が可能な 確率モデル を考える • 「潜在変数z=訓練データx」を仮定すると、埋込みを事前に学習可能 • つまり、! →

    # = ! → % ! という過程を! ≈ % !となるように学習 潜在空間=元の空間 元の空間 再構築 元の空間 #′(= !′) ! % ! #(= !) !′ * !′ 埋め込み 段階1: 埋め込みの学習
  9. 17 段階1: 埋め込み学習 • ! → #(= !) → '

    !の過程を学習するには#の事前分布が必要 • ! = #であるから、 !の事前分布を求めればよいが、それは難しい →xの分布を混合正規分布(MoG)で近似 潜在空間=元の空間 元の空間 再構築 元の空間 #′ ! ' ! # !′ ) !′ 埋め込み 混合正規分布 段階1: 埋め込みの学習
  10. 19 段階2: 再構築学習 • 埋め込みを固定して、! ≈ # !となるようにDP-SGDで再構築を学習 • 段階1で推定した混合正規分布に従う変数$を⼊⼒してデータを⽣成

    潜在空間=元の空間 元の空間 再構築 元の空間 $′ ! # ! $ !′ & !′ 埋め込み 段階2: 再構築の学習 混合正規分布 z~混合正規分布
  11. 21 実験の⼿順 • ⽣成データの質 = 機械学習タスクでの有⽤性 • ⽣成モデルから⽣成したデータセットを⽤いて機械学習モデルを訓練 • 機械学習タスクにおける性能(分類精度などのスコア)を実データで計測

    • 実データと同様に良いスコアを⽰すか否かを評価 • 実験設定 • (1,10$%)-差分プライバシ • 分類モデル︓⼆値分類 • ロジスティック回帰など4モデルを利⽤ • 4モデルの平均スコアを算出 • スコア • AUROC︓いかに⼆つのクラスを分離できているか • AUPRC︓いかに間違いを出さずに真陽性を出せるか 使⽤したデータセット
  12. 22 結果 • 提案法P3GMは 3/4のデータで最⾼スコア • 依存関係が単純なデータ (Adult) に関しては、ベイジアンネットワークを⽤いた PrivBayes

    が他の深層学習法よりも効率よく学習できた、と考えられる • データ数の少ないUCI ISOLETデータはスコアの低下が著しい • 差分プライバシの性質上、少データの保護は難しく、ノイズが⼤きくなった、と考えられる
  13. 24 参考⽂献 [1] DP Kingma and Max Welling. "Auto-encoding variational

    bayes." arXiv preprint arXiv:1312.6114 (2013). [2] J. Zhang, et al. "Privbayes: Private data release via bayesian networks." SIGMOD 2014. [3] G. Acs, et al. "Differentially private mixture of generative neural networks." IEEE Transactions on Knowledge and Data Engineering 31.6 (2018): 1109-1121. [4] M. Abadi, et al. "Deep learning with differential privacy." CCS 2016. [5] I. Goodfellow, et al. "Generative adversarial nets." NIPS (2014). [6] Xie, Liyang, et al. "Differentially private generative adversarial network." arXiv preprint arXiv:1802.06739 (2018). [7] J. Jordon, et al. “Generating Synthetic Data with Differential Privacy Guarantees.” ICLR (2019). [8] M. Park, et al. "DP-EM: Differentially private expectation maximization." AISTATS (2017). [9] W. Jiang, et al. "Wishart mechanism for differentially private principal components analysis." AAAI (2016).