Upgrade to Pro — share decks privately, control downloads, hide ads and more …

段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving Deep Generative Model

段階的学習を用いたプライバシ保護型深層生成モデル / Privacy-Preserving Deep Generative Model

高木駿 (京都大学), 高橋翼 (LINE株式会社), 曹洋 (京都大学), 吉川正俊 (京都大学)
※DEIM2020(第12回データ工学と情報マネジメントに関するフォーラム / 第18回日本データベース学会年次大会)での発表資料です。
https://cms.deim-forum.org/deim2020/program/?oral#/E2

LINE Developers
PRO

March 02, 2020
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 段階的学習を⽤いた
    プライバシ保護型深層⽣成モデル
    ⾼⽊ 駿† 京都⼤学
    髙橋 翼 LINE株式会社
    曹 洋 京都⼤学
    吉川 正俊 京都⼤学 †: 本研究は LINE株式会社 における
    インターンシップの成果に基づきます

    View Slide

  2. 2
    背景︓データ提供とプライバシ保護
    • 組織・部⾨を超えたデータ共有・活⽤で、プライバシ問題が障壁に
    èプライバシリスクを低減したデータの提供⽅法を実現したい
    • Privacy Preserving Data Synthesis: PPDS
    • 所定のプライバシ基準を満たす⽣成モデルの第三者への提供
    • この⽣成モデルより、プライバシリスクを低減したデータをサンプルできる
    センシティブデータ
    Data Mgmt Div.
    Rand.
    Seeds
    ⼈⼯データ
    Data Science Div.
    ⽣成モデル ⽣成モデル

    View Slide

  3. 3
    差分プライバシ
    • (ε, δ)-差分プライバシ︓ランダム化に基づく厳密なプライバシ基準
    • アルゴリズムの出⼒から⼊⼒が識別困難であることを保証
    è 個⼈のデータを推測されにくい
    Randomized
    Algorithm
    Randomized
    Algorithm
    Output1
    Output2
    識別不能
    She is gone.
    Pr[ℳ % ∈ '] ≤ exp(.) Pr ℳ %0 ∈ ' + 2 such that
    34
    %, %0 = 1

    View Slide

  4. 4
    ⽣成モデルの学習過程において、パラメータの更新時にノイズを付加
    することで差分プライベートな⽣成モデルが構築できる
    差分プライベートな⽣成モデルの学習
    名前 ... ⾝⻑ 疾患
    A ... 140 Yes
    B ... 160 No
    C ... 180 No
    ノイズを
    加えた学習
    差分プライバシを
    保証した⽣成モデル
    名前 ... ⾝⻑ 疾患
    A ... 130 Yes
    B ... 170 No
    C ... 180 No
    データセット
    の⽣成
    差分プライバシが保証された
    ⼈⼯データ
    ⽣成モデルの学習は、次元がある程度⼤きくなっても
    ノイズの⼤きさを抑えることができる

    View Slide

  5. 5
    ⾼次元データに対して、元のデータらしさを保持することが困難
    課題
    元データ
    PrivBayes[2]
    ⽣成モデル
    ナイーブな⼿法[4] DP-GM[3]
    深層⽣成モデル(VAE[1])

    View Slide

  6. 6
    ⾼次元データに対しても、元のデータらしさを保持した⽣成モデルを
    差分プライバシの制約下で実現
    本研究の貢献
    元データ
    PrivBayes[2]
    ⽣成モデル
    ナイーブな⼿法[4] DP-GM[3]
    深層⽣成モデル(VAE[1])
    提案⼿法

    View Slide

  7. 7
    本研究の貢献
    ベイジアン
    ネットワーク
    GANs VAEs 提案法
    ⾼次元データ × × ○ ○
    データらしさ ○ × × ○
    既存⼿法 PrivBayes [2] DP-GM [3]
    ナイーブ⼿法 [4]
    深層⽣成モデル
    ⽣成モデル
    DP-GAN [6]
    PATE-GAN [7]

    View Slide

  8. 準備
    8

    View Slide

  9. 9
    埋込み と 再構築 から成る確率モデルによる深層⽣成モデル
    乱数 !~#(0, ') を中間層に⼊⼒することで⼈⼯データを⽣成
    Variational AutoEncoder (VAE[1])
    • 埋込み︓データ)を潜在空間 !~#(0, ') に埋込み
    • 再構築︓ ) ≈ +
    )となる+
    )を!から⽣成
    z~標準正規分布#(0, ')
    潜在空間 元の空間
    再構築
    埋め込み
    元の空間
    !
    ) +
    )
    ,-
    ,.
    標準正規分布
    データ⽣成
    埋込み〜再構築の過程
    / → 1 → 2
    / を学習

    View Slide

  10. 10
    確率的勾配降下法 (SGD) において、重み!の更新Δにノイズ"を加える
    ことで、学習されたモデルに差分プライバシーを保証
    DP-SGD[4]: 深層モデルの差分プライベートな学習
    #$
    #%
    名前 ⾝⻑ 疾患
    A 140 Yes
    B 160 No
    C 180 No
    #$
    ← #$
    + Δ$
    + )$
    #%
    ← #%
    + Δ%
    + )%
    繰り返し

    View Slide

  11. 11
    VAE を DP-SGD で訓練することで、差分プライバシを保証可能
    ただし、ノイズによってうまく収束しない
    VAE[1] + DP-SGD[4]
    潜在空間 元の空間
    再構築
    埋め込み
    元の空間
    !
    " #
    "
    $%
    $&
    不正確な埋め込み
    不正確な再構築

    View Slide

  12. 12
    収束の困難さに関する考察
    潜在空間 元の空間
    再構築
    埋め込み
    元の空間
    !
    " #
    "
    "′
    !′
    %
    "′
    正しい埋め込み
    潜在空間 元の空間
    再構築
    埋め込み
    元の空間
    !
    "
    !′
    "′
    &
    "''
    ノイズ
    ノイズによる
    埋め込みの劣化
    (′の再構築として)と)′を混ぜたようなデータを⽣成するように学習してしまう

    View Slide

  13. 13
    事前に集めた類似するデータ群を対象に⽣成モデルを学習
    DP-GM [3]
    • 利点︓埋め込みが不正確でもそれらしいデータを⽣成できる
    • 問題点
    • “類似するデータ”をどうやって集める︖
    • 差分プライバシの性質上、分割によってデータサイズが⼩さくなれば、
    必要なノイズが増えてしまう
    潜在空間 元の空間
    再構築
    埋込み
    元の空間
    !
    " #
    "
    !′
    "′ %
    "′
    ノイズ

    View Slide

  14. 提案⼿法
    Privacy Preserving Phased
    Generative Model (P3GM)
    14

    View Slide

  15. 15
    埋込みと再構築を分離した段階的学習
    ノイズによる埋込みの劣化を防ぎ、学習過程全体の効率の向上を図る
    基本的なアイディア
    • 段階1︓埋込みだけを学習
    • 段階2︓埋込みを固定して再構築を学習
    潜在空間 元の空間
    再構築
    元の空間
    !
    " #
    "
    !′
    "′ %
    "′
    段階1: 埋め込みの学習 段階2: 再構築の学習
    VAEは埋込みと再構築を
    同時学習
    cf. VAE
    埋込み

    View Slide

  16. 16
    段階的学習が可能な確率モデル
    埋め込みの事前学習が可能な 確率モデル を考える
    • 「潜在変数z=訓練データx」を仮定すると、埋込みを事前に学習可能
    • つまり、! → # = ! → %
    ! という過程を! ≈ %
    !となるように学習
    潜在空間=元の空間 元の空間
    再構築
    元の空間
    #′(= !′)
    ! %
    !
    #(= !)
    !′ *
    !′
    埋め込み
    段階1: 埋め込みの学習

    View Slide

  17. 17
    段階1: 埋め込み学習
    • ! → #(= !) → '
    !の過程を学習するには#の事前分布が必要
    • ! = #であるから、 !の事前分布を求めればよいが、それは難しい
    →xの分布を混合正規分布(MoG)で近似
    潜在空間=元の空間 元の空間
    再構築
    元の空間
    #′
    ! '
    !
    #
    !′ )
    !′
    埋め込み
    混合正規分布
    段階1: 埋め込みの学習

    View Slide

  18. 18
    段階1: 埋め込み学習
    • データ!の従うMoGのパラメータをEMアルゴリズムで推定
    • ⾼次元データはEMアルゴリズムがうまく機能しないため、PCAで次元圧縮
    • 差分プライベートなEM、PCAとしてDP-EM [8]、DP-PCA [9]を利⽤
    潜在空間=元の空間 元の空間
    再構築
    元の空間
    "′
    ! $
    !
    "
    !′ %
    !′
    埋め込み
    混合正規分布
    段階1: 埋め込みの学習

    View Slide

  19. 19
    段階2: 再構築学習
    • 埋め込みを固定して、! ≈ #
    !となるようにDP-SGDで再構築を学習
    • 段階1で推定した混合正規分布に従う変数$を⼊⼒してデータを⽣成
    潜在空間=元の空間 元の空間
    再構築
    元の空間
    $′
    ! #
    !
    $
    !′ &
    !′
    埋め込み
    段階2: 再構築の学習
    混合正規分布
    z~混合正規分布

    View Slide

  20. 評価実験
    20

    View Slide

  21. 21
    実験の⼿順
    • ⽣成データの質 = 機械学習タスクでの有⽤性
    • ⽣成モデルから⽣成したデータセットを⽤いて機械学習モデルを訓練
    • 機械学習タスクにおける性能(分類精度などのスコア)を実データで計測
    • 実データと同様に良いスコアを⽰すか否かを評価
    • 実験設定
    • (1,10$%)-差分プライバシ
    • 分類モデル︓⼆値分類
    • ロジスティック回帰など4モデルを利⽤
    • 4モデルの平均スコアを算出
    • スコア
    • AUROC︓いかに⼆つのクラスを分離できているか
    • AUPRC︓いかに間違いを出さずに真陽性を出せるか
    使⽤したデータセット

    View Slide

  22. 22
    結果
    • 提案法P3GMは 3/4のデータで最⾼スコア
    • 依存関係が単純なデータ (Adult) に関しては、ベイジアンネットワークを⽤いた
    PrivBayes が他の深層学習法よりも効率よく学習できた、と考えられる
    • データ数の少ないUCI ISOLETデータはスコアの低下が著しい
    • 差分プライバシの性質上、少データの保護は難しく、ノイズが⼤きくなった、と考えられる

    View Slide

  23. 23
    まとめ
    • 差分プライバシーの制約下、⾼次元データであっても、元のデータ
    らしさを保持可能な⽣成モデルP3GMを提案
    • 実験により提案法の有⽤性を確認
    元データ
    PrivBayes[2]
    ⽣成モデル
    ナイーブな⼿法[4] DP-GM[3]
    深層⽣成モデル(VAE[1])
    提案⼿法

    View Slide

  24. 24
    参考⽂献
    [1] DP Kingma and Max Welling. "Auto-encoding variational bayes." arXiv preprint
    arXiv:1312.6114 (2013).
    [2] J. Zhang, et al. "Privbayes: Private data release via bayesian networks." SIGMOD 2014.
    [3] G. Acs, et al. "Differentially private mixture of generative neural networks." IEEE
    Transactions on Knowledge and Data Engineering 31.6 (2018): 1109-1121.
    [4] M. Abadi, et al. "Deep learning with differential privacy." CCS 2016.
    [5] I. Goodfellow, et al. "Generative adversarial nets." NIPS (2014).
    [6] Xie, Liyang, et al. "Differentially private generative adversarial network." arXiv preprint
    arXiv:1802.06739 (2018).
    [7] J. Jordon, et al. “Generating Synthetic Data with Differential Privacy Guarantees.” ICLR
    (2019).
    [8] M. Park, et al. "DP-EM: Differentially private expectation maximization." AISTATS (2017).
    [9] W. Jiang, et al. "Wishart mechanism for differentially private principal components
    analysis." AAAI (2016).

    View Slide