Upgrade to Pro — share decks privately, control downloads, hide ads and more …

連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察

 連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察

前⽥若菜 / ⻑⾕川聡 / 髙橋 翼
LINE株式会社 Data Science Center

※第15回データ工学と情報マネジメントに関するフォーラム(第21回日本データベース学会年次大会)における発表資料です。

5a-3: プライバシ保護 (Day1(3/5): 15:55-18:05)
https://deim-management-system.github.io/deim2023_program/index.html#5a-3

LINE Developers

June 20, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 連合学習における
    ローカル差分プライバシーメカニズムの
    ハイパーパラメータ調整に関する⼀考察
    前⽥ 若菜 ⻑⾕川 聡 髙橋 翼
    LINE
    Data Science Center

    View full-size slide

  2. 構成
    • 概要
    • はじめに
    • 連合学習と差分プライバシー
    • 先⾏研究
    • リサーチクエスチョン(RQ)
    • 実験
    • 基本設定
    • 各実験の内容・結果
    • 考察
    • おわりに
    2

    View full-size slide

  3. 概要
    • ローカル差分プライバシーを
    満たす連合学習において、
    • その学習の進⾏を
    効率化することを⽬的に、
    • クライアントが送信する
    モデルの更新情報に対して
    ノイズを加算するメカニズムの、
    • ハイパーパラメータ調整に関する
    実験を⾏った
    3
    𝑀
    𝑋!
    +
    Differential Privacy
    +
    +
    +

    View full-size slide

  4. はじめに

    View full-size slide

  5. 連合学習
    • サーバ・クライアント間で, クライアントのデータを直接やりとりす
    ることなく(代わりに勾配などをやりとり), MLモデルを学習する⼿法
    5
    • クライアント𝑖でモデルを学習
    • 𝑔!"
    = ∇#
    𝑓(𝑋!
    ; 𝜃"
    )
    • 𝑀個のレポートからモデルを更新
    • ̅
    𝑔"
    = $
    %
    ∑!∈ %
    𝑔!"
    • 𝜃"'$
    = 𝜃"
    − 𝜂"
    ̅
    𝑔"
    Notation
    - 𝜃!
    : global (base) model
    - 𝑋"
    : local data of client 𝑖
    - 𝑡: round
    - 𝑀:#participants/round
    𝑀

    𝑋!
    𝜃:
    𝜃:;<
    𝑔!:
    ̅
    𝑔:

    View full-size slide

  6. 連合学習におけるプライバシーリスク
    6
    (出典)
    “Inverting Gradients - How easy is it to break privacy
    in federated learning?”
    https://arxiv.org/abs/2003.14053
    勾配から訓練データ (画像) を
    復元できる
    èプライバシー保護が必要
    代表的な⽅法︓差分プライバシー

    View full-size slide

  7. 差分プライバシーとは︖
    Sensitive Data 𝑫 Noisy Output
    区別困難

    𝝐 で表される程度に
    𝑫′︓neighbor of 𝑫
    プライバシー保護された
    統計値を提供
    7
    • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度
    • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現
    • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供
    ノイズ
    付加
    ノイズ
    付加
    適切なノイズ設計が必要

    View full-size slide

  8. ローカル差分プライバシー(LDP) [2]
    8
    メカニズム ℳ: 𝒳 → 𝒮 が (𝝐, 𝜹)-ローカル差分プライバシー を満たすとは
    任意の⼊⼒の組 𝑥, 𝑥( ∈ 𝒳 および
    任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである
    Pr ℳ 𝑥 ∈ 𝑆 ≤ 𝑒!⋅ Pr ℳ 𝑥" ∈ 𝑆 + 𝛿



    [2] J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. FOCS2013
    クライアントは
    ⼀塊のデータ𝑥
    をℳに⼊⼒
    Server
    𝒳 ∈ { }
    ひとりひとりが
    何を送ってきたか
    区別が難しい

    View full-size slide

  9. ガウスメカニズム
    • ガウスメカニズム
    • ガウス分布𝒩(0, Δ=
    > ⋅ 𝜎>)からノイズをサンプリングし、関数𝑓の出⼒に加算
    • 𝜎︓ノイズスケール
    • Δ!
    : センシティビティ
    • センシティビティΔ$
    • 関数 𝑓 の出⼒の最⼤の変化量
    9
    Δ!
    = sup 𝑓 𝑥 − 𝑓 𝑥"
    #

    View full-size slide

  10. LDP下の連合学習
    10
    Non-participants of FL
    + +
    Differential Privacy
    Differential Privacy
    +
    +
    +
    +
    +
    +
    +
    +

    View full-size slide

  11. 勾配のセンシティビティ
    • 勾配のセンシティビティ
    • 0, ∞ の値をとるため、センシティビティが無限になる
    • センシティビティを有限値に抑えたい
    è勾配ノルムを定数𝐶 でクリッピングすることでセンシティビティを𝐶にする
    11
    𝐶 : クリップサイズ
    Clipping

    View full-size slide

  12. LDP下の連合学習のアルゴリズム
    12
    Clipping
    Adding Noise
    • クライアント𝑖でモデルを学習
    • 𝑔!:
    = ∇@
    𝑓 𝑋!
    ; 𝜃:
    • 𝑔!: = 𝑔!: ⋅ min (1, 𝑪
    ||C!"||#
    )
    • 5
    𝑔!:
    = 𝑔!:
    + 𝒩(0, 𝑪𝜎 >𝐼)
    • 𝑀個のレポートからモデルを更新
    • ̅
    𝑔: = <
    D
    ∑!∈ D
    :
    (𝑔!:
    )
    • 𝜃:;< = 𝜃: − 𝜂: ̅
    𝑔:
    LDP下の連合学習を効率よく進⾏するには
    適切なクリップサイズ𝑪の設定が必要
    Notation
    - 𝜃!
    : global (base) model
    - 𝑋"
    : local data of client 𝑖
    - 𝑡: round
    - 𝑀:#participants/round
    𝑀
    𝑋!
    𝜃:
    𝜃:;<
    5
    𝑔!:
    ̅
    𝑔:
    +
    Differential Privacy
    +
    +
    +

    View full-size slide

  13. クリップサイズの設定に関する先⾏研究
    13
    LDPを想定 LDPを想定していない
    機械学習 - 勾配ノルムの分布の中央値を推奨 [3]
    連合学習
    報告なし
    本研究で検証 - クリップサイズの減衰によるモデルの精度向上の報
    告[4]
    - クリップサイズの適応的更新⼿法の提案 [5]
    [3] Martin Abadi, Andy Chu, Ian Goodfellow, H Brendan McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC conference
    on computer and communications security, pages 308–318, 2016.
    [4] Galen Andrew, Om Thakkar, Brendan McMahan, and Swaroop Ramaswamy. Differentially private learning with adaptive clipping. Advances in Neural Information Processing Systems, 34:17455–
    17466, 2021.
    [5] H Brendan McMahan, Daniel Ramage, Kunal Talwar, and Li Zhang. Learning differentially private recurrent language models. In International Conference on Learning Representations, 2018.

    View full-size slide

  14. リサーチクエスチョン(RQ)
    • RQ1:クリップサイズの値によって学習はどのように変化するか
    • RQ2:クリップサイズを学習途中で減衰していくことで学習を効率化
    できるか
    • RQ3:クリップサイズを適応的に増幅・減衰していくことで学習を効
    率化できるか(省略・論⽂を参照)
    14

    View full-size slide

  15. 基本的な実験設定
    • データセット
    • MNIST(⼿書き数字0〜9分類)
    • クライアント: 訓練データ5つ,テストデータ1つ
    • 学習モデル
    • CNNモデル [Erlingsson et al. 2020]
    • パラメータ
    • クライアント数: 10^7
    • 更新1回につき参加するクライアント数: 10^3
    • ラウンド数: 10^4
    • 学習率: DP⾮適⽤時で1,LDP下で0.1
    • (ε, δ)=(8, 10^(-7))
    • 指標
    • Accuracy(分類精度)
    • Loss
    16
    [Erlingsson et al. 2020]

    View full-size slide

  16. RQ1: クリップサイズの値によって
    学習はどのように変化するか
    • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない
    17

    View full-size slide

  17. RQ1: クリップサイズの値によって
    学習はどのように変化するか
    • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない
    • クリップサイズが⼤きい︓学習の進みが早い、lossの増加が起きる
    18

    View full-size slide

  18. RQ1: クリップサイズの値によって
    学習はどのように変化するか
    • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない
    • クリップサイズが⼤きい︓学習の進みが早い、lossの増加が起きる
    • クリップサイズが⼤きすぎる︓学習がうまくいかない
    19

    View full-size slide

  19. RQ1: クリップサイズの値によって
    学習はどのように変化するか
    • 学習初期はやや⼤きいクリップサイズ0.05が優勢
    • その後はクリップサイズ0.01が優勢
    20

    View full-size slide

  20. RQ2:クリップサイズを学習途中で
    減衰していくことで学習を効率化できるか
    21
    • ベースライン(クリップサイズ固定)
    • clip0.01, clip 0.05
    • ⼀時的切替
    • 初期値0.05,切り替え後0.01
    • 切り替えタイミング={2000, 6000}
    • 単純減衰
    • Poly learning rate policy[Liu et al. 2015]
    𝐶:;< = 𝐶F
    * (1-t/T)**power
    • 𝐶F
    ={0.01, 0.05}
    • power={0.5, 1.0, 2.0}

    View full-size slide

  21. 各⽅式のクリップサイズの推移
    22
    ベースライン
    ⼀時点切替
    単純減衰

    View full-size slide

  22. ⼀時点切替で精度向上・Loss減少
    23
    ベースライン(固定) ⼀時点切替
    clip0.01 clip0.05 0.05to0.01(2000) 0.05to0.01(6000)
    Accuracy 92.98±0.34 92.03±0.33 93.75±0.09 93.35±0.17 効率化

    View full-size slide

  23. 初期値によっては減衰で精度向上
    24
    ベースライン(固定) 単純減衰
    clip𝐶#
    Poly(𝐶#
    ) 0.5 Poly(𝐶#
    ) 1.0 Poly(𝐶#
    ) 2.0
    𝐶#
    = 0.01 92.98±0.34 92.16±0.20 91.40±0.29 89.65±0.20
    𝐶#
    = 0.05 92.03±0.08 93.86±0.08 94.04±0.24 93.56±0.11
    悪影響
    効率化

    View full-size slide

  24. LDP下の連合学習における勾配ノルムの推移
    26
    • DP⾮適⽤(Non-private)では勾配ノルムは減少
    • LDP下では、クリップサイズの減衰がなければ勾配ノルムは増幅していく
    • ノイズの影響により学習がうまく進まないのを補うために増幅している

    View full-size slide

  25. (復習)LDP下の連合学習のアルゴリズム
    27
    Clipping
    Adding Noise
    • クライアント𝑖でモデルを学習
    • 𝑔!:
    = ∇@
    𝑓 𝑋!
    ; 𝜃:
    • 𝑔!: = 𝑔!: ⋅ min (1, 𝑪
    ||C!"||#
    )
    • 5
    𝑔!:
    = 𝑔!:
    + 𝒩(0, 𝑪𝜎 >𝐼)
    Notation
    - 𝜃!
    : global (base) model
    - 𝑋"
    : local data of client 𝑖
    - 𝑡: round
    𝑋!
    𝜃:
    𝜃:;<
    5
    𝑔!:
    ̅
    𝑔:
    +
    Differential Privacy
    +
    +
    +
    • 学習初期はクリッピングの影響を⼩さくするためにクリップサイズは⼤きめがよい
    • その後の学習ではノイズの影響を⼩さくするためにクリップサイズは⼩さめがよい

    View full-size slide

  26. おわりに

    View full-size slide

  27. おわりに
    • まとめ
    • LDP下の連合学習を効率よく進⾏することを⽬的とし,
    クリップサイズに関していくつかの実験的な取り組みを⾏なった.
    • 実験からわかったこと
    • 初期のクリップサイズはある程度⼤きくし,学習が進むにつれてクリップサイズを減衰す
    ることが学習の効率化に有効なこと
    • 学習初期のクリップサイズが⼩さい場合,クリップサイズを増幅することで初期の学習を
    効率化可能なこと
    • LDP 下を想定していないクリップサイズの設定⽅針や適応的更新⼿法はLDP下の連合学習
    では有効ではない可能性があること
    • 今後の課題
    • 複数のデータセットを⽤いて今回の実験結果の⼀般性を確かめること
    • LDP を満たす連合学習向けのクリップサイズの適応的更新⼿法を確⽴すること
    29

    View full-size slide