連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察

Slide 1

Slide 1 text

連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察前⽥若菜⻑⾕川聡髙橋翼 LINE Data Science Center

Slide 2

Slide 2 text

構成 • 概要 • はじめに • 連合学習と差分プライバシー • 先⾏研究 • リサーチクエスチョン(RQ) • 実験 • 基本設定 • 各実験の内容・結果 • 考察 • おわりに 2

Slide 3

Slide 3 text

概要 • ローカル差分プライバシーを満たす連合学習において、 • その学習の進⾏を効率化することを⽬的に、 • クライアントが送信するモデルの更新情報に対してノイズを加算するメカニズムの、 • ハイパーパラメータ調整に関する実験を⾏った 3 𝑀 𝑋! + Differential Privacy + + +

Slide 4

Slide 4 text

はじめに

Slide 5

Slide 5 text

連合学習 • サーバ・クライアント間で, クライアントのデータを直接やりとりすることなく(代わりに勾配などをやりとり), MLモデルを学習する⼿法 5 • クライアント𝑖でモデルを学習 • 𝑔!" = ∇# 𝑓(𝑋! ; 𝜃" ) • 𝑀個のレポートからモデルを更新 • ̅ 𝑔" = $ % ∑!∈ % 𝑔!" • 𝜃"'$ = 𝜃" − 𝜂" ̅ 𝑔" Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round - 𝑀:#participants/round 𝑀 … 𝑋! 𝜃: 𝜃:;< 𝑔!: ̅ 𝑔:

Slide 6

Slide 6 text

連合学習におけるプライバシーリスク 6 (出典) “Inverting Gradients - How easy is it to break privacy in federated learning?” https://arxiv.org/abs/2003.14053 勾配から訓練データ (画像) を復元できる èプライバシー保護が必要代表的な⽅法︓差分プライバシー

Slide 7

Slide 7 text

差分プライバシーとは︖ Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐 で表される程度に 𝑫′︓neighbor of 𝑫 プライバシー保護された統計値を提供 7 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供ノイズ付加ノイズ付加適切なノイズ設計が必要

Slide 8

Slide 8 text

ローカル差分プライバシー(LDP) [2] 8 メカニズム ℳ: 𝒳 → 𝒮 が (𝝐, 𝜹)-ローカル差分プライバシーを満たすとは任意の⼊⼒の組 𝑥, 𝑥( ∈ 𝒳 および任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである Pr ℳ 𝑥 ∈ 𝑆 ≤ 𝑒!⋅ Pr ℳ 𝑥" ∈ 𝑆 + 𝛿 ℳ ℳ ℳ [2] J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. FOCS2013 クライアントは⼀塊のデータ𝑥 をℳに⼊⼒ Server 𝒳 ∈ { } ひとりひとりが何を送ってきたか区別が難しい

Slide 9

Slide 9 text

ガウスメカニズム • ガウスメカニズム • ガウス分布𝒩(0, Δ= > ⋅ 𝜎>)からノイズをサンプリングし、関数𝑓の出⼒に加算 • 𝜎︓ノイズスケール • Δ! : センシティビティ • センシティビティΔ$ • 関数 𝑓 の出⼒の最⼤の変化量 9 Δ! = sup 𝑓 𝑥 − 𝑓 𝑥" #

Slide 10

Slide 10 text

LDP下の連合学習 10 Non-participants of FL + + Differential Privacy Differential Privacy + + + + + + + +

Slide 11

Slide 11 text

勾配のセンシティビティ • 勾配のセンシティビティ • 0, ∞ の値をとるため、センシティビティが無限になる • センシティビティを有限値に抑えたい è勾配ノルムを定数𝐶 でクリッピングすることでセンシティビティを𝐶にする 11 𝐶 : クリップサイズ Clipping

Slide 12

Slide 12 text

LDP下の連合学習のアルゴリズム 12 Clipping Adding Noise • クライアント𝑖でモデルを学習 • 𝑔!: = ∇@ 𝑓 𝑋! ; 𝜃: • 𝑔!: = 𝑔!: ⋅ min (1, 𝑪 ||C!"||# ) • 5 𝑔!: = 𝑔!: + 𝒩(0, 𝑪𝜎 >𝐼) • 𝑀個のレポートからモデルを更新 • ̅ 𝑔: = < D ∑!∈ D : (𝑔!: ) • 𝜃:;< = 𝜃: − 𝜂: ̅ 𝑔: LDP下の連合学習を効率よく進⾏するには適切なクリップサイズ𝑪の設定が必要 Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round - 𝑀:#participants/round 𝑀 𝑋! 𝜃: 𝜃:;< 5 𝑔!: ̅ 𝑔: + Differential Privacy + + +

Slide 13

Slide 13 text

クリップサイズの設定に関する先⾏研究 13 LDPを想定 LDPを想定していない機械学習 - 勾配ノルムの分布の中央値を推奨 [3] 連合学習報告なし本研究で検証 - クリップサイズの減衰によるモデルの精度向上の報告[4] - クリップサイズの適応的更新⼿法の提案 [5] [3] Martin Abadi, Andy Chu, Ian Goodfellow, H Brendan McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security, pages 308–318, 2016. [4] Galen Andrew, Om Thakkar, Brendan McMahan, and Swaroop Ramaswamy. Differentially private learning with adaptive clipping. Advances in Neural Information Processing Systems, 34:17455– 17466, 2021. [5] H Brendan McMahan, Daniel Ramage, Kunal Talwar, and Li Zhang. Learning differentially private recurrent language models. In International Conference on Learning Representations, 2018.

Slide 14

Slide 14 text

リサーチクエスチョン(RQ) • RQ１:クリップサイズの値によって学習はどのように変化するか • RQ２:クリップサイズを学習途中で減衰していくことで学習を効率化できるか • RQ３:クリップサイズを適応的に増幅・減衰していくことで学習を効率化できるか（省略・論⽂を参照） 14

Slide 15

Slide 15 text

実験

Slide 16

Slide 16 text

基本的な実験設定 • データセット • MNIST(⼿書き数字0〜9分類) • クライアント: 訓練データ5つ，テストデータ1つ • 学習モデル • CNNモデル [Erlingsson et al. 2020] • パラメータ • クライアント数: 10^7 • 更新1回につき参加するクライアント数: 10^3 • ラウンド数: 10^4 • 学習率: DP⾮適⽤時で1,LDP下で0.1 • (ε, δ)=(8, 10^(-7)) • 指標 • Accuracy(分類精度) • Loss 16 [Erlingsson et al. 2020]

Slide 17

Slide 17 text

RQ1: クリップサイズの値によって学習はどのように変化するか • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない 17

Slide 18

Slide 18 text

RQ1: クリップサイズの値によって学習はどのように変化するか • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない • クリップサイズが⼤きい︓学習の進みが早い、lossの増加が起きる 18

Slide 19

Slide 19 text

RQ1: クリップサイズの値によって学習はどのように変化するか • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない • クリップサイズが⼤きい︓学習の進みが早い、lossの増加が起きる • クリップサイズが⼤きすぎる︓学習がうまくいかない 19

Slide 20

Slide 20 text

RQ1: クリップサイズの値によって学習はどのように変化するか • 学習初期はやや⼤きいクリップサイズ0.05が優勢 • その後はクリップサイズ0.01が優勢 20

Slide 21

Slide 21 text

RQ2:クリップサイズを学習途中で減衰していくことで学習を効率化できるか 21 • ベースライン（クリップサイズ固定） • clip0.01, clip 0.05 • ⼀時的切替 • 初期値0.05,切り替え後0.01 • 切り替えタイミング={2000, 6000} • 単純減衰 • Poly learning rate policy[Liu et al. 2015] 𝐶:;< = 𝐶F * (1-t/T)**power • 𝐶F ={0.01, 0.05} • power={0.5, 1.0, 2.0}

Slide 22

Slide 22 text

各⽅式のクリップサイズの推移 22 ベースライン⼀時点切替単純減衰

Slide 23

Slide 23 text

⼀時点切替で精度向上・Loss減少 23 ベースライン（固定）⼀時点切替 clip0.01 clip0.05 0.05to0.01(2000) 0.05to0.01(6000) Accuracy 92.98±0.34 92.03±0.33 93.75±0.09 93.35±0.17 効率化

Slide 24

Slide 24 text

初期値によっては減衰で精度向上 24 ベースライン（固定）単純減衰 clip𝐶# Poly（𝐶# ) 0.5 Poly（𝐶# ) 1.0 Poly（𝐶# ) 2.0 𝐶# = 0.01 92.98±0.34 92.16±0.20 91.40±0.29 89.65±0.20 𝐶# = 0.05 92.03±0.08 93.86±0.08 94.04±0.24 93.56±0.11 悪影響効率化

Slide 25

Slide 25 text

考察

Slide 26

Slide 26 text

LDP下の連合学習における勾配ノルムの推移 26 • DP⾮適⽤(Non-private)では勾配ノルムは減少 • LDP下では、クリップサイズの減衰がなければ勾配ノルムは増幅していく • ノイズの影響により学習がうまく進まないのを補うために増幅している

Slide 27

Slide 27 text

（復習）LDP下の連合学習のアルゴリズム 27 Clipping Adding Noise • クライアント𝑖でモデルを学習 • 𝑔!: = ∇@ 𝑓 𝑋! ; 𝜃: • 𝑔!: = 𝑔!: ⋅ min (1, 𝑪 ||C!"||# ) • 5 𝑔!: = 𝑔!: + 𝒩(0, 𝑪𝜎 >𝐼) Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round 𝑋! 𝜃: 𝜃:;< 5 𝑔!: ̅ 𝑔: + Differential Privacy + + + • 学習初期はクリッピングの影響を⼩さくするためにクリップサイズは⼤きめがよい • その後の学習ではノイズの影響を⼩さくするためにクリップサイズは⼩さめがよい

Slide 28

Slide 28 text

おわりに

Slide 29

Slide 29 text

おわりに • まとめ • LDP下の連合学習を効率よく進⾏することを⽬的とし，クリップサイズに関していくつかの実験的な取り組みを⾏なった． • 実験からわかったこと • 初期のクリップサイズはある程度⼤きくし，学習が進むにつれてクリップサイズを減衰することが学習の効率化に有効なこと • 学習初期のクリップサイズが⼩さい場合，クリップサイズを増幅することで初期の学習を効率化可能なこと • LDP 下を想定していないクリップサイズの設定⽅針や適応的更新⼿法はLDP下の連合学習では有効ではない可能性があること • 今後の課題 • 複数のデータセットを⽤いて今回の実験結果の⼀般性を確かめること • LDP を満たす連合学習向けのクリップサイズの適応的更新⼿法を確⽴すること 29