連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察

連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察前⽥若菜⻑⾕川聡髙橋翼 LINE
Data Science Center

構成 • 概要 • はじめに • 連合学習と差分プライバシー • 先⾏研究 •
リサーチクエスチョン(RQ) • 実験 • 基本設定 • 各実験の内容・結果 • 考察 • おわりに 2

概要 • ローカル差分プライバシーを満たす連合学習において、 • その学習の進⾏を効率化することを⽬的に、 • クライアントが送信するモデルの更新情報に対して
ノイズを加算するメカニズムの、 • ハイパーパラメータ調整に関する実験を⾏った 3 𝑀 𝑋! + Differential Privacy + + +

はじめに

連合学習 • サーバ・クライアント間で, クライアントのデータを直接やりとりすることなく(代わりに勾配などをやりとり), MLモデルを学習する⼿法 5 • クライアント𝑖でモデルを学習 •
𝑔!" = ∇# 𝑓(𝑋! ; 𝜃" ) • 𝑀個のレポートからモデルを更新 • ̅ 𝑔" = $ % ∑!∈ % 𝑔!" • 𝜃"'$ = 𝜃" − 𝜂" ̅ 𝑔" Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round - 𝑀:#participants/round 𝑀 … 𝑋! 𝜃: 𝜃:;< 𝑔!: ̅ 𝑔:

連合学習におけるプライバシーリスク 6 (出典) “Inverting Gradients - How easy is it
to break privacy in federated learning?” https://arxiv.org/abs/2003.14053 勾配から訓練データ (画像) を復元できる èプライバシー保護が必要代表的な⽅法︓差分プライバシー

差分プライバシーとは︖ Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐 で表される程度に
𝑫′︓neighbor of 𝑫 プライバシー保護された統計値を提供 7 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供ノイズ付加ノイズ付加適切なノイズ設計が必要

ローカル差分プライバシー(LDP) [2] 8 メカニズム ℳ: 𝒳 → 𝒮 が (𝝐,
𝜹)-ローカル差分プライバシーを満たすとは任意の⼊⼒の組 𝑥, 𝑥( ∈ 𝒳 および任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである Pr ℳ 𝑥 ∈ 𝑆 ≤ 𝑒!⋅ Pr ℳ 𝑥" ∈ 𝑆 + 𝛿 ℳ ℳ ℳ [2] J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. FOCS2013 クライアントは⼀塊のデータ𝑥 をℳに⼊⼒ Server 𝒳 ∈ { } ひとりひとりが何を送ってきたか区別が難しい

ガウスメカニズム • ガウスメカニズム • ガウス分布𝒩(0, Δ= > ⋅ 𝜎>)からノイズをサンプリングし、関数𝑓の出⼒に加算 •
𝜎︓ノイズスケール • Δ! : センシティビティ • センシティビティΔ$ • 関数 𝑓 の出⼒の最⼤の変化量 9 Δ! = sup 𝑓 𝑥 − 𝑓 𝑥" #

LDP下の連合学習 10 Non-participants of FL + + Differential Privacy Differential
Privacy + + + + + + + +

勾配のセンシティビティ • 勾配のセンシティビティ • 0, ∞ の値をとるため、センシティビティが無限になる • センシティビティを有限値に抑えたい è勾配ノルムを定数𝐶
でクリッピングすることでセンシティビティを𝐶にする 11 𝐶 : クリップサイズ Clipping

LDP下の連合学習のアルゴリズム 12 Clipping Adding Noise • クライアント𝑖でモデルを学習 • 𝑔!: =
∇@ 𝑓 𝑋! ; 𝜃: • 𝑔!: = 𝑔!: ⋅ min (1, 𝑪 ||C!"||# ) • 5 𝑔!: = 𝑔!: + 𝒩(0, 𝑪𝜎 >𝐼) • 𝑀個のレポートからモデルを更新 • ̅ 𝑔: = < D ∑!∈ D : (𝑔!: ) • 𝜃:;< = 𝜃: − 𝜂: ̅ 𝑔: LDP下の連合学習を効率よく進⾏するには適切なクリップサイズ𝑪の設定が必要 Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round - 𝑀:#participants/round 𝑀 𝑋! 𝜃: 𝜃:;< 5 𝑔!: ̅ 𝑔: + Differential Privacy + + +

クリップサイズの設定に関する先⾏研究 13 LDPを想定 LDPを想定していない機械学習 - 勾配ノルムの分布の中央値を推奨 [3] 連合学習報告なし
本研究で検証 - クリップサイズの減衰によるモデルの精度向上の報告[4] - クリップサイズの適応的更新⼿法の提案 [5] [3] Martin Abadi, Andy Chu, Ian Goodfellow, H Brendan McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security, pages 308–318, 2016. [4] Galen Andrew, Om Thakkar, Brendan McMahan, and Swaroop Ramaswamy. Differentially private learning with adaptive clipping. Advances in Neural Information Processing Systems, 34:17455– 17466, 2021. [5] H Brendan McMahan, Daniel Ramage, Kunal Talwar, and Li Zhang. Learning differentially private recurrent language models. In International Conference on Learning Representations, 2018.

リサーチクエスチョン(RQ) • RQ１:クリップサイズの値によって学習はどのように変化するか • RQ２:クリップサイズを学習途中で減衰していくことで学習を効率化できるか • RQ３:クリップサイズを適応的に増幅・減衰していくことで学習を効率化できるか（省略・論⽂を参照） 14

実験

基本的な実験設定 • データセット • MNIST(⼿書き数字0〜9分類) • クライアント: 訓練データ5つ，テストデータ1つ • 学習モデル
• CNNモデル [Erlingsson et al. 2020] • パラメータ • クライアント数: 10^7 • 更新1回につき参加するクライアント数: 10^3 • ラウンド数: 10^4 • 学習率: DP⾮適⽤時で1,LDP下で0.1 • (ε, δ)=(8, 10^(-7)) • 指標 • Accuracy(分類精度) • Loss 16 [Erlingsson et al. 2020]

RQ1: クリップサイズの値によって学習はどのように変化するか • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない 17

RQ1: クリップサイズの値によって学習はどのように変化するか • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない • クリップサイズが⼤きい︓学習の進みが早い、lossの増加が起きる 18

RQ1: クリップサイズの値によって学習はどのように変化するか • クリップサイズが⼩さい︓学習の進みが遅い、lossの増加がない • クリップサイズが⼤きい︓学習の進みが早い、lossの増加が起きる • クリップサイズが⼤きすぎる︓学習がうまくいかない 19

RQ1: クリップサイズの値によって学習はどのように変化するか • 学習初期はやや⼤きいクリップサイズ0.05が優勢 • その後はクリップサイズ0.01が優勢 20

RQ2:クリップサイズを学習途中で減衰していくことで学習を効率化できるか 21 • ベースライン（クリップサイズ固定） • clip0.01, clip 0.05 •
⼀時的切替 • 初期値0.05,切り替え後0.01 • 切り替えタイミング={2000, 6000} • 単純減衰 • Poly learning rate policy[Liu et al. 2015] 𝐶:;< = 𝐶F * (1-t/T)**power • 𝐶F ={0.01, 0.05} • power={0.5, 1.0, 2.0}

各⽅式のクリップサイズの推移 22 ベースライン⼀時点切替単純減衰

⼀時点切替で精度向上・Loss減少 23 ベースライン（固定）⼀時点切替 clip0.01 clip0.05 0.05to0.01(2000) 0.05to0.01(6000) Accuracy 92.98±0.34
92.03±0.33 93.75±0.09 93.35±0.17 効率化

初期値によっては減衰で精度向上 24 ベースライン（固定）単純減衰 clip𝐶# Poly（𝐶# ) 0.5 Poly（𝐶# )
1.0 Poly（𝐶# ) 2.0 𝐶# = 0.01 92.98±0.34 92.16±0.20 91.40±0.29 89.65±0.20 𝐶# = 0.05 92.03±0.08 93.86±0.08 94.04±0.24 93.56±0.11 悪影響効率化

考察

LDP下の連合学習における勾配ノルムの推移 26 • DP⾮適⽤(Non-private)では勾配ノルムは減少 • LDP下では、クリップサイズの減衰がなければ勾配ノルムは増幅していく • ノイズの影響により学習がうまく進まないのを補うために増幅している

（復習）LDP下の連合学習のアルゴリズム 27 Clipping Adding Noise • クライアント𝑖でモデルを学習 • 𝑔!: =
∇@ 𝑓 𝑋! ; 𝜃: • 𝑔!: = 𝑔!: ⋅ min (1, 𝑪 ||C!"||# ) • 5 𝑔!: = 𝑔!: + 𝒩(0, 𝑪𝜎 >𝐼) Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round 𝑋! 𝜃: 𝜃:;< 5 𝑔!: ̅ 𝑔: + Differential Privacy + + + • 学習初期はクリッピングの影響を⼩さくするためにクリップサイズは⼤きめがよい • その後の学習ではノイズの影響を⼩さくするためにクリップサイズは⼩さめがよい

おわりに

おわりに • まとめ • LDP下の連合学習を効率よく進⾏することを⽬的とし，クリップサイズに関していくつかの実験的な取り組みを⾏なった． • 実験からわかったこと • 初期のクリップサイズはある程度⼤きくし，学習が進むにつれてクリップサイズを減衰す
ることが学習の効率化に有効なこと • 学習初期のクリップサイズが⼩さい場合，クリップサイズを増幅することで初期の学習を効率化可能なこと • LDP 下を想定していないクリップサイズの設定⽅針や適応的更新⼿法はLDP下の連合学習では有効ではない可能性があること • 今後の課題 • 複数のデータセットを⽤いて今回の実験結果の⼀般性を確かめること • LDP を満たす連合学習向けのクリップサイズの適応的更新⼿法を確⽴すること 29

連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察

連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察

LINE Developers

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript