Upgrade to Pro — share decks privately, control downloads, hide ads and more …

連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察

 連合学習におけるローカル差分プライバシーメカニズムのハイパーパラメータ調整に関する⼀考察

前⽥若菜 / ⻑⾕川聡 / 髙橋 翼
LINE株式会社 Data Science Center

※第15回データ工学と情報マネジメントに関するフォーラム(第21回日本データベース学会年次大会)における発表資料です。

5a-3: プライバシ保護 (Day1(3/5): 15:55-18:05)
https://deim-management-system.github.io/deim2023_program/index.html#5a-3

LINE Developers

June 20, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 構成 • 概要 • はじめに • 連合学習と差分プライバシー • 先⾏研究 •

    リサーチクエスチョン(RQ) • 実験 • 基本設定 • 各実験の内容・結果 • 考察 • おわりに 2
  2. 概要 • ローカル差分プライバシーを 満たす連合学習において、 • その学習の進⾏を 効率化することを⽬的に、 • クライアントが送信する モデルの更新情報に対して

    ノイズを加算するメカニズムの、 • ハイパーパラメータ調整に関する 実験を⾏った 3 𝑀 𝑋! + Differential Privacy + + +
  3. 連合学習 • サーバ・クライアント間で, クライアントのデータを直接やりとりす ることなく(代わりに勾配などをやりとり), MLモデルを学習する⼿法 5 • クライアント𝑖でモデルを学習 •

    𝑔!" = ∇# 𝑓(𝑋! ; 𝜃" ) • 𝑀個のレポートからモデルを更新 • ̅ 𝑔" = $ % ∑!∈ % 𝑔!" • 𝜃"'$ = 𝜃" − 𝜂" ̅ 𝑔" Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round - 𝑀:#participants/round 𝑀 … 𝑋! 𝜃: 𝜃:;< 𝑔!: ̅ 𝑔:
  4. 連合学習におけるプライバシーリスク 6 (出典) “Inverting Gradients - How easy is it

    to break privacy in federated learning?” https://arxiv.org/abs/2003.14053 勾配から訓練データ (画像) を 復元できる èプライバシー保護が必要 代表的な⽅法︓差分プライバシー
  5. 差分プライバシーとは︖ Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐 で表される程度に

    𝑫′︓neighbor of 𝑫 プライバシー保護された 統計値を提供 7 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供 ノイズ 付加 ノイズ 付加 適切なノイズ設計が必要
  6. ローカル差分プライバシー(LDP) [2] 8 メカニズム ℳ: 𝒳 → 𝒮 が (𝝐,

    𝜹)-ローカル差分プライバシー を満たすとは 任意の⼊⼒の組 𝑥, 𝑥( ∈ 𝒳 および 任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである Pr ℳ 𝑥 ∈ 𝑆 ≤ 𝑒!⋅ Pr ℳ 𝑥" ∈ 𝑆 + 𝛿 ℳ ℳ ℳ [2] J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. FOCS2013 クライアントは ⼀塊のデータ𝑥 をℳに⼊⼒ Server 𝒳 ∈ { } ひとりひとりが 何を送ってきたか 区別が難しい
  7. ガウスメカニズム • ガウスメカニズム • ガウス分布𝒩(0, Δ= > ⋅ 𝜎>)からノイズをサンプリングし、関数𝑓の出⼒に加算 •

    𝜎︓ノイズスケール • Δ! : センシティビティ • センシティビティΔ$ • 関数 𝑓 の出⼒の最⼤の変化量 9 Δ! = sup 𝑓 𝑥 − 𝑓 𝑥" #
  8. LDP下の連合学習のアルゴリズム 12 Clipping Adding Noise • クライアント𝑖でモデルを学習 • 𝑔!: =

    ∇@ 𝑓 𝑋! ; 𝜃: • 𝑔!: = 𝑔!: ⋅ min (1, 𝑪 ||C!"||# ) • 5 𝑔!: = 𝑔!: + 𝒩(0, 𝑪𝜎 >𝐼) • 𝑀個のレポートからモデルを更新 • ̅ 𝑔: = < D ∑!∈ D : (𝑔!: ) • 𝜃:;< = 𝜃: − 𝜂: ̅ 𝑔: LDP下の連合学習を効率よく進⾏するには 適切なクリップサイズ𝑪の設定が必要 Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round - 𝑀:#participants/round 𝑀 𝑋! 𝜃: 𝜃:;< 5 𝑔!: ̅ 𝑔: + Differential Privacy + + +
  9. クリップサイズの設定に関する先⾏研究 13 LDPを想定 LDPを想定していない 機械学習 - 勾配ノルムの分布の中央値を推奨 [3] 連合学習 報告なし

    本研究で検証 - クリップサイズの減衰によるモデルの精度向上の報 告[4] - クリップサイズの適応的更新⼿法の提案 [5] [3] Martin Abadi, Andy Chu, Ian Goodfellow, H Brendan McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security, pages 308–318, 2016. [4] Galen Andrew, Om Thakkar, Brendan McMahan, and Swaroop Ramaswamy. Differentially private learning with adaptive clipping. Advances in Neural Information Processing Systems, 34:17455– 17466, 2021. [5] H Brendan McMahan, Daniel Ramage, Kunal Talwar, and Li Zhang. Learning differentially private recurrent language models. In International Conference on Learning Representations, 2018.
  10. 基本的な実験設定 • データセット • MNIST(⼿書き数字0〜9分類) • クライアント: 訓練データ5つ,テストデータ1つ • 学習モデル

    • CNNモデル [Erlingsson et al. 2020] • パラメータ • クライアント数: 10^7 • 更新1回につき参加するクライアント数: 10^3 • ラウンド数: 10^4 • 学習率: DP⾮適⽤時で1,LDP下で0.1 • (ε, δ)=(8, 10^(-7)) • 指標 • Accuracy(分類精度) • Loss 16 [Erlingsson et al. 2020]
  11. RQ2:クリップサイズを学習途中で 減衰していくことで学習を効率化できるか 21 • ベースライン(クリップサイズ固定) • clip0.01, clip 0.05 •

    ⼀時的切替 • 初期値0.05,切り替え後0.01 • 切り替えタイミング={2000, 6000} • 単純減衰 • Poly learning rate policy[Liu et al. 2015] 𝐶:;< = 𝐶F * (1-t/T)**power • 𝐶F ={0.01, 0.05} • power={0.5, 1.0, 2.0}
  12. 初期値によっては減衰で精度向上 24 ベースライン(固定) 単純減衰 clip𝐶# Poly(𝐶# ) 0.5 Poly(𝐶# )

    1.0 Poly(𝐶# ) 2.0 𝐶# = 0.01 92.98±0.34 92.16±0.20 91.40±0.29 89.65±0.20 𝐶# = 0.05 92.03±0.08 93.86±0.08 94.04±0.24 93.56±0.11 悪影響 効率化
  13. (復習)LDP下の連合学習のアルゴリズム 27 Clipping Adding Noise • クライアント𝑖でモデルを学習 • 𝑔!: =

    ∇@ 𝑓 𝑋! ; 𝜃: • 𝑔!: = 𝑔!: ⋅ min (1, 𝑪 ||C!"||# ) • 5 𝑔!: = 𝑔!: + 𝒩(0, 𝑪𝜎 >𝐼) Notation - 𝜃! : global (base) model - 𝑋" : local data of client 𝑖 - 𝑡: round 𝑋! 𝜃: 𝜃:;< 5 𝑔!: ̅ 𝑔: + Differential Privacy + + + • 学習初期はクリッピングの影響を⼩さくするためにクリップサイズは⼤きめがよい • その後の学習ではノイズの影響を⼩さくするためにクリップサイズは⼩さめがよい
  14. おわりに • まとめ • LDP下の連合学習を効率よく進⾏することを⽬的とし, クリップサイズに関していくつかの実験的な取り組みを⾏なった. • 実験からわかったこと • 初期のクリップサイズはある程度⼤きくし,学習が進むにつれてクリップサイズを減衰す

    ることが学習の効率化に有効なこと • 学習初期のクリップサイズが⼩さい場合,クリップサイズを増幅することで初期の学習を 効率化可能なこと • LDP 下を想定していないクリップサイズの設定⽅針や適応的更新⼿法はLDP下の連合学習 では有効ではない可能性があること • 今後の課題 • 複数のデータセットを⽤いて今回の実験結果の⼀般性を確かめること • LDP を満たす連合学習向けのクリップサイズの適応的更新⼿法を確⽴すること 29