Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Personalization Improves Privacy-Accuracy Tradeoffs in Federated Learning

Personalization Improves Privacy-Accuracy Tradeoffs in Federated Learning

MLプライバシー論文読み会(2022-08-23)で読んだ論文です。

A. Bietti+, "Personalization Improves Privacy-Accuracy Tradeoffs in Federated", ICML 2022

Tatsuya Shirakawa

August 23, 2022
Tweet

More Decks by Tatsuya Shirakawa

Other Decks in Technology

Transcript

  1. "Personalization Improves Privacy-Accuracy Tradeoffs in Federated Learning" A. Bietti+, ICML

    2022 2022-08-23 Reader: Tatsuya Shirakawa MLプライバシー論文読み会
  2. 白川 達也 Tatsuya Shirakawa Full Stack Data Scientist at Beatrust

    多言語オープンドメイン教師なしキーフレーズ抽出 双曲空間での機械学習 日本心理学会チュートリアル Graph Convolution 顔検出・認識 BeatrustでFull Stack Data Scientistしてます。 Selected Posts @s_tat1204 社員インタビュー https://note.com/beatrust/n/ne63297b9c546
  3. Beatrustのプロダクト Products & Privacy Beatrust People ビートラスト ピープル Beatrust Ask

    ビートラスト アスク 従業員のプロフィール情報の蓄積・可視化 プロフィールをもとにしたお悩みxエキスパートマッチング 主に大企業にむけて、組織内個人のプロフィール情報を蓄積・可視化するサービスや、そのプロフィールをもとにした 人と人、人と情報のマッチングサービスを提供しています。 それらのいくつかは機械学習をもとにしていますが、サービス内のデータは秘密情報・プライバシー情報が満載のた め、それを用いて学習するためにはプライバシー保護技術が必須になり、研究開発を行っています。
  4. やりたいこと 組織A のデータ 組織B のデータ 組織C のデータ ... 組織は多様な業態・業種に渡り、データにはドメイン固有な情報の他社内 情報なども含まれる。そのため、組織ごとに個別最適化したい

    組織内のデータ量が不十分でなこともあり、モデルやデータは共有したい プロダクトの保守性の観点からも、モデルの共有を行いたい データにはSensitive情報が多く含まれるので他の組織へ情報を漏らせない
  5. よろしい、ならば差分プライバシー(Differential Privacy)だ モデルの学習方法Mが(ε, δ)-DPであるとは、1レコードだけ異なる任意の入力対D, D'に たいして、学習済みモデルから入力がDとD'のどっちだったかを判別できない(レコー ド違いによる感度が十分小さい)こと。 判別不可能性の保証の強さ →(ε, δ)※

    小さい方が保証が強い 様々な汎用性のある実現方法が提案されており、機械学習への繰り込みもしやすい! 定式化がエレガントで理論解析がしやすい! ※ 以降、「メカニズム(M) ↔ モデルの学習方法 」と読み替えて説明します
  6. プライバシー保護のためには (ε, δ) は小さくしないと危ない! N. Hoshino, "A Firm Foundation of

    Statistical Disclosure Control", 2020 (アプリケーションによりそうだけど) ε=2〜3あたりから有効性が怪しい…?
  7. "Personalization Improves Privacy-Accuracy Tradeoffs in Federated Learning" Paper PersonalizationがUser-level JDPのPrivacy-Accuracy

    Tradeoffをどこまで改善するかをFederated Learningの文脈 で調べた BillboardモデルでGlobal/Localのトレードオフを取りながら DP-SGDを実施するAlgorithm PPSGDを提案し理論解析 PPSGDを人工データやリアルデータに適用し、 PersonalizationによりPrivacy-Accuracy Tradeoffがどう改善 されるかを示した Accepted at ICML 2022 (Poster)
  8. Server Billboard ModelはServer-sideがDPならJDP Update global params (user-level DP) Update private

    params (personalization) Billboard Lemma Serverサイドのアルゴリズムが(user- levelで) (ε, δ)-DPであれば、Billboard Modelは (ε, δ)-JDP Private local info Global info
  9. Server 提案手法PPSGD -- サーバーサイドでDP-SGDするBillboard Modelな学習 ③ DP-SGD: w ① SGD:

    θ_i ② g_w w ① Local paramのSGD ② Global paramの clipped gradientを送信 ③ Global paramの DP-SGD モデルはGlobal Param. wとユーザーごとのLocal Param. {θ_i}からなるとする α: Personalizationのコントロールパラメータ (小さいほどPersonalizeが強い) 重み: 1 重み: α
  10. Server Personalizeの度合いをコントロールするパラメータα ③ DP-SGD: w ① SGD: θ_i ② g_w

    w α = 0 ユーザーサイドでのみ更新 = ローカル学習 α→∞ サーバーサイドでのみ更新 = グローバル学習 重み: 1 重み: α ① Local paramのSGD ② Global paramの clipped gradientを送信 ③ Global paramの DP-SGD α: Personalizationのコントロールパラメータ (小さいほどPersonalizeが強い)
  11. PPSGDの理論解析 Billboard Lemmaからサーバー側の計算(DP- SGD部分)が (ε, δ)-DP であれば、全体が (ε, δ)-JDP になる

    DP-SGDは(4)のときに (ε, δ)-DPになることが 知られている ① Local paramのSGD ② Global paramの clipped gradientを送信 ③ Global paramの DP-SGD M. Abadi+, "Deep Learning with Differential Privacy", 2016
  12. Additive model での Local Learning (α=0) Excess risk(最適解からのギャップ)のバウンド α=0、解はz*=(0, θ*)の形とする

    ◀ Privacy(ε, δ)に関する項がなくなる もしすべてのiでθ*_i = v*ととれたら? ◀ 遅い収束O(1/√n)。ユーザー数を増やしても インパクトはない n = ユーザー毎のサンプルサイズ N = ユーザー数
  13. Additive model での Global Learning (α→∞) Excess risk(最適解からのギャップ)のバウンド n =

    ユーザー毎のサンプルサイズ N = ユーザー数 α→∞、解はz*=(v*, 0)の形とする O(1/√N)な バリアンス項 O(1/N)な プライバシー項 ◀ バリアンス項、プライバシー項はユーザー数が 増えると減るが、ユーザーごとのサンプルサイズ を増やしてもプライバシー項は変化しない。 強い秘匿性(小さいε, δ)を求めようとすると プライバシー項が大きくなる。
  14. Additive model での Personalization benefit (homogeneous users) 大雑把には、Additive modelでノルム最小の解を試行する時、 ある種の単純化された状況では(バリアンス項だけをみたら)下

    記の相転移がおきます。 ユーザー毎のサンプルサイズが十分大きい時 → αを小さくしたほうが分散が減る = Local Learning がよい そうでないとき → αを大きくしたほうが分散が減る = Global Learning がよい 最適解がHomogeneous (θ*_1 = ... = θ*_N)のとき
  15. Client sampling なし Client sampling あり バイアス O(1/イテレーション数) O(1/イテレーション数) バリアンス

    O(1/√使用データ数) O(1/√使用データ) プライバシー O(G/N) O(G_m/M) PP-SGD with Client samplingの理論解析 T = イテレーション数 N = ユーザー数 M = ミニバッチ数の和 ≦ + ユーザーサンプリング のバリアンス Client samplingのバリアンスが加わり、プライバシー項もデー タ数最大のユーザーに依存して増加するようになります
  16. Experiment setup モデルはAdditive modelに限定。ロスは二乗誤差。 δ=10^-4で固定 ミニバッチサイズm=10で固定 イテレーション毎にサンプリングするユーザー数Qは10人で固定 DP-SGDのGaussian Noise σは数パターンを用意

    勾配のClipping閾値 Cは数パターンを用意 学習率ηは数パターンを用意 下記の設定を全通り試し、精度とMoments accountantで保証されるεの推移を観測 DP-SGDのように連続的に適用される一連のDPなメカニズムにた いして、そのプロセス全体(結合されたメカニズム)がどの程度 の強度のDPなのかについて、Tightな評価を与えるテクニック。 詳しくはこちら M. Abadi+, "Deep Learning with Differential Privacy", 2016
  17. "Personalization Improves Privacy-Accuracy Tradeoffs in Federated Learning" Paper PersonalizationがUser-level JDPのPrivacy-Accuracy

    Tradeoffをどこまで改善するかをFederated Learningの文脈 で調べた BillboardモデルでGlobal/Localのトレードオフを取りながら DP-SGDを実施するAlgorithm PPSGDを提案し理論解析 PPSGDを人工データやリアルデータに適用し、 PersonalizationによりPrivacy-Accuracy Tradeoffがどう改善 されるかを示した Accepted at ICML 2022 (Poster)
  18. 感想 PersonalizationでAccuracy-Privacy Tradeoffを改善できるというのは実用的で良かった。 ただしこの辺は気になる どの程度Personalizeさせればよいのかの指針(αの決め方) もっと複雑なモデル・タスクだとどうなるのか Personalizationの効果はモデルによって違いはあるのか PublicデータでのPretrainingを前提にしたときにどうなるのか知りたい。 Globalなノイジーな学習がかえってPretrained modelを破壊したりしない…?

    EMNISTのようにPrivacyを強めに保護しようとすると急激に精度が落ちるケースだと、やは りPersonalizeでも実用上厳しそう。こういうケースでどう考えるべきかを知りたい。 DPをペロッと気軽に実用するのはやはり簡単ではなさそうだなぁ うちではうまく実用できてるよっていう人いたら教えて!
  19. Beatrust on note Beatrust techBlog Beatrust のオフィシャルメディア Our official media

    Twitter @jp_beatrust Facebook LinkedIn note.com/beatrust 社員のバックグラウンドや、 働き方に関する記事をアップデート しています。 tech.beatrust.com Beatrust の開発者チームによる取り 組みと技術に込めた想いを掲載して いる開発者ブログです。 Beatrust のメンバーに関する記事、開発メンバーの取り組み、最新ニュースリリースなどを随時更新しています。 facebook.com/beatrust.official linkedin.com/company/beatrust