Federated Learningとプライバシー保護について

Slide 1

Slide 1 text

Federated Learningとプライバシー保護について〜 Federated Learningの概要と LINEのFederated LearningとDifferential Privacyの導⼊事例〜⽵之内隆夫 (Takao Takenouchi) LINE Corporation Machine Learning Privacy & Trust Team Manager 2023.3.16 PWS Meetup 2023 @群⾺⼤学荒牧キャンパス & Zoom

Slide 2

Slide 2 text

⾃⼰紹介 l 所属・⽒名 LINE株式会社 Machine Learning Privacy & Trust Team, Manager ⽵之内隆夫（たけのうちたかお） l 業務内容 • Privacy Techの事業開発・研究開発 l 経歴 • 前前職・前職も含めプライバシー系で10数年の経歴 • 技術だけでなく法制度や普及促進も • 例︓業界団体「秘密計算研究会」などの⽴ち上げ等 2

Slide 3

Slide 3 text

Our Team’s Publications Title Conference / WS Authors Out-of-Distribution Detection with Reconstruction Error and Typicality- based Penalty WACV2023 Osada, Takahashi, Ahsan, Nishide Fair and Robust Metric for Evaluating Touch-based Continuous Mobile Device Authentication IUI2023 Kudo, Takahashi, Ushiyama, Yamana HDPView: Differentially Private Materialized View for Exploring High Dimensional Relational Data VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno Homomorphic Encryption-Friendly Privacy-Preserving Partitioning Algorithm for Differential Privacy BigData2022 Ushiyama, Takahashi, Kudo, Yamana P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model ICDE2021 Takagi, Takahashi, Cao, Yoshikawa Construction of Differentially Private Summaries over Fully Homomorphic Encryption DEXA2021 Ushiyama, Takahashi, Kudo, Yamana Continuous and Gradual Style Changes of Graphic Designs with Generative Model IUI2021 Ueno, Sato Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks BigData2019 Takahashi インターンの成果トップカンファレンス 3

Slide 4

Slide 4 text

4 出典︓https://linecorp.com/ja/pr/news/ja/2022/4269

Slide 5

Slide 5 text

プライバシー保護技術のサービスへの適⽤事例出典︓https://linecorp.com/ja/security/article/429 5

Slide 6

Slide 6 text

概要 l 発表概要 • 連合学習(Federated Learning, FL)の概要を説明 • 連合学習への差分プライバシー(Differential Privacy, DP) の適⽤ • LINEのスタンプ推薦へ適⽤した内容についての発表 • DP＋FLを実サービスに適⽤した国内初の事例 (発表者が知る限り) l 本発表の⽬的 • 連合学習と差分プライバシーの概要を知りつつ • 実サービスへの適⽤がどのようなものか感じて頂きたい • 実サービスで使われる技術を是⾮⼀緒に作りましょう︕（共同研究・インターン等） 6

Slide 7

Slide 7 text

⽬次 l 1. Federated Learning(FL: 連合学習)とは • 1-1. Federated Learningの概要 • 1-2. 様々なFederated Learning l 2. FLへのDP(Differential Privacy)適⽤ • 2-1. DP(Differential Privacy)とは • 2-2. FL+DPとは l 3. LINEにおけるFL+DFの事例 • 3-1. LINEスタンププレミアムとは • 3-2. LINEスタンププレミアムにおけるDP+FLの活⽤ l 4. まとめ 7

Slide 8

Slide 8 text

1. Federated Learning(FL: 連合学習)とは 1-1. Federated Learningの概要

Slide 9

Slide 9 text

(1) Server-side Machine Learning (ML) l Centralized server(s) collect data and process ML Output Output Output Output Output Output Output Output Training Inference ML 9

Slide 10

Slide 10 text

(2) On-Device ML Inferencing l Client devices receive global ML model and run inference ML Training Global Model Global Model Global Model Global Model Global Model Global Model Global Model Global Model Inference Inference Inference Inference Inference Inference 10

Slide 11

Slide 11 text

Training Training Training Training Training (3) Federated Learning (FL) l Client On-device ML training + server aggregation ML Training Training Training Local Model Local Model Local Model Model Aggregation 11

Slide 12

Slide 12 text

(3) Federated Learning (FL) l Global model are sent to individual devices ML Global Model Global Model Global Model Global Model Global Model Global Model Global Model Global Model Inference Inference Inference Inference Inference Inference Model Aggregation 12

Slide 13

Slide 13 text

Federated Learningの特徴 l Federated Learningは、データをクライアントに分散したまま学習する⽅法 → 機微データをFLする場合にプライバシー保護に向いている (1) Server-side ML (2) On-Device ML Inferencing (3) Federated Learning ⼤量のデータ⼤量の計算資源⼤量データを⽤いたレコメンドなど推論時の通信が不要素早いレスポンスが必要な User Interface系の処理などクライアントのデータをサーバーに送る必要がないプライバシー保護・パーソナライゼーションなど表︓各⽅式の主な特徴 13

Slide 14

Slide 14 text

1-2. 様々なFederated Learning

Slide 15

Slide 15 text

FLのバリエーション l ⼤きくCross DeviceとCross Siloの2種類 15 Cross Device型 Cross Silo型クライアント︓多数データサイズ︓⼩通信回線︓従量課⾦ / wifiなどクライアント︓少数データサイズ︓⼤通信回線︓専⽤線など

Slide 16

Slide 16 text

参考︓FLの定義や類型などの整理の例 l いくつかの定義や類型が存在するが、例えば2019年に⾏われたworkshop ※1において、FLの定義や類型の⽐較がされている※2 ※1 Workshop on Federated Learning and Analytics ※2 “Advances and Open Problems in Federated Learning”, https://arxiv.org/abs/1912.04977 Federated learning is a machine learning setting where multiple entities (clients) collaborate in solving a machine learning problem, under the coordination of a central server or service provider. Each clientʼs raw data is stored locally and not exchanged or transferred; instead, focused updates intended for immediate aggregation are used to achieve the learning objective. FLの定義の例 FLの類型と⽐較の例

Slide 17

Slide 17 text

Federated Leaningのデータ分割の種類 l 主に、データ分割がHorizontalとVerticalの2種類が存在 • Horizontal: 同⼀属性について、ユーザで分割 • Vertical: 同⼀ユーザについて、属性で分割 ※属性を推定する分野(Federated Transfer Learning)もあるが本資料では割愛 Qiang Yang, Yang Liu, Tianjian Chen, Yongxin Tong, "Federated Machine Learning: Concept and Applications", https://arxiv.org/pdf/1902.04885.pdf 17

Slide 18

Slide 18 text

Vertical Federated Learningの例 l 秘密計算※1などを⽤いて、同⼀ユーザを判別後、サーバとクライアントで連携して学習 ※1 ここではSecure Multi-Party Computation, Private Set Intersection, Homomorphic Encryptionなどの総称として利⽤ https://arxiv.org/pdf/2202.04309.pdf 18

Slide 19

Slide 19 text

Split learning(SplitNN) l NN(Neural network)の途中で分割し、クライアントとサーバ側で連携して学習する処理 • 分割したNNのレイア(cut layer)まで学習し、途中経過を送り、その先のレイヤの学習を続ける https://arxiv.org/pdf/1812.00564.pdf 処理のイメージ以下の処理を繰り返して学習 • Forward Propagation • クライアントはCut layerまで学習し、途中結果をサーバに送信 • サーバが残りを学習 • Back Propagation • サーバは最終層の勾配を計算 • cut layerまでback propagationし、途中結果をクライアントに送る • クライアントは残りを実施 https://arxiv.org/pdf/1812.03288.pdf レイヤの分割のパターン例 19

Slide 20

Slide 20 text

2. FLへのDP(Differential Privacy)適⽤ 2-1. DP(Differential Privacy)とは

Slide 21

Slide 21 text

差分プライバシーとは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供 21 Sensitive Data 𝑫 Noisy Output プライバシー保護された統計値を提供ノイズ付加適切なノイズ設計が必要

Slide 22

Slide 22 text

差分プライバシーとは︖ Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐 で表される程度に 𝑫′︓neighbor of 𝑫 プライバシー保護された統計値を提供 22 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供ノイズ付加ノイズ付加適切なノイズ設計が必要

Slide 23

Slide 23 text

Differential Privacy ~匿名化との対⽐~ 23 匿名化 (k-匿名化[2]等) Differential Privacy プライバシーパラメータの決定⽅法根拠なし統計的根拠から決定プライバシー消費の管理不可可能外部知識との突合匿名化が破綻頑健 (破綻しない) 複数回のリリース匿名化が破綻プライバシー消費を積算 [2] L. Sweeney. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570, 2002. GAFAMやトップ⼤学を中⼼に研究開発が⾮常に活発

Slide 24

Slide 24 text

差分プライバシーの2種類のモデルノイズ付加ノイズ付加ノイズ付加サーバサーバノイズ付加 Central Differential Privacy(CDP) Local Differential Privacy(LDP) サーバーから第三者への統計値の提供時（サーバー側でノイズ付加）クライアントからサーバーへのデータの収集時（クライアント側でノイズ付加） 24 本⽇の対象はこちら

Slide 25

Slide 25 text

ローカル差分プライバシー(LDP)※1 25 メカニズム ℳ: 𝒳 → 𝒮 が (𝝐, 𝜹)-ローカル差分プライバシーを満たすとは任意の⼊⼒の組 𝑥, 𝑥! ∈ 𝒳 および任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである Pr ℳ 𝑥 ∈ 𝑆 ≤ 𝑒!⋅ Pr ℳ 𝑥" ∈ 𝑆 + 𝛿 ℳ ℳ ℳ ※1 J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. FOCS2013 クライアントは⼀塊のデータ𝑥 をℳに⼊⼒ Server 𝒳 ∈ { } ひとりひとりが何を送ってきたか区別が難しい

Slide 26

Slide 26 text

2-2. FL+DPとは

Slide 27

Slide 27 text

Federated Learning(連合学習)とは Federated Learning (FL) とは • クライアントで機械学習を実施して更新情報だけをサーバーが収集 (データはクライアントから出ない) 解決する課題 • クライアントでしか扱いを許容されない機微データの活⽤を実現残存するプライバシーリスク • 更新情報やモデルからのデータ復元 Non-participants of FL Local Update Info Local Update Info Distributing Parameters Update Global Parameters 27

Slide 28

Slide 28 text

連合学習におけるプライバシーリスク 28 (出典) “Inverting Gradients - How easy is it to break privacy in federated learning?” https://arxiv.org/abs/2003.14053 勾配から訓練データ (画像) を復元できる èプライバシー保護が必要代表的な⽅法︓差分プライバシー

Slide 29

Slide 29 text

Federated LearningにDifferential Privacyを適⽤ FLにDifferential Privacyを適⽤ • 更新情報を他⼈と⾒分けがつかない形に • モデルからの学習データの推定を困難に • 有効な学習には膨⼤なクライアントが必要解決する課題 • 厳密なプライバシーの保証と管理 Distributing Parameters + + + + + + + + + Differential Privacy + Differential Privacy ノイズを加算することで出⼒の差異を制限 (どんな⼊⼒でも出⼒がほぼ同じに⾒える) 多数の更新情報を集約するとノイズ同⼠が打ち消し合う Update Global Parameters 29

Slide 30

Slide 30 text

3. LINEにおけるFL+DFの事例 3-1. LINEスタンププレミアムとは

Slide 31

Slide 31 text

スタンプの⾃動推薦 (1/2) ※ユーザの⼊⼒した⽂字は、対応する意味的なラベルを特定するためだけに利⽤されます。 l 意味的なタグをもとに推薦 • Sticker suggestions based on semantic labels l ⼊⼒⽂字からインクリメンタルに推薦 • Incremental suggestions while text input, using pre-defined keywords associated with the each label 31

Slide 32

Slide 32 text

スタンプの⾃動推薦 (2/2) ※ユーザの⼊⼒した⽂字は、対応する意味的なラベルを特定するためだけに利⽤されます。 l 意味的なタグをもとに推薦 • Sticker suggestions based on semantic labels l ⼊⼒⽂字からインクリメンタルに推薦 • Incremental suggestions while text input, using pre-defined keywords associated with the each label 32

Slide 33

Slide 33 text

スタンプの意味的なタグ（キーワード） https://creator.line.me l 各スタンプに意味的なタグが付与 l ⽇本語の場合は 500を超えるタグが存在 33

Slide 34

Slide 34 text

「LINEスタンププレミアム」サービスとは l 1000万以上のスタンプが使い放題 ⇨ 推薦が重要 l 事前ダウンロードが不要な機能に FL+DPを適⽤ https://store.line.me/stickers-premium/landing/en 34

Slide 35

Slide 35 text

Federated Learningの適⽤ l スタンプの推薦処理を2段階に分け、特にプライバシーの観点で取り扱いに注意が必要なデータを⽤いる処理に、Federated Learningを適⽤ (第１段階) 推薦候補の⽣成 (第2段階) 推薦候補の並べ替えスタンプの個数 1,000,000 à 100 100 学習データスタンプの⼊⼿履歴データ（購⼊や無料ダウンロード等）トークルーム等でのスタンプ閲覧・送信履歴のデータ推論処理サーバークライアント端末学習処理サーバー主にクライアント端末 Federated Learningを適⽤ 35

Slide 36

Slide 36 text

3-2. LINEスタンププレミアムにおける DP+FLの活⽤

Slide 37

Slide 37 text

Common Platform for FL Service specific システムアーキテクチャ l サービス依存部分と共通プラットフォームに分離 37

Slide 38

Slide 38 text

Common Platform for FL Service specific システムアーキテクチャ l さらに、サーバー側とクライアント側で分離（4象限に分類） Common Platform for FL (Client-side) Service specific (Server-side) Common Platform for FL (Server-side) Service specific (Client-side) 38

Slide 39

Slide 39 text

処理ステップ(1/3) l ユーザの購⼊履歴などをもとに選択される候補となるスタンプ群をダウンロード l 機械学習の推薦・学習処理は共通プラットフォーム側で処理 Platform (Client-side) Inference Training App.(Server-side) Platform (Server-side) App.(Client-side) Candidate Generation Prediction Request Local Evt. Dispatcher user input user 39

Slide 40

Slide 40 text

処理ステップ(2/3)︓推論 l サーバーから学習モデルをダウンロードし、推薦処理を実⾏ Platform (Client-side) Training App.(Server-side) Platform (Server-side) App.(Client-side) Candidate Generation Prediction Request Local Evt. Dispatcher user input user ML Model Repository Prediction ML Model 40

Slide 41

Slide 41 text

Platform (Client-side) 処理ステップ(3/3)︓学習 l ログ蓄積後のアイドル中に学習処理を実⾏して、学習結果を得る l 差分プライバシーのノイズを付与して、ユーザID等を削除してサーバに送信・集約 App.(Server-side) Platform (Server-side) App.(Client-side) Candidate Generation Prediction Request Local Evt. Dispatcher user input user Model Aggregation ML Model Repository ML Model (updated) Prediction Training log (local) ML Model Differential Privacy 41

Slide 42

Slide 42 text

差分プライバシーの現状と今後【今後の⽅針】適切なプライバシーパラメータ ε の探索【実現済み】差分プライバシーを適⽤した連合学習を実装 • Localの学習結果にガウシアンメカニズムを適⽤ (Local差分プライバシー) • ノイズ付与されたLocalの学習結果を収集・平均化 (連合学習) • ユーザIDを削除してから学習結果をアップロード • 現状︓連合学習の実現可能性を評価するための弱い値を設定 • 今後︓学習精度とプライバシーを両⽴する適した値を探索・設定 42

Slide 43

Slide 43 text

FLの精度︓A/B Test Result 5.6% uplift Personalized sticker suggestions evoke explicit premium sticker package downloads 43

Slide 44

Slide 44 text

今後の検討事項 l 連合学習ベースの再ランキングをすべてのスタンプに拡⼤ • 現状はLINEスタンププレミアムのユーザーのみが対象 l 本実装をLINEのプライバシー保護のプラットフォームに • Local差分プライバシーの構成・設定を探索 • シャッフルモデルの導⼊検討 44

Slide 45

Slide 45 text

4. まとめ

Slide 46

Slide 46 text

参考︓より詳細な情報 l 11⽉に開催した技術カンファレンスにて詳細を発表済み（ビデオアーカイブ有り） • Tech-Verse 2022 https://tech-verse.me/ Source: Opening Session, https://tech-verse.me/ja/sessions/124 Source: https://tech-verse.me/ja/sessions/46 Source: https://tech-verse.me/ja/sessions/25 46

Slide 47

Slide 47 text

まとめ l 連合学習(Federated Learning, FL)の概要を説明 l 連合学習に差分プライバシー(Differential Privacy, DP) を適⽤した事例を紹介 • DP＋FLを実サービスに適⽤した国内初の事例 (発表者が知る限り) 実サービスで使われる技術を是⾮⼀緒に作りましょう︕ （共同研究・インターン等） 47