Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Federated Learningとプライバシー保護について

Federated Learningとプライバシー保護について

竹之内隆夫 (Takao Takenouchi)
LINE Corporation / Machine Learning Privacy & Trust Team / Manager

PWS Meetup 2023での発表資料です
https://www.iwsec.org/pws/2022/meetup.html

LINE Developers
PRO

March 16, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. Federated Learningと
    プライバシー保護について
    〜 Federated Learningの概要と
    LINEのFederated LearningとDifferential Privacyの導⼊事例〜
    ⽵之内隆夫 (Takao Takenouchi)
    LINE Corporation
    Machine Learning Privacy & Trust Team
    Manager 2023.3.16
    PWS Meetup 2023
    @群⾺⼤学 荒牧キャンパス & Zoom

    View Slide

  2. ⾃⼰紹介
    l 所属・⽒名
    LINE株式会社
    Machine Learning Privacy & Trust Team, Manager
    ⽵之内 隆夫 (たけのうち たかお)
    l 業務内容
    • Privacy Techの事業開発・研究開発
    l 経歴
    • 前前職・前職も含めプライバシー系で10数年の経歴
    • 技術だけでなく法制度や普及促進も
    • 例︓業界団体「秘密計算研究会」などの⽴ち上げ等
    2

    View Slide

  3. Our Team’s Publications
    Title Conference / WS Authors
    Out-of-Distribution Detection with Reconstruction Error and Typicality-
    based Penalty
    WACV2023 Osada, Takahashi, Ahsan, Nishide
    Fair and Robust Metric for Evaluating Touch-based Continuous
    Mobile Device Authentication
    IUI2023 Kudo, Takahashi, Ushiyama, Yamana
    HDPView: Differentially Private Materialized View for Exploring High
    Dimensional Relational Data
    VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa
    Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa
    PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno
    Homomorphic Encryption-Friendly Privacy-Preserving Partitioning
    Algorithm for Differential Privacy
    BigData2022 Ushiyama, Takahashi, Kudo, Yamana
    P3GM: Private High-Dimensional Data Release via Privacy Preserving
    Phased Generative Model
    ICDE2021 Takagi, Takahashi, Cao, Yoshikawa
    Construction of Differentially Private Summaries over Fully Homomorphic
    Encryption
    DEXA2021 Ushiyama, Takahashi, Kudo, Yamana
    Continuous and Gradual Style Changes of Graphic Designs with Generative
    Model
    IUI2021 Ueno, Sato
    Indirect Adversarial Attacks via Poisoning Neighbors for Graph
    Convolutional Networks
    BigData2019 Takahashi
    インターンの成果
    トップカンファレンス
    3

    View Slide

  4. 4
    出典︓https://linecorp.com/ja/pr/news/ja/2022/4269

    View Slide

  5. プライバシー保護技術のサービスへの適⽤事例
    出典︓https://linecorp.com/ja/security/article/429
    5

    View Slide

  6. 概要
    l 発表概要
    • 連合学習(Federated Learning, FL)の概要を説明
    • 連合学習への差分プライバシー(Differential Privacy, DP) の適⽤
    • LINEのスタンプ推薦へ適⽤した内容についての発表
    • DP+FLを実サービスに適⽤した国内初の事例 (発表者が知る限り)
    l 本発表の⽬的
    • 連合学習と差分プライバシーの概要を知りつつ
    • 実サービスへの適⽤がどのようなものか感じて頂きたい
    • 実サービスで使われる技術を是⾮⼀緒に作りましょう︕(共同研究・インターン等)
    6

    View Slide

  7. ⽬次
    l 1. Federated Learning(FL: 連合学習)とは
    • 1-1. Federated Learningの概要
    • 1-2. 様々なFederated Learning
    l 2. FLへのDP(Differential Privacy)適⽤
    • 2-1. DP(Differential Privacy)とは
    • 2-2. FL+DPとは
    l 3. LINEにおけるFL+DFの事例
    • 3-1. LINEスタンプ プレミアムとは
    • 3-2. LINEスタンプ プレミアムにおけるDP+FLの活⽤
    l 4. まとめ
    7

    View Slide

  8. 1. Federated Learning(FL: 連合学習)とは
    1-1. Federated Learningの概要

    View Slide

  9. (1) Server-side Machine Learning (ML)
    l Centralized server(s) collect data and process ML
    Output
    Output
    Output
    Output
    Output
    Output
    Output
    Output
    Training Inference
    ML
    9

    View Slide

  10. (2) On-Device ML Inferencing
    l Client devices receive global ML model and run inference
    ML
    Training
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Inference
    Inference
    Inference Inference
    Inference
    Inference
    10

    View Slide

  11. Training
    Training
    Training
    Training
    Training
    (3) Federated Learning (FL)
    l Client On-device ML training + server aggregation
    ML
    Training
    Training
    Training
    Local
    Model
    Local
    Model
    Local
    Model
    Model Aggregation
    11

    View Slide

  12. (3) Federated Learning (FL)
    l Global model are sent to individual devices
    ML
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Global
    Model
    Inference
    Inference
    Inference Inference
    Inference
    Inference
    Model Aggregation
    12

    View Slide

  13. Federated Learningの特徴
    l Federated Learningは、データをクライアントに分散したまま学習する⽅法
    → 機微データをFLする場合にプライバシー保護に向いている
    (1)
    Server-side ML
    (2)
    On-Device ML Inferencing
    (3)
    Federated Learning
    ⼤量のデータ
    ⼤量の計算資源
    ⼤量データを⽤いた
    レコメンド
    など
    推論時の
    通信が不要
    素早いレスポンスが必要な
    User Interface系の処理
    など
    クライアントのデータを
    サーバーに送る必要がない
    プライバシー保護・
    パーソナライゼーション
    など
    表︓各⽅式の主な特徴
    13

    View Slide

  14. 1-2. 様々なFederated Learning

    View Slide

  15. FLのバリエーション
    l ⼤きくCross DeviceとCross Siloの2種類
    15
    Cross Device型 Cross Silo型
    クライアント︓多数
    データサイズ︓⼩
    通信回線︓従量課⾦ / wifiなど
    クライアント︓少数
    データサイズ︓⼤
    通信回線︓専⽤線など

    View Slide

  16. 参考︓FLの定義や類型などの整理の例
    l いくつかの定義や類型が存在するが、例えば2019年に⾏われたworkshop ※1におい
    て、FLの定義や類型の⽐較がされている※2
    ※1 Workshop on Federated Learning and Analytics
    ※2 “Advances and Open Problems in Federated Learning”, https://arxiv.org/abs/1912.04977
    Federated learning is a machine learning
    setting where multiple entities (clients)
    collaborate in solving a machine learning
    problem, under the coordination of a central
    server or service provider.
    Each clientʼs raw data is stored locally and not
    exchanged or transferred; instead, focused
    updates intended for immediate aggregation
    are used to achieve the learning objective.
    FLの定義の例 FLの類型と⽐較の例

    View Slide

  17. Federated Leaningのデータ分割の種類
    l 主に、データ分割がHorizontalとVerticalの2種類が存在
    • Horizontal: 同⼀属性について、ユーザで分割
    • Vertical: 同⼀ユーザについて、属性で分割
    ※属性を推定する分野(Federated Transfer Learning)もあるが本資料では割愛
    Qiang Yang, Yang Liu, Tianjian Chen, Yongxin Tong, "Federated Machine Learning: Concept and Applications", https://arxiv.org/pdf/1902.04885.pdf
    17

    View Slide

  18. Vertical Federated Learningの例
    l 秘密計算※1などを⽤いて、同⼀ユーザを判別後、サーバとクライアントで連携して学習
    ※1 ここではSecure Multi-Party Computation, Private Set Intersection, Homomorphic Encryptionなどの総称として利⽤
    https://arxiv.org/pdf/2202.04309.pdf
    18

    View Slide

  19. Split learning(SplitNN)
    l NN(Neural network)の途中で分割し、クライアントとサーバ側で連携して学習する処理
    • 分割したNNのレイア(cut layer)まで学習し、途中経過を送り、その先のレイヤの学習を続ける
    https://arxiv.org/pdf/1812.00564.pdf
    処理のイメージ
    以下の処理を繰り返して学習
    • Forward Propagation
    • クライアントはCut layerまで学習し、
    途中結果をサーバに送信
    • サーバが残りを学習
    • Back Propagation
    • サーバは最終層の勾配を計算
    • cut layerまでback propagationし、
    途中結果をクライアントに送る
    • クライアントは残りを実施
    https://arxiv.org/pdf/1812.03288.pdf
    レイヤの分割のパターン例
    19

    View Slide

  20. 2. FLへのDP(Differential Privacy)適⽤
    2-1. DP(Differential Privacy)とは

    View Slide

  21. 差分プライバシーとは︖
    • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度
    • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現
    • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供
    21
    Sensitive Data 𝑫 Noisy Output
    プライバシー保護された
    統計値を提供
    ノイズ
    付加
    適切なノイズ設計が必要

    View Slide

  22. 差分プライバシーとは︖
    Sensitive Data 𝑫 Noisy Output
    区別困難

    𝝐 で表される程度に
    𝑫′︓neighbor of 𝑫
    プライバシー保護された
    統計値を提供
    22
    • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度
    • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現
    • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供
    ノイズ
    付加
    ノイズ
    付加
    適切なノイズ設計が必要

    View Slide

  23. Differential Privacy ~匿名化との対⽐~
    23
    匿名化 (k-匿名化[2]等) Differential Privacy
    プライバシーパラメータ
    の決定⽅法
    根拠なし 統計的根拠から決定
    プライバシー消費の管理 不可 可能
    外部知識との突合 匿名化が破綻 頑健 (破綻しない)
    複数回のリリース 匿名化が破綻 プライバシー消費を積算
    [2] L. Sweeney. k-anonymity: A model for protecting privacy.
    International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570, 2002.
    GAFAMやトップ⼤学を中⼼に
    研究開発が⾮常に活発

    View Slide

  24. 差分プライバシーの2種類のモデル
    ノイズ
    付加
    ノイズ
    付加
    ノイズ
    付加
    サーバ サーバ
    ノイズ
    付加
    Central Differential Privacy(CDP)
    Local Differential Privacy(LDP)
    サーバーから第三者への統計値の提供時
    (サーバー側でノイズ付加)
    クライアントからサーバーへのデータの収集時
    (クライアント側でノイズ付加)
    24
    本⽇の対象はこちら

    View Slide

  25. ローカル差分プライバシー(LDP)※1
    25
    メカニズム ℳ: 𝒳 → 𝒮 が (𝝐, 𝜹)-ローカル差分プライバシー を満たすとは
    任意の⼊⼒の組 𝑥, 𝑥! ∈ 𝒳 および
    任意の出⼒の集合 𝑆 ⊆ 𝒮 に対して以下が成り⽴つときである
    Pr ℳ 𝑥 ∈ 𝑆 ≤ 𝑒!⋅ Pr ℳ 𝑥" ∈ 𝑆 + 𝛿



    ※1 J. C. Duchi, M. I. Jordan, and M. J. Wainwright. Local privacy and statistical minimax rates. FOCS2013
    クライアントは
    ⼀塊のデータ𝑥
    をℳに⼊⼒
    Server
    𝒳 ∈ { }
    ひとりひとりが
    何を送ってきたか
    区別が難しい

    View Slide

  26. 2-2. FL+DPとは

    View Slide

  27. Federated Learning(連合学習)とは
    Federated Learning (FL) とは
    • クライアントで機械学習を実施して
    更新情報だけをサーバーが収集
    (データはクライアントから出ない)
    解決する課題
    • クライアントでしか扱いを許容されない
    機微データの活⽤を実現
    残存するプライバシーリスク
    • 更新情報やモデルからのデータ復元
    Non-participants of FL
    Local Update Info
    Local Update Info
    Distributing
    Parameters
    Update
    Global Parameters
    27

    View Slide

  28. 連合学習におけるプライバシーリスク
    28
    (出典)
    “Inverting Gradients - How easy is it to break privacy
    in federated learning?”
    https://arxiv.org/abs/2003.14053
    勾配から訓練データ (画像) を
    復元できる
    èプライバシー保護が必要
    代表的な⽅法︓差分プライバシー

    View Slide

  29. Federated LearningにDifferential Privacyを適⽤
    FLにDifferential Privacyを適⽤
    • 更新情報を他⼈と⾒分けがつかない形に
    • モデルからの学習データの推定を困難に
    • 有効な学習には膨⼤なクライアントが必要
    解決する課題
    • 厳密なプライバシーの保証と管理
    Distributing
    Parameters
    +
    +
    +
    +
    +
    +
    +
    +
    +
    Differential Privacy
    +
    Differential Privacy
    ノイズ を加算することで
    出⼒の差異を制限
    (どんな⼊⼒でも出⼒がほぼ同じに⾒える)
    多数の更新情報を集約すると
    ノイズ同⼠が打ち消し合う
    Update
    Global Parameters
    29

    View Slide

  30. 3. LINEにおけるFL+DFの事例
    3-1. LINEスタンプ プレミアムとは

    View Slide

  31. スタンプの⾃動推薦 (1/2)
    ※ユーザの⼊⼒した⽂字は、対応する意味的なラベルを特定するためだけに利⽤されます。
    l 意味的なタグをもとに推薦
    • Sticker suggestions based on
    semantic labels
    l ⼊⼒⽂字からインクリメンタルに推薦
    • Incremental suggestions while text
    input, using pre-defined keywords
    associated with the each label
    31

    View Slide

  32. スタンプの⾃動推薦 (2/2)
    ※ユーザの⼊⼒した⽂字は、対応する意味的なラベルを特定するためだけに利⽤されます。
    l 意味的なタグをもとに推薦
    • Sticker suggestions based on
    semantic labels
    l ⼊⼒⽂字からインクリメンタルに推薦
    • Incremental suggestions while text
    input, using pre-defined keywords
    associated with the each label
    32

    View Slide

  33. スタンプの意味的なタグ(キーワード)
    https://creator.line.me
    l 各スタンプに
    意味的なタグが付与
    l ⽇本語の場合は
    500を超える
    タグが存在
    33

    View Slide

  34. 「LINEスタンプ プレミアム」サービスとは
    l 1000万以上の
    スタンプが使い放題
    ⇨ 推薦が重要
    l 事前ダウンロードが
    不要な機能に
    FL+DPを適⽤
    https://store.line.me/stickers-premium/landing/en
    34

    View Slide

  35. Federated Learningの適⽤
    l スタンプの推薦処理を2段階に分け、特にプライバシーの観点で取り扱いに注意
    が必要なデータを⽤いる処理に、Federated Learningを適⽤
    (第1段階)
    推薦候補の⽣成
    (第2段階)
    推薦候補の並べ替え
    スタンプの個数 1,000,000 à 100 100
    学習データ
    スタンプの⼊⼿履歴データ
    (購⼊や無料ダウンロード等)
    トークルーム等での
    スタンプ閲覧・送信履歴のデータ
    推論処理 サーバー クライアント端末
    学習処理 サーバー 主にクライアント端末
    Federated Learningを適⽤
    35

    View Slide

  36. 3-2. LINEスタンプ プレミアムにおける
    DP+FLの活⽤

    View Slide

  37. Common Platform for FL
    Service specific
    システムアーキテクチャ
    l サービス依存部分と共通プラットフォームに分離
    37

    View Slide

  38. Common Platform for FL
    Service specific
    システムアーキテクチャ
    l さらに、サーバー側とクライアント側で分離(4象限に分類)
    Common Platform for FL
    (Client-side)
    Service specific
    (Server-side)
    Common Platform for FL
    (Server-side)
    Service specific
    (Client-side)
    38

    View Slide

  39. 処理ステップ(1/3)
    l ユーザの購⼊履歴などをもとに選択される候補となるスタンプ群をダウンロード
    l 機械学習の推薦・学習処理は共通プラットフォーム側で処理
    Platform (Client-side)
    Inference
    Training
    App.(Server-side) Platform (Server-side)
    App.(Client-side)
    Candidate Generation
    Prediction
    Request
    Local Evt.
    Dispatcher
    user
    input
    user
    39

    View Slide

  40. 処理ステップ(2/3)︓推論
    l サーバーから学習モデルをダウンロードし、推薦処理を実⾏
    Platform (Client-side)
    Training
    App.(Server-side) Platform (Server-side)
    App.(Client-side)
    Candidate Generation
    Prediction
    Request
    Local Evt.
    Dispatcher
    user
    input
    user
    ML Model
    Repository
    Prediction ML Model
    40

    View Slide

  41. Platform (Client-side)
    処理ステップ(3/3)︓学習
    l ログ蓄積後のアイドル中に学習処理を実⾏して、学習結果を得る
    l 差分プライバシーのノイズを付与して、ユーザID等を削除してサーバに送信・集約
    App.(Server-side) Platform (Server-side)
    App.(Client-side)
    Candidate Generation
    Prediction
    Request
    Local Evt.
    Dispatcher
    user
    input
    user
    Model
    Aggregation ML Model
    Repository
    ML Model
    (updated)
    Prediction
    Training
    log
    (local)
    ML Model
    Differential
    Privacy
    41

    View Slide

  42. 差分プライバシーの現状と今後
    【今後の⽅針】適切なプライバシーパラメータ ε の探索
    【実現済み】差分プライバシーを適⽤した連合学習を実装
    • Localの学習結果にガウシアンメカニズムを適⽤ (Local差分プライバシー)
    • ノイズ付与されたLocalの学習結果を収集・平均化 (連合学習)
    • ユーザIDを削除してから学習結果をアップロード
    • 現状︓連合学習の実現可能性を評価するための弱い値を設定
    • 今後︓学習精度とプライバシーを両⽴する適した値を探索・設定
    42

    View Slide

  43. FLの精度︓A/B Test Result
    5.6% uplift Personalized sticker suggestions evoke
    explicit premium sticker package downloads
    43

    View Slide

  44. 今後の検討事項
    l 連合学習ベースの再ランキングをすべてのスタンプに拡⼤
    • 現状はLINEスタンプ プレミアムのユーザーのみが対象
    l 本実装をLINEのプライバシー保護のプラットフォームに
    • Local差分プライバシーの構成・設定を探索
    • シャッフルモデルの導⼊検討
    44

    View Slide

  45. 4. まとめ

    View Slide

  46. 参考︓より詳細な情報
    l 11⽉に開催した技術カンファレンスにて詳細を発表済み(ビデオアーカイブ有り)
    • Tech-Verse 2022 https://tech-verse.me/
    Source: Opening Session, https://tech-verse.me/ja/sessions/124
    Source: https://tech-verse.me/ja/sessions/46
    Source: https://tech-verse.me/ja/sessions/25
    46

    View Slide

  47. まとめ
    l 連合学習(Federated Learning, FL)の概要を説明
    l 連合学習に差分プライバシー(Differential Privacy, DP) を適⽤した事例を紹介
    • DP+FLを実サービスに適⽤した国内初の事例 (発表者が知る限り)
    実サービスで使われる技術を是⾮⼀緒に作りましょう︕
    (共同研究・インターン等)
    47

    View Slide