Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Privacy Techの概要と差分プライバシー(Differential Privacy)の動向

Privacy Techの概要と差分プライバシー(Differential Privacy)の動向

⽵之内隆夫(Takao Takenouchi)
LINE株式会社ML Privacy Team Senior Privacy Evangelist
「PRIVACY TECH NIGHT #01」の登壇資料です
https://privacytechnight.connpass.com/event/266092/

LINE Developers
PRO

December 06, 2022
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. Privacy Techの概要と 差分プライバシー(Differential Privacy)の動向 ⽵之内隆夫 (Takao Takenouchi) LINE株式会社 ML Privacy

    Team Senior Privacy Evangelist 2022.12.6 PRIVACY TECH NIGHT #1
  2. ⾃⼰紹介 l 所属・⽒名 LINE株式会社 ML Privacyチーム Senior Privacy Evangelist ⽵之内

    隆夫 (たけのうち たかお) l 業務内容 • プライバシー保護技術の事業開発・研究開発 l 経歴 • 前前職・前職も含めプライバシー系で10数年の経歴 • プライバシーの技術だけでなく法制度や普及促進も • 秘密計算 Ø 業界団体「秘密計算研究会」などの⽴ち上げ(2021年) Ø 情報処理学会 秘密計算の特集(2018年) • k-匿名化 Ø 情報処理学会 プライバシー保護技術の特集 (2013年) 2
  3. はじめに l Privacy Tech Nightの初回として概要的な内容 • 次回以降、技術詳細・事例・研究動向などの応⽤的な講演を企画予定(乞うご期待) l まずは、そもそもの疑問から •

    Privacy Techの前に、そもそもPrivacyとは︖(詳細に⼊らず技術者観点で) • Privacy Techはどう役に⽴つの︖(特に企業側にとって) • Privacy Techとは︖動向は︖ l 特にスタンダードとなっているDifferential Privacy(差分プライバシー)を説明
  4. ⽬次 l 1. Privacy Techの概要 • 1-1. PrivacyとPrivacy Tech •

    1-2. Privacy Techのトレンド l 2. Differential Privacyの動向 • 2-1. Differential Privacyとは • 2-2. Differential Privacyの適⽤パターン • 2-3. Differential Privacyの事例(BigTech企業に限定) l 3. (参考)LINEの事例
  5. プライバシーとは(技術者の視点で) l プライバシーとは、時代・地域・⽂化等の社会的背景や個⼈の感覚で変化する複雑な概念 → 定義が不明確・変化するため、(ある程度は) 動向を追う必要がある(が⼤変) n 現在は「⾃⼰情報コントロール権」が主流、他の考えも n プライバシー(の権利)の特徴

    (⼤御所の堀部政男先⽣の⽂献引⽤※1) 「プライバシーの権利」ないし「プライバシー権」の意味する ところは、歴史的に異なる ※1 出典・参考︓堀部政男, "プライバシーを守ったITサービスの提供技術︓1.プライバシー・個⼈情報保 護論議の世界的展開と⽇本", 情報処理,54(11),1106-1114 (2013-10-15) 出典︓⾼⽊浩光(語り⼿),⼩泉真由⼦(聞き⼿),宇壽⼭貴久⼦(撮影),"⾼⽊浩光さんに訊く、個 ⼈データ保護の真髄 ̶̶いま解き明かされる半世紀の経緯と混乱", 情報法制研究所, https://cafe.jilis.org/2022/03/18/160/ 5 • ひとりにしておかれる権利(right to be let alone) Samuel D. Warren and Louis D. Brandeis, “The Right to Privacy” (1890) • 私⽣活をみだりに公開されないという法的保障ないし権利 「宴のあと」 東京地裁 判例 (1960) • 個⼈,グループ⼜は組織が、⾃⼰に関する情報をいつ、どのように、 また、どの程度に他⼈に伝えるかを⾃ら決定できる権利 Alan F. Westin, “Privacy and Freedom”(『プライバシーと⾃由』) (1967) n プライバシー(の権利)の歴史的変化※1
  6. プライバシー原則のために技術(Privacy Tech)が必要 l ある程度国際的な合意が取られているプライバシーの原則に従うべき • 例︓OECDガイドライン※2、Privacy by Design※3等。各国法制度はEU GDPRを参考※1。 l

    「data minimization」原則を満たすためには、技術進展に伴い、新技術の継続的な適⽤が必要 GDPRのプライバシー原則※1 原則 概要 Lawfulness, fairness and transparency 合法、公正、透明性ある⽅法で処理すること Purpose limitation 特定された明⽰的で正当な⽬的で、収集・処理すること Data minimization ⽬的達成のために関連※4する必要最⼩限のデータ収集・処理であること Accuracy 正確なデータであること Storage limitation ⽬的達成後は削除すること Integrity and confidentiality データの完全性、機密性を保つこと(セキュリティ技術) Accountability 上記原則の遵守を説明・証明できること ※1 EUのプライバシ関係の規則であるGDPR(General Data Protection Regulation)は、⽇本・⽶国・アジア圏の法制度に強く影響しているため、 ここではGDPRのプライバシ原則(Privacy Principals)を抜粋。なお、原⽂ではminimisationであるが、本資料ではminimizationと表記している。 https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/principles/ 6 ※2 “Guidelines Governing the Protection of Privacy and Transborder Flows of Personal Data”, OECD, 1980年制定,2013年更新 ※3 "Privacy By Design", アン・カブキアン博⼠, https://www.soumu.go.jp/main_content/000196322.pdf ※4 OECDガイドラインの第2原則 “Personal data should be relevant to the purposes(略)”の意味
  7. 法制度とプライバシー保護の関係 l プライバシーを保護するためには法令遵守は最低限必須で、それ以上が望まれる 出典︓経済産業省, "プライバシーガバナンス", https://www.meti.go.jp/policy/it_policy/privacy/privacy.html 図︓個⼈情報保護法とプライバシー保護の関係 (経産省のプライバシーガバナンスの説明図) 7

  8. BigTech企業の動向︓プライバシーは経営戦略 l ユーザのプライバシー意識の⾼まりにより、プライバシーを経営戦略に位置付け l ⽬的︓ユーザ・企業からのデータ収集増 (データはBigTech各社の競争優位性の源泉) l ⽬標︓法令遵守は当然。それ以上のブランド構築 l 活動︓先進的な技術導⼊と対外コミュニケーション

    (プライバシー技術は⾒え難いため) 技術 対外コミュニケーション Ø 先進的な技術開発と 事業への導⼊ Ø 従来技術の導⼊ Ø 最低限の情報開⽰ Ø 積極的なアピール Ø 法制度・仕様等の検討リード プライバシー保護のレベル ⾏っている活動内容の例 ブランド構築の レベル 法令遵守の レベル 出典: https://time.com/6071901/apple-iphone-privacy-wwdc-2021-vpn/ https://about.fb.com/news/2019/04/f8-2019-day-1/ BigTech企業の例 8
  9. ⽬次 l 1. Privacy Techの概要 • 1-1. PrivacyとPrivacy Tech •

    1-2. Privacy Techのトレンド l 2. Differential Privacyの動向 • 2-1. Differential Privacyとは • 2-2. Differential Privacyの適⽤パターン • 2-3. Differential Privacyの事例(BigTech企業に限定) l 3. (参考)LINEの事例
  10. トレンドなプライバシー保護技術 l 差分プライバシー(Differential Privacy)はトレンドなプライバシー保護技術の⼀つ • 他︓ 連合学習(Federated Learning)、TEE/MPC(“秘密計算”) ※2など 市場動向︓the

    2022 Gartner Hype Cycle for Privacy カテゴリ 技術名 プライバシー保護の 「フレームワーク」 連合学習(Federated Learning) データ合成 PIR(Private Information Retrieval) プライバシー保護の 「技術」 (プライバシー保護 の実現のための Building Block) 差分プライバシー(Differential Privacy) MPC (Multi-Party Computation) / TEE (Trusted Execution Environment) k-Anonymization (K-匿名化) ゼロ知識証明 ※1 参考⽂献︓ ENISA(The European Union Agency for Cybersecurity ) Data Protection Engineering https://www.enisa.europa.eu/publications/data-protection-engineering ⽇本総研 プライバシー強化技術の概説と動向 https://www.jri.co.jp/page.jsp?id=101511 デロイトトーマツ, プライバシー強化技術の紹介動画「A day with PETs」, https://www2.deloitte.com/jp/ja/pages/deloitte-analytics/articles/a-day-with-pets.htm ※2 TEEはConfidential Computingとも呼ばれる。秘密計算は英語ではSecure Computationとも呼ばれ、⽇本では秘匿計算と呼ばれることもある。本資料では広くデータを秘匿したまま処理する技術という観点でMPCとTEEを同様な技術と捉えて記載。 主要なプライバシー技術の⼀覧※1 プライバシー保護の「フレームワーク」と「技術」で整理 特にBigTech企業等でも注⽬されている技術を発表者の観点で抽出 図出典: https://www.gartner.com/doc/reprints?id=1-2ARJT8DF&ct=220805 10 (TEE: Trusted Execution Environment, MPC: Multi-Party Computation)
  11. トレンドのPrivacy Techの概要 l トレンドの3つのPrivacy Techは、「収集」「処理」「提供」の各フェーズで データを保護 Server User Clients Other

    Companies Analyst Data Data Data 収集 提供 /利⽤ 処理 (1) Differential Privacy (2) Federated Learning (3) TEE/MPC ビッグデータに適したデータ保護 • 数学的保証のある“ぼかし” • データ︓⼤ à ぼかし︓⼩ • プライバシーの定量化 収集データの最⼩化 • クライアント端末で学習 • 更新情報だけを収集 誰も関与できない秘密計算 • データを秘匿したまま処理 技術名 技術概要 プライバシー保護の箇所 TEE : Trusted Execution Environment MPC : Multi-Party Computation 11 “ぼかす” “減らす” “隔離する”
  12. (1) Differential Privacy Differential Privacy(DP)とは • 「どれだけ他⼈と⾒分けがつかないか」を表現したプライバシー保護の尺度 解決する課題 • 従来の匿名化と異なり、いかなる知識と突合されても安全なプライバシー保護を提供

    実現⽅法 • データの集計の際に、適切なノイズ(乱数)を加算 (デメリット︓正確な値では無くなる) ノイズ 加算 12 集計結果 集計結果 集計結果 … … 処理結果を⽐較しても 「他⼈との⾒分けがつかない」 ⇨ プライバシー保護につながる 詳細は後半説明
  13. (2) Federated Learning Federated Learning (FL) とは • クライアントで機械学習を実施して 更新情報だけをサーバーが収集

    (データはクライアントから出ない) 解決する課題 • クライアントでしか扱いを許容されない 機微データの活⽤を実現 • サーバーのデータ管理コストの削減 Non-participants of FL Local Update Info Local Update Info Distributing Parameters Update Global Parameters 13
  14. (3) TEE/MPC TEE/MPC とは l データの「処理中」も暗号化できる暗号技術 (従来の暗号化は「通信中」と「保存中」のみ暗号化) • TEE: ハードウエアのチップを利⽤した⽅式

    • MPC: ソフトウエア(暗号理論)を利⽤した⽅式 解決する課題 l 常にデータの暗号化を実現するため、管理者や不正者からの不正を防⽌ Server Analyst User Clients Other Companies Data Process Server Analyst User Clients Other Companies Data Process by TEE/MPC 常にデータを 暗号化可能 14 TEE : Trusted Execution Environment MPC : Multi-Party Computation 従来の暗号技術を使ったシステム TEEやMPCを適⽤したシステム 処理中の 漏洩リスク
  15. ⽬次 l 1. Privacy Techの概要 • 1-1. PrivacyとPrivacy Tech •

    1-2. Privacy Techのトレンド l 2. Differential Privacyの動向 • 2-1. Differential Privacyとは • 2-2. Differential Privacyの適⽤パターン • 2-3. Differential Privacyの事例(BigTech企業に限定) l 3. (参考)LINEの事例
  16. 差分プライバシーとは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供 16

    Sensitive Data 𝑫 Noisy Output プライバシー保護された 統計値を提供 ノイズ 付加 適切なノイズ設計が必要
  17. 差分プライバシーとは︖ Sensitive Data 𝑫 Noisy Output 区別困難 ≃ 𝝐 で表される程度に

    𝑫′︓neighbor of 𝑫 プライバシー保護された 統計値を提供 17 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供 ノイズ 付加 ノイズ 付加 適切なノイズ設計が必要
  18. 差分プライバシーのプライバシー消費 • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み 𝜖! 𝜖! 𝜖" 𝜖! 𝜖" 𝜖# …

    #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌 Privacy Parameter 𝝐𝒌 18 ノイズ 付加 ノイズ 付加
  19. 参考︓Differential Privacy ~匿名化との対⽐~ 匿名化※ Differential Privacy プライバシーパラメータ の決定⽅法 根拠が乏しい 統計的根拠から決定

    プライバシー消費の管理 不可能 可能 外部知識との突合 匿名性が破綻 頑健 (破綻しない) 複数回のリリース 匿名性が破綻 プライバシー消費を積算 研究開発の活発度 ほぼ終結 ⾮常に活発 (特にBigTechやトップ⼤学等) 法律のサポート 匿名加⼯情報 等 (ある程度は存在) なし (追いついていない) 19 ※ 主にk-匿名化を想定。m-invarianceなどの複数回のリリースを想定した指標もあるが限界がある
  20. 差分プライバシーの2種類のモデル ノイズ 付加 ノイズ 付加 ノイズ 付加 サーバ サーバ ノイズ

    付加 Central Differential Privacy(CDP) Local Differential Privacy(LDP) サーバーから第三者への統計値の提供時 (サーバー側でノイズ付加) クライアントからサーバーへのデータの収集時 (クライアント側でノイズ付加) 20
  21. ⽬次 l 1. Privacy Techの概要 • 1-1. PrivacyとPrivacy Tech •

    1-2. Privacy Techのトレンド l 2. Differential Privacyの動向 • 2-1. Differential Privacyとは • 2-2. Differential Privacyの適⽤パターン • 2-3. Differential Privacyの事例(BigTech企業に限定) l 3. (参考)LINEの事例
  22. ①データ提供にDP (Central DP) l サーバーで収集したデータの集計結果にノイズを付加 l 1名のデータの存在/⾮存在が集計結果の傾向から区別できない NAME Cancer Alice

    Yes Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Eve Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes ノイズ 付加 ノイズ 付加 ノイズ 付加 𝐞𝐱𝐩(𝝐)程度しか 区別が困難 元データの差異の 区別が困難 𝐷 追加 削除 𝐷′ 𝐷′′ 22
  23. ②データ収集にDP (Local DP) l クライアントは情報を隠しつつも, サーバは真の収集結果を推計する • (Local Differential Privacyを満たした形で実現)

    Client Server ・ ・ ・ 23
  24. ②データ収集にDP︓データ量による違い l クライアント数が⼤量であれば、統計的な特徴はサーバにて推定可能 𝑁 = 10,000の場合 𝑁 = 10,000,000の場合 ランダム化したクライアント送信データからの頻度推定(⼈⼯データを利⽤)

    頻度 クライアントが送信したアイテム クライアントが送信したアイテム 頻度 上位数件のみ推定 多く件数を推定 24
  25. ②データ収集にDP (Local DP): ⽂字列の推定の例 l アクセス履歴(URL)をLocal DPで収集し、サーバーで推定(AOLデータを利⽤) → データ量が多ければ、ある程度の推定が可能 AOLデータ

    AOLデータ (⽔増し) 約100万クライアント 約1,000万クライアント 正解 推定 正解 推定 25
  26. ③連合学習(Federated Learning)にDP (1/2) Federated Learning (FL) とは • クライアントで機械学習を実施して 更新情報だけをサーバーが収集

    (データはクライアントから出ない) 解決する課題 • クライアントでしか扱いを許容されない 機微データの活⽤を実現 残存するプライバシーリスク • 更新情報やモデルからのデータ復元 Non-participants of FL Local Update Info Local Update Info Distributing Parameters Update Global Parameters 26
  27. ③連合学習(Federated Learning)にDP (2/2) FLにDifferential Privacyを適⽤ • 更新情報を他⼈と⾒分けがつかない形に • モデルからの学習データの推定を困難に •

    有効な学習には膨⼤なクライアントが必要 解決する課題 • 厳密なプライバシーの保証と管理 Distributing Parameters + + + + + + + + + Differential Privacy + Differential Privacy ノイズ を加算することで 出⼒の差異を制限 (どんな⼊⼒でも出⼒がほぼ同じに⾒える) 多数の更新情報を集約すると ノイズ同⼠が打ち消し合う Update Global Parameters 27
  28. シャッフルモデル with MPC or TEE l クライアントが送るデータをシャッフルすることでプライバシー保護を強化 l シャッフル処理は、ある程度の信頼が必要であり、MPCやTEEが有効な⼿段の⼀つ クライアントからのレポートをシャッフルし,

    サーバに対し送信元をわからなくする + Differential Privacy + + + + + Shuffler with TEE or MPC Swap / Remove Identifiers Anonymized Shuffler should be a “trusted” entity. 𝜖! -LDP at client 𝜖-CDP + + + + 28
  29. Secure Aggregation with MPC or TEE l クライアントが送るデータを、MPCやTEEで秘匿しながら集計することで プライバシー保護を強化 +

    Differential Privacy + + Secure Aggregation with MPC or TEE + + + + + + + + 29
  30. 参考︓学習モデルのFine-Tuning時のDP適⽤ l ⼤規模な学習モデル(⾔語モデルなど)から、機密データを⽤いてFine-Tuningする際にDP適⽤※1 ⼿法︓DPを適⽤してFine-Tuning 課題︓Fine-Tuningはプライバシーリスクあり ※1 参考論⽂ • Xuechen Li,

    Florian Tramèr, Percy Liang, Tatsunori Hashimoto, "Large Language Models Can Be Strong Differentially Private Learners", ICLR 2022, https://arxiv.org/abs/2110.05679 • Da Yu, Saurabh Naik, Arturs Backurs, Sivakanth Gopi, Huseyin A. Inan, Gautam Kamath, Janardhan Kulkarni, Yin Tat Lee, Andre, Manoel, Lukas Wutschitz, Sergey Yekhanin, Huishuai Zhang, "Differentially Private Fine-tuning of Language Models", ICLR 2022, https://arxiv.org/abs/2110.06500 Public Data Private Data Fine Tune Learn Privacy Risk Public Data Private Data Fine Tune with DP Learn 30
  31. ⽬次 l 1. Privacy Techの概要 • 1-1. PrivacyとPrivacy Tech •

    1-2. Privacy Techのトレンド l 2. Differential Privacyの動向 • 2-1. Differential Privacyとは • 2-2. Differential Privacyの適⽤パターン • 2-3. Differential Privacyの事例(BigTech企業に限定) l 3. (参考)LINEの事例
  32. トレンドPrivacy TechにおけるBigTech企業の動向 l 各社は研究開発だけでなく事業導⼊※2を進めており、特にGoogleとAppleが⾼いプレゼンス • 各社とも研究論⽂の発表にも積極的 → 技術の妥当性検証・透明性のために必要な活動 ※1 Amazonは明確に導⼊していると⾔い切っていないが研究開発のBlogから⾒て導⼊済みの可能性が⾼いと判断

    ※2 各社が公開している情報から発表者の判断で「研究開発」「導⼊済」を判断 32 パターン Privacyの 「フレーム ワーク」 Privacyの 「技術」 Google Apple Meta (Facebook) Amazon Microsoft その他 国内 ①データ提供に DP - CDP 導⼊済 (⼈流レ ポート,Ad data hub) 導⼊済 (App Store Bench) 導⼊済 (Data for Good) 研究開発 Uber, LinkedIn 等 NTT Docomo, LayerX 等 ②データ収集に DP - LDP 導⼊済 (Chrome 等) 導⼊済 (QuickTyp e等) 導⼊済 (URL Data Set) 導⼊済※1 (Alexa) 導⼊済 (telemetry) ③連合学習に DP 連合学習 LDP or CDP 導⼊済 (Gboard) 研究開発 導⼊済※1 (Alexa) LINE LDP + TEE/MPC 研究開発
  33. 事例︓①データ提供にDP (社会課題解決系) l GoogleやMetaは⼈流レポートにCentral DPを適⽤し、社会課題解決のために開⽰ 出典︓COVID-19 コミュニティモビリティレポート, https://www.google.com/covid19/mobility/ https://arxiv.org/pdf/2004.04145.pdf 出典︓Data

    for Good, Meta, https://dataforgood.facebook.com/dfg/about GoogleのCOVID-19 Community Mobility Report MetaのData for Good 33
  34. 事例︓①データ提供にDP (広告分析系) l 広告分析では、詳細で⾼頻度な分析を⾏うニーズがあり、プライバシー侵害リスクが⾼い様⼦ l Googleは”Ad Data Hub”で差分チェックを導⼊済。AppleやIinkedInではDPを導⼊ Googleの”Ad Data

    Hub” Appleの事例、LinkedInの事例 出典︓Privacy checks in Ads Data Hub, google https://developers.google.com/ads-data-hub/guides/privacy-checks#difference_checks 出典︓“Privacy-preserving analytics and reporting at LinkedIn”, https://engineering.linkedin.com/blog/2019/04/privacy-preserving-analytics-and-reporting-at-linkedin 出典︓WWDC2022:“Discover Benchmarks in App Analytics”, https://developer.apple.com/videos/play/wwdc2022/10044/?time=680 34
  35. ②データ収集にDP (Local DP)︓Appleの事例 l 技術︓ユーザが利⽤している絵⽂字の頻度を統計的に知るためにDifferential Privacyを利⽤ l コミュニケーション︓WWDC2016にて、いち早くDifferential Privacyを導⼊をアピール 出典:

    "Craig Federighi on privacy on iOS - WWDC 2016", https://www.youtube.com/watch?v=EEE_bYXbAHk Server User Client 1 User Client 2 User Client 3 絵⽂字利⽤回数 + noise 絵⽂字利⽤回数 + noise 絵⽂字利⽤回数 + noise 統計的に集計 Differential Privacyを⽤いた集計 コミュニケーション 35 図出典︓https://machinelearning.apple.com/research/learning-with-privacy-at-scale
  36. 参考︓Appleの他の事例、Microsoft、Facebookの事例 出典︓https://blogs.microsoft.com/ai-for-business/differential-privacy/ https://doi.org/10.7910/DVN/TDOAPG Appleは様々なアプリに適⽤ MicrosoftはWindowsのtelemetryデータ収集に適⽤ FacabookはURLの収集に適⽤ 出典︓ Apple Differential Privacy

    Technical Overview, https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf 36
  37. ③連合学習(Federated Learning)にDP︓Googleの事例 • Googleは、⽂字⼊⼒における次の⽂字の推薦のための学習(Gboardの学習)に Federated LearningとDifferential Privacyを導⼊ Server Client 1

    Client 2 Client 3 Data Data Data +noise +noise +noise Learn Learn Learn 出典: https://support.google.com/gboard/answer/9334583?hl=en 出典: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html 37
  38. 参考︓Amazonの事例、Metaの事例 https://www.amazon.science/blog/advances-in-trustworthy-machine-learning-at-alexa-ai AmazonはAlexaに適⽤※1 Meta AIはFL+DP+TEEを検討 ※1 Amazonは明確に導⼊していると⾔い切っていないが研究開発のBlogから⾒て導⼊済みの可能性が⾼いと判断 https://ai.facebook.com/blog/asynchronous-federated-learning/ 38

  39. ⽬次 l 1. Privacy Techの概要 • 1-1. PrivacyとPrivacy Tech •

    1-2. Privacy Techのトレンド l 2. Differential Privacyの動向 • 2-1. Differential Privacyとは • 2-2. Differential Privacyの適⽤パターン • 2-3. Differential Privacyの事例(BigTech企業に限定) l 3. (参考)LINEの事例
  40. 40 出典︓https://linecorp.com/ja/pr/news/ja/2022/4269

  41. Our Publications Title Conference / WS Authors HDPView: Differentially Private

    Materialized View for Exploring High Dimensional Relational Data VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno Construction of Differentially Private Summaries over Fully Homomorphic Encryption DEXA2021 Ushiyama, Takahashi, Kudo, Yamana P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model ICDE2021 Takagi, Takahashi, Cao, Yoshikawa Continuous and Gradual Style Changes of Graphic Designs with Generative Model IUI2021 Ueno, Sato Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks BigData2019 Takahashi Disentangling Clustered Representations of Variational Autoencoders for Generating Diverse Samples [email protected] Takahashi, Komatsu, Yamada Differentially Private Variational Autoencoders with Term-wise Gradient Aggregation [email protected] Takahashi, Takagi, Ono, Komatsu Locally Private Distributed Reinforcement Learning [email protected] Ono, Takahashi インターンの成果 トップカンファレンス 41
  42. 社外講演・チュートリアル l Differential Privacyのチュートリアル at DEIM2022 Ø https://speakerdeck.com/line_developers/the-forefront-of-data-utilization-through-differential-privacy l プライバシーに配慮した新たな技術動向

    ~ Federated Learningを中⼼に ~ at CSS2021 Ø https://speakerdeck.com/line_developers/federated-learning-with-differential-privacy l Differential Privacy in Machine Learning at LINE DEVELOPER DAY 2020 Ø https://speakerdeck.com/line_devday2020/differential-privacy-in-machine-learning 42
  43. LINEの研究成果① 課題︓差分プライバシーを満たす様々なクエリ処理 l 差分プライバシ︓データ活⽤における累積的なプライバシー消費の管理の枠組み l 課題︓複数回の様々なクエリを実⾏すると閾値を超え、分析ができなくなる 𝜖! 𝜖! 𝜖" 𝜖!

    𝜖" 𝜖# … #Queries 𝜖! 𝜖" 𝜖# … 𝜖#$! … Total Privacy Budget Sensitive Database 𝑫 satisfying 𝝐𝟏 -DP satisfying 𝝐𝒌$𝟏 -DP … Query 𝒒𝟏 Privacy Parameter 𝝐𝟏 Query 𝒒𝒌#𝟏 Privacy Parameter 𝝐𝒌#𝟏 VLDB2022採択 43
  44. LINEの研究成果① 解決⽅法︓差分プライバシーを満たす中間データを⽣成 l 任意のクエリに対して⼩さいノイズで応答するプライバシー保護型クエリ処理機 構を実現するための中間データ構築法を提案 VLDB2022採択 Noise Resistance Space Efficient

    Query Agnostic Analytical Reliability 44
  45. LINEの研究成果② Privacy Amplification: Network Shuffling l プライバシー強化に⽤いる「シャッフリング」処理を世界で初めて Decentralizedな⽅法で実現(基礎研究) Shuf fler

    Curator Trusted Entityで 匿名化処理が必要 クライアント間のE2EE通信で秘密裏に データを交換しあうことで匿名化を実現 SIGMOD2022採択 / 特許出願中 45
  46. LINEの研究成果③ データ合成 + DP l 機微データを共有する代わりに模倣データの⽣成モデルを共有 l プライバシー保護に⽤いるノイズに頑健な⽣成モデルの学習を実現 ICDE2021 /

    ICLR2022採択 46
  47. 参考︓DPの未解決課題の例 l 実⽤に耐えうる性能なのか︖ l プライバシーバジェットはどう管理するのか︖ l “ビュー”はどうやって管理するのか︖ l JOIN等、複数のテーブルに跨ったクエリ・分析への対応 l

    DPを保証していることをどうやって検証するのか︖ l 誰でもわかりやすく使えるインタフェース・クエリ⾔語の実現 47 是⾮⼀緒に 技術開発・研究開発 しましょう
  48. LINEのFederated Learning + Differential Privacyの導⼊事例 l 11⽉に開催した技術カンファレンスにて詳細を発表(ビデオアーカイブ有り) • Tech-Verse 2022

    https://tech-verse.me/ Source: Opening Session, https://tech-verse.me/ja/sessions/124 Source: https://tech-verse.me/ja/sessions/46 Source: https://tech-verse.me/ja/sessions/25
  49. まとめ l 差分プライバシーの概要を説明 • 技術的な詳細や事例などは次回以降に企画予定︕ l プライバシーは経営戦略・ブランド構築の位置付け l 差分プライバシーは既に多くの適⽤事例あり (Golden

    Standard) • 連合学習、TEE/MPCとの組み合わせなども 差分プライバシーは怖くない︕ ⼀緒に共同研究・技術開発・導⼊促進していきましょう 49