Upgrade to Pro — share decks privately, control downloads, hide ads and more …

差分プライバシーの企業動向 〜BigTech企業を中心とした差分プライバシーの適用事例から動向を探る〜

差分プライバシーの企業動向 〜BigTech企業を中心とした差分プライバシーの適用事例から動向を探る〜

竹之内隆夫 (Takao Takenouchi)
LINE株式会社 ML Privacy Team Senior Privacy Evangelist
2022/10/25 [email protected]熊本
PWS企画セッション③「差分プライバシーの普及に向けて」
登壇資料
https://www.iwsec.org/css/2022/program.html#2A2-IV

LINE Developers
PRO

November 08, 2022
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 差分プライバシーの企業動向 〜 BigTech企業を中⼼とした 差分プライバシーの適⽤事例から動向を探る 〜 ⽵之内隆夫 (Takao Takenouchi) LINE株式会社 ML

    Privacy Team Senior Privacy Evangelist 2022.10.25 [email protected]熊本 PWS企画セッション③ 「差分プライバシーの普及に向けて」
  2. ⾃⼰紹介 l 所属・⽒名 LINE株式会社 ML Privacyチーム Senior Privacy Evangelist ⽵之内

    隆夫 (たけのうち たかお) l 業務内容 • プライバシー保護技術の研究開発 ※前前職(NEC)・前職(デジタルガレージ)も含め10数年の経歴 l 過去の活動の⼀例 • 秘密計算 • PWSで企画セッション(〜2021年) • 業界団体「秘密計算研究会」などの⽴ち上げ(2021年) • 情報処理学会 秘密計算の特集(2018年) • k-匿名化 • 情報処理学会 プライバシー保護技術の特集 (2013年) 2
  3. セッションにおける本講演の位置付け l ⽇本銀⾏ 菅様 • プライバシー保護における差分プライバシーの位置付け → 全体像の理解 l NTTドコモ

    寺⽥様 • 差分プライバシーの説明 → 差分プライバシーは怖くない・難しくない l LINE ⽵之内 • 差分プライバシーの企業の動向 → BigTech企業中⼼に導⼊が進む • 導⼊企業は何を⽬指しているか︖ • そのために差分プライバシーはどう役に⽴つのか︖ → BigTech(GAFAM)を中⼼に事例から読み解く 3
  4. ⽬次 l 1. BigTech企業のプライバシー保護技術の位置付け l 2. 差分プライバシーとは (簡単に) l 3.

    適⽤事例のパターン l 4. BigTech企業の事例紹介 l 5. 【参考】LINEの研究開発 4
  5. 1. BigTech企業の プライバシー保護技術の位置付け 5

  6. プライバシーとは (菅様の発表と重複するため簡単に) l プライバシーとは、時代・地域・⽂化等の社会的背景や個⼈の感覚で変化する複雑な概念 → 定義が不明確・変化するため、(ある程度は) 動向を追う必要がある(が⼤変) n 現在は「⾃⼰情報コントロール権」が主流、他の考えも n

    プライバシー(の権利)の特徴について (⼤御所の堀部政男先⽣の⽂献引⽤) (プライバシーは) 無限の広がりと奥⾏きのある問題 「プライバシーの権利」ないし「プライバシー権」の 意味するところは、歴史的に異なる 出典︓堀部政男, "プライバシーを守ったITサービスの提供技術︓1.プライバシー・個⼈ 情報保護論議の世界的展開と⽇本", 情報処理,54(11),1106-1114 (2013-10-15) 出典︓堀部政男, “現代のプライバシー”,岩波新書 (1980) 出典︓⾼⽊浩光(語り⼿),⼩泉真由⼦(聞き⼿),宇壽⼭貴久⼦(撮影),"⾼⽊浩光さんに訊く、 個⼈データ保護の真髄 ̶̶いま解き明かされる半世紀の経緯と混乱", 情報法制研 究所, https://cafe.jilis.org/2022/03/18/160/ 6
  7. プライバシー原則が重要で技術適⽤が必要 l ある程度国際的な合意が取られているプライバシーの原則に従うべき • 例︓OECDガイドライン※2、Privacy by Design※3等。各国法制度はEU GDPRを参考※1。 l 「data

    minimization」原則のためには、技術進展に伴い、新たな技術の継続的な適⽤が必要 GDPRのプライバシー原則※1 原則 概要 Lawfulness, fairness and transparency 合法、公正、透明性ある⽅法で処理すること Purpose limitation 特定された明⽰的で正当な⽬的で、収集・処理すること Data minimization ⽬的達成のために関連※4する必要最⼩限のデータ収集・処理であること Accuracy 正確なデータであること Storage limitation ⽬的達成後は削除すること Integrity and confidentiality データの完全性、機密性を保つこと(セキュリティ技術) Accountability 上記原則の遵守を説明・証明できること ※1 EUのプライバシ関係の規則であるGDPR(General Data Protection Regulation)は、⽇本・⽶国・アジア圏の法制度に強く影響しているため、 ここではGDPRのプライバシ原則(Privacy Principals)を抜粋。なお、原⽂ではminimisationであるが、本資料ではminimizationと表記している。 https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/principles/ 7 ※2 "Guidelines Governing the Protection of Privacy and Transborder Flows of Personal Data", OECD, 2018制定,2013更新 ※3 "Privacy By Design", アン・カブキアン博⼠, https://www.soumu.go.jp/main_content/000196322.pdf ※4 OECDガイドラインの第2原則 “Personal data should be relevant to the purposes(略)”の意味
  8. BigTech企業︓プライバシーは経営戦略 l ユーザのプライバシー意識の⾼まりにより、プライバシーを経営戦略に位置付け l ⽬的︓ユーザ・企業からのデータ収集増 (データはBigTech各社の競争優位性の源泉) l ⽬標︓法令遵守は当然。それ以上のブランド構築 l 活動︓先進的な技術導⼊と対外コミュニケーション

    (プライバシー技術は⾒え難いため) 技術 対外コミュニケーション Ø 先進的な技術開発と 事業への導⼊ Ø 従来技術の導⼊ Ø 最低限の情報開⽰ Ø 積極的なアピール Ø 法制度・仕様等の検討リード プライバシー保護のレベル ⾏っている活動内容の例 ブランド構築の レベル 法令遵守の レベル 出典: https://time.com/6071901/apple-iphone-privacy-wwdc-2021-vpn/ https://about.fb.com/news/2019/04/f8-2019-day-1/ BigTech企業の例 8
  9. 2. 差分プライバシーとは (菅様・寺⽥様の発表と重複する部分は簡単に) 9

  10. トレンドなプライバシー保護技術 l 差分プライバシー(Differential Privacy)はトレンドなプライバシー保護技術の⼀つ • 他︓ 連合学習(Federated Learning)、TEE/MPC(“秘密計算”) など 市場動向︓the

    2022 Gartner Hype Cycle for Privacy カテゴリ 技術名 プライバシー保護の 「フレームワーク」 連合学習(Federated Learning) データ合成 PIR(Private Information Retrieval) プライバシー保護の 「技術」 (プライバシー保護 の実現のための Building Block) 差分プライバシ(Differential Privacy) MPC (Multi-Party Computation) / TEE (Trusted Execution Environment) k-Anonymization (K-匿名化) ゼロ知識証明 ※1 参考⽂献︓ ENISA(The European Union Agency for Cybersecurity ) Data Protection Engineering https://www.enisa.europa.eu/publications/data-protection-engineering ⽇本総研 プライバシー強化技術の概説と動向 https://www.jri.co.jp/page.jsp?id=101511 デロイトトーマツ, プライバシー強化技術の紹介動画「A day with PETs」, https://www2.deloitte.com/jp/ja/pages/deloitte-analytics/articles/a-day-with-pets.html 主要なプライバシー技術の⼀覧※1 プライバシー保護の「フレームワーク」と「技術」で整理 特にBigTech企業等でも注⽬されている技術を発表者の観点で抽出 図出典: https://www.gartner.com/doc/reprints?id=1-2ARJT8DF&ct=220805 10 (TEE: Trusted Execution Environment, MPC: Multi-Party Computation)
  11. 差分プライバシーとは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供 11

    Sensitive Data ! Noisy Output プライバシー保護された 統計値を提供 ノイズ 付加 適切なノイズ設計が必要
  12. 差分プライバシーとは︖ Sensitive Data ! Noisy Output 区別困難 ≃ # で表される程度に

    !′︓neighbor of ! プライバシー保護された 統計値を提供 12 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • (ノイズの加算により)いかなる知識との突合にも頑健なプライバシーを提供 ノイズ 付加 ノイズ 付加 適切なノイズ設計が必要
  13. 差分プライバシーのプライバシー消費 • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み !" !" !# !" !# !$ …

    #Queries !" !# !$ … !$%" … Total Privacy Budget Sensitive Database & satisfying '(-DP satisfying ')-DP … Query *( Privacy Parameter '( Query *) Privacy Parameter ') 13 ノイズ 付加 ノイズ 付加
  14. 差分プライバシーの2種類のモデル ノイズ 付加 ノイズ 付加 ノイズ 付加 サーバ サーバ ノイズ

    付加 Central Differential Privacy(CDP) Local Differential Privacy(LDP) サーバーから第三者への統計値の提供時 (サーバー側でノイズ付加) クライアントからサーバーへのデータの収集時 (クライアント側でノイズ付加) 14
  15. 3. プライバシー保護のための 差分プライバシーの適⽤事例パターン 15

  16. 差分プライバシーの適⽤事例パターン l ①データ提供にDP l ②データ収集にDP l ③連合学習(Federated Learning)にDP l 拡張︓TEE

    / MPCとの組み合わせなど 16
  17. ①データ提供にDP (Central DP) l サーバーで収集したデータの集計結果にノイズを付加 l 1名のデータの存在/⾮存在が集計結果の傾向から区別できない NAME Cancer Alice

    Yes Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Eve Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes ノイズ 付加 ノイズ 付加 ノイズ 付加 !"#(%)程度しか 区別が困難 元データの差異の 区別が困難 ' 追加 削除 '′ '′′ 17
  18. ②データ収集にDP (Local DP) l クライアントは情報を隠しつつも, サーバは真の収集結果を推計する • (Local Differential Privacyを満たした形で実現)

    Client Server ・ ・ ・ 18
  19. ②データ収集にDP︓データ量による違い l クライアント数が⼤量であれば、統計的な特徴はサーバにて推定可能 ! = 10,000の場合 ! = 10,000,000の場合 ランダム化したクライアント送信データからの頻度推定(⼈⼯データを利⽤)

    頻度 クライアントが送信したアイテム クライアントが送信したアイテム 頻度 上位数件のみ推定 多く件数を推定 19
  20. ②データ収集にDP (Local DP): ⽂字列の推定の例 l アクセス履歴(URL)をLocal DPで収集し、サーバーで推定(AOLデータを利⽤) → データ量が多ければ、ある程度の推定が可能 AOLデータ

    AOLデータ (⽔増し) 約100万クライアント 約1,000万クライアント 正解 推定 正解 推定 20
  21. ③連合学習(Federated Learning)にDP (1/2) Federated Learning (FL) とは • クライアントで機械学習を実施して 更新情報だけをサーバーが収集

    (データはクライアントから出ない) 解決する課題 • クライアントでしか扱いを許容されない 機微データの活⽤を実現 残存するプライバシーリスク • 更新情報やモデルからのデータ復元 Non-participants of FL Local Update Info Local Update Info Distributing Parameters Update Global Parameters 21
  22. ③連合学習(Federated Learning)にDP (2/2) FLにDifferential Privacyを適⽤ • 更新情報を他⼈と⾒分けがつかない形に • モデルからの学習データの推定を困難に •

    有効な学習には膨⼤なクライアントが必要 解決する課題 • 厳密なプライバシーの保証と管理 Distributing Parameters + + + + + + + + + Differential Privacy + Differential Privacy ノイズ を加算することで 出⼒の差異を制限 (どんな⼊⼒でも出⼒がほぼ同じに⾒える) 多数の更新情報を集約すると ノイズ同⼠が打ち消し合う Update Global Parameters 22
  23. シャッフルモデル with MPC or TEE l クライアントが送るデータをシャッフルすることでプライバシー保護を強化 l シャッフル処理は、ある程度の信頼が必要であり、MPCやTEEが有効な⼿段の⼀つ クライアントからのレポートをシャッフルし,

    サーバに対し送信元をわからなくする + Differential Privacy + + + + + Shuffler with TEE or MPC Swap / Remove Identifiers Anonymized Shuffler should be a “trusted” entity. !"-LDP at client !-CDP + + + + 23
  24. Secure Aggregation with MPC or TEE l クライアントが送るデータを、MPCやTEEで秘匿しながら集計することで プライバシー保護を強化 +

    Differential Privacy + + Secure Aggregation with MPC or TEE + + + + + + + + 24
  25. 参考︓学習モデルのFine-Tuning時のDP適⽤ l ⼤規模な学習モデル(⾔語モデルなど)から、機密データを⽤いてFine-Tuningする際にDP適⽤※1 ⼿法︓DPを適⽤してFine-Tuning 課題︓Fine-Tuningはプライバシーリスクあり ※1 参考論⽂ • Xuechen Li,

    Florian Tramèr, Percy Liang, Tatsunori Hashimoto, "Large Language Models Can Be Strong Differentially Private Learners", ICLR 2022, https://arxiv.org/abs/2110.05679 • Da Yu, Saurabh Naik, Arturs Backurs, Sivakanth Gopi, Huseyin A. Inan, Gautam Kamath, Janardhan Kulkarni, Yin Tat Lee, Andre, Manoel, Lukas Wutschitz, Sergey Yekhanin, Huishuai Zhang, "Differentially Private Fine-tuning of Language Models", ICLR 2022, https://arxiv.org/abs/2110.06500 Public Data Private Data Fine Tune Learn Privacy Risk Public Data Private Data Fine Tune with DP Learn 25
  26. 4. BigTech企業の事例紹介 26

  27. トレンドPrivacy TechにおけるBigTech企業の動向 l 各社は研究開発だけでなく事業導⼊※2を進めており、特にGoogleとAppleが⾼いプレゼンス • 各社とも研究論⽂の発表にも積極的 → 技術の妥当性検証・透明性のために必要な活動 ※1 Amazonは明確に導⼊していると⾔い切っていないが研究開発のBlogから⾒て導⼊済みの可能性が⾼いと判断

    ※2 各社が公開している情報から発表者の判断で「研究開発」「導⼊済」を判断 27 パターン Privacyの 「フレーム ワーク」 Privacyの 「技術」 Google Apple Meta (Facebook) Amazon Microsoft その他 国内 ①データ提供に DP - CDP 導⼊済 (⼈流レ ポート,Ad data hub) 導⼊済 (App Store Bench) 導⼊済 (Data for Good) 研究開発 Uber, LinkedIn NTT Docomo LayerX 等 ②データ収集に DP - LDP 導⼊済 (Chrome 等) 導⼊済 (QuickTyp e等) 研究開発 導⼊済※1 (Alexa) 導⼊済 (telemetry) ③連合学習に DP 連合学習 LDP or CDP 導⼊済 (Gboard) 研究開発 導⼊済※1 (Alexa) LINE LDP + TEE/MPC 研究開発
  28. 事例︓①データ提供にDP (社会課題解決系) l GoogleやMetaは⼈流レポートにCentral DPを適⽤し、社会課題解決のために開⽰ 出典︓COVID-19 コミュニティモビリティレポート, https://www.google.com/covid19/mobility/ https://arxiv.org/pdf/2004.04145.pdf 出典︓Data

    for Good, Meta, https://dataforgood.facebook.com/dfg/about GoogleのCOVID-19 Community Mobility Report MetaのData for Good 28
  29. 事例︓①データ提供にDP (広告分析系) l 広告分析では、詳細で⾼頻度な分析を⾏うニーズがあり、プライバシー侵害リスクが⾼い様⼦ l Googleは”Ad Data Hub”で差分チェックを導⼊済。AppleやIinkedInではDPを導⼊ Googleの”Ad Data

    Hub” Appleの事例、LinkedInの事例 出典︓Privacy checks in Ads Data Hub, google https://developers.google.com/ads-data-hub/guides/privacy-checks#difference_checks 出典︓“Privacy-preserving analytics and reporting at LinkedIn”, https://engineering.linkedin.com/blog/2019/04/privacy-preserving-analytics-and-reporting-at-linkedin 出典︓WWDC2022:“Discover Benchmarks in App Analytics”, https://developer.apple.com/videos/play/wwdc2022/10044/?time=680 29
  30. ②データ収集にDP (Local DP)︓Appleの事例 l 技術︓ユーザが利⽤している絵⽂字の頻度を統計的に知るためにDifferential Privacyを利⽤ l コミュニケーション︓WWDC2016にて、いち早くDifferential Privacyを導⼊をアピール 出典:

    "Craig Federighi on privacy on iOS - WWDC 2016", https://www.youtube.com/watch?v=EEE_bYXbAHk Server User Client 1 User Client 2 User Client 3 絵⽂字利⽤回数 + noise 絵⽂字利⽤回数 + noise 絵⽂字利⽤回数 + noise 統計的に集計 Differential Privacyを⽤いた集計 コミュニケーション 30 図出典︓https://machinelearning.apple.com/research/learning-with-privacy-at-scale
  31. 参考︓Appleの他の事例、Microsoftの事例 出典︓https://blogs.microsoft.com/ai-for-business/differential-privacy/ Appleは様々なアプリに適⽤ MicrosoftはWindowsのtelemetryデータ収集に適⽤ 出典︓ Apple Differential Privacy Technical Overview,

    https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf 31
  32. ③連合学習(Federated Learning)にDP︓Googleの事例 • Googleは、⽂字⼊⼒における次の⽂字の推薦のための学習(Gboardの学習)に Federated LearningとDifferential Privacyを導⼊済み Server Client 1

    Client 2 Client 3 Data Data Data +noise +noise +noise Learn Learn Learn 出典: https://support.google.com/gboard/answer/9334583?hl=en 出典: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html 32
  33. 参考︓Amazonの事例、Metaの事例 https://www.amazon.science/blog/advances-in-trustworthy-machine-learning-at-alexa-ai AmazonはAlexaに適⽤※1 Meta AIはFL+DP+TEEを検討 ※1 Amazonは明確に導⼊していると⾔い切っていないが研究開発のBlogから⾒て導⼊済みの可能性が⾼いと判断 https://ai.facebook.com/blog/asynchronous-federated-learning/ 33

  34. 4. (参考)LINEの研究開発と事例 34

  35. 35 出典︓https://linecorp.com/ja/pr/news/ja/2022/4269

  36. Our Publications Title Conference / WS Authors HDPView: Differentially Private

    Materialized View for Exploring High Dimensional Relational Data VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno Construction of Differentially Private Summaries over Fully Homomorphic Encryption DEXA2021 Ushiyama, Takahashi, Kudo, Yamana P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model ICDE2021 Takagi, Takahashi, Cao, Yoshikawa Continuous and Gradual Style Changes of Graphic Designs with Generative Model IUI2021 Ueno, Sato Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks BigData2019 Takahashi Disentangling Clustered Representations of Variational Autoencoders for Generating Diverse Samples [email protected] Takahashi, Komatsu, Yamada Differentially Private Variational Autoencoders with Term-wise Gradient Aggregation [email protected] Takahashi, Takagi, Ono, Komatsu Locally Private Distributed Reinforcement Learning [email protected] Ono, Takahashi インターンの成果 トップカンファレンス 36
  37. 社外講演・チュートリアル l Differential Privacyのチュートリアル at DEIM2022 Ø https://speakerdeck.com/line_developers/the-forefront-of-data-utilization-through-differential-privacy l プライバシーに配慮した新たな技術動向

    ~ Federated Learningを中⼼に ~ at CSS2021 Ø https://speakerdeck.com/line_developers/federated-learning-with-differential-privacy l Differential Privacy in Machine Learning at LINE DEVELOPER DAY 2020 Ø https://speakerdeck.com/line_devday2020/differential-privacy-in-machine-learning 37
  38. LINEの研究成果① 課題︓差分プライバシを満たす様々なクエリ処理 l 差分プライバシ︓データ活⽤における累積的なプライバシー消費の管理の枠組み l 課題︓複数回の様々なクエリを実⾏すると閾値を超え、分析ができなくなる !" !" !# !"

    !# !$ … #Queries !" !# !$ … !$%" … Total Privacy Budget Sensitive Database & satisfying '(-DP satisfying ')%(-DP … Query *( Privacy Parameter '( Query *)%( Privacy Parameter ')%( VLDB2022採択 38
  39. LINEの研究成果① 解決⽅法︓差分プライバシを満たす中間データを⽣成 l 任意のクエリに対して⼩さいノイズで応答するプライバシー保護型クエリ処理機 構を実現するための中間データ構築法を提案 VLDB2022採択 Noise Resistance Space Efficient

    Query Agnostic Analytical Reliability 39
  40. LINEの研究成果② Privacy Amplification: Network Shuffling l プライバシー強化に⽤いる「シャッフリング」処理を世界で初めて Decentralizedな⽅法で実現(基礎研究) Shuf fler

    Curator Trusted Entityで 匿名化処理が必要 クライアント間のE2EE通信で秘密裏に データを交換しあうことで匿名化を実現 SIGMOD2022採択 / 特許出願中 40
  41. LINEの研究成果③ データ合成 + DP l 機微データを共有する代わりに模倣データの⽣成モデルを共有 l プライバシー保護に⽤いるノイズに頑健な⽣成モデルの学習を実現 ICDE2021 /

    ICLR2022採択 41
  42. 参考︓DPの未解決課題の例 l 実⽤に耐えうる性能なのか︖ l プライバシーバジェットはどう管理するのか︖ l “ビュー”はどうやって管理するのか︖ l JOIN等、複数のテーブルに跨ったクエリ・分析への対応 l

    DPを保証していることをどうやって検証するのか︖ l 誰でもわかりやすく使えるインタフェース・クエリ⾔語の実現 42 是⾮⼀緒に 研究しましょう
  43. LINEの取り組みの詳細 l LINEとヤフーの合同技術カンファレンスにて紹介予定。11⽉17⽇(⽊曜)12:00〜 https://tech-verse.me/ja/sessions/46 43

  44. まとめ l プライバシーは経営戦略・ブランド構築の位置付け l 差分プライバシーは既に多くの適⽤事例あり (Golden Standard) • 連合学習、TEE/MPCとの組み合わせなども 差分プライバシーは怖くない︕

    ⼀緒に共同研究・技術開発・導⼊促進していきましょう 44
  45. 参考︓AOLデータを⽤いたLocal DPによる推定 l Example︓クライアントからのURL収集 (AOLデータを利⽤) AOLデータ AOLデータ (⽔増し) 45