差分プライバシーの企業動向〜BigTech企業を中心とした差分プライバシーの適用事例から動向を探る〜

Slide 1

Slide 1 text

差分プライバシーの企業動向〜 BigTech企業を中⼼とした差分プライバシーの適⽤事例から動向を探る〜⽵之内隆夫 (Takao Takenouchi) LINE株式会社 ML Privacy Team Senior Privacy Evangelist 2022.10.25 CSS2022@熊本 PWS企画セッション③ 「差分プライバシーの普及に向けて」

Slide 2

Slide 2 text

⾃⼰紹介 l 所属・⽒名 LINE株式会社 ML Privacyチーム Senior Privacy Evangelist ⽵之内隆夫（たけのうちたかお） l 業務内容 • プライバシー保護技術の研究開発 ※前前職(NEC)・前職(デジタルガレージ)も含め10数年の経歴 l 過去の活動の⼀例 • 秘密計算 • PWSで企画セッション(〜2021年) • 業界団体「秘密計算研究会」などの⽴ち上げ(2021年) • 情報処理学会秘密計算の特集(2018年) • k-匿名化 • 情報処理学会プライバシー保護技術の特集 (2013年) 2

Slide 3

Slide 3 text

セッションにおける本講演の位置付け l ⽇本銀⾏菅様 • プライバシー保護における差分プライバシーの位置付け → 全体像の理解 l NTTドコモ寺⽥様 • 差分プライバシーの説明 → 差分プライバシーは怖くない・難しくない l LINE ⽵之内 • 差分プライバシーの企業の動向 → BigTech企業中⼼に導⼊が進む • 導⼊企業は何を⽬指しているか︖ • そのために差分プライバシーはどう役に⽴つのか︖ → BigTech(GAFAM)を中⼼に事例から読み解く 3

Slide 4

Slide 4 text

⽬次 l 1. BigTech企業のプライバシー保護技術の位置付け l 2. 差分プライバシーとは (簡単に) l 3. 適⽤事例のパターン l 4. BigTech企業の事例紹介 l 5. 【参考】LINEの研究開発 4

Slide 5

Slide 5 text

1. BigTech企業のプライバシー保護技術の位置付け 5

Slide 6

Slide 6 text

プライバシーとは (菅様の発表と重複するため簡単に) l プライバシーとは、時代・地域・⽂化等の社会的背景や個⼈の感覚で変化する複雑な概念 → 定義が不明確・変化するため、(ある程度は) 動向を追う必要がある（が⼤変） n 現在は「⾃⼰情報コントロール権」が主流、他の考えも n プライバシー（の権利）の特徴について（⼤御所の堀部政男先⽣の⽂献引⽤）（プライバシーは）無限の広がりと奥⾏きのある問題「プライバシーの権利」ないし「プライバシー権」の意味するところは、歴史的に異なる出典︓堀部政男, "プライバシーを守ったITサービスの提供技術︓1．プライバシー・個⼈情報保護論議の世界的展開と⽇本", 情報処理,54(11),1106-1114 (2013-10-15) 出典︓堀部政男, “現代のプライバシー”,岩波新書 (1980) 出典︓⾼⽊浩光(語り⼿),⼩泉真由⼦(聞き⼿),宇壽⼭貴久⼦(撮影),"⾼⽊浩光さんに訊く、個⼈データ保護の真髄 ̶̶いま解き明かされる半世紀の経緯と混乱", 情報法制研究所, https://cafe.jilis.org/2022/03/18/160/ 6

Slide 7

Slide 7 text

プライバシー原則が重要で技術適⽤が必要 l ある程度国際的な合意が取られているプライバシーの原則に従うべき • 例︓OECDガイドライン※2、Privacy by Design※3等。各国法制度はEU GDPRを参考※1。 l 「data minimization」原則のためには、技術進展に伴い、新たな技術の継続的な適⽤が必要 GDPRのプライバシー原則※1 原則概要 Lawfulness, fairness and transparency 合法、公正、透明性ある⽅法で処理すること Purpose limitation 特定された明⽰的で正当な⽬的で、収集・処理すること Data minimization ⽬的達成のために関連※4する必要最⼩限のデータ収集・処理であること Accuracy 正確なデータであること Storage limitation ⽬的達成後は削除すること Integrity and confidentiality データの完全性、機密性を保つこと（セキュリティ技術） Accountability 上記原則の遵守を説明・証明できること ※1 EUのプライバシ関係の規則であるGDPR(General Data Protection Regulation)は、⽇本・⽶国・アジア圏の法制度に強く影響しているため、ここではGDPRのプライバシ原則（Privacy Principals)を抜粋。なお、原⽂ではminimisationであるが、本資料ではminimizationと表記している。 https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/principles/ 7 ※2 "Guidelines Governing the Protection of Privacy and Transborder Flows of Personal Data", OECD, 2018制定,2013更新 ※3 "Privacy By Design", アン・カブキアン博⼠, https://www.soumu.go.jp/main_content/000196322.pdf ※4 OECDガイドラインの第２原則 “Personal data should be relevant to the purposes(略)”の意味

Slide 8

Slide 8 text

BigTech企業︓プライバシーは経営戦略 l ユーザのプライバシー意識の⾼まりにより、プライバシーを経営戦略に位置付け l ⽬的︓ユーザ・企業からのデータ収集増（データはBigTech各社の競争優位性の源泉) l ⽬標︓法令遵守は当然。それ以上のブランド構築 l 活動︓先進的な技術導⼊と対外コミュニケーション (プライバシー技術は⾒え難いため) 技術対外コミュニケーション Ø 先進的な技術開発と事業への導⼊ Ø 従来技術の導⼊ Ø 最低限の情報開⽰ Ø 積極的なアピール Ø 法制度・仕様等の検討リードプライバシー保護のレベル⾏っている活動内容の例ブランド構築のレベル法令遵守のレベル出典: https://time.com/6071901/apple-iphone-privacy-wwdc-2021-vpn/ https://about.fb.com/news/2019/04/f8-2019-day-1/ BigTech企業の例 8

Slide 9

Slide 9 text

2. 差分プライバシーとは (菅様・寺⽥様の発表と重複する部分は簡単に) 9

Slide 10

Slide 10 text

トレンドなプライバシー保護技術 l 差分プライバシー(Differential Privacy)はトレンドなプライバシー保護技術の⼀つ • 他︓ 連合学習(Federated Learning)、TEE/MPC(“秘密計算”) など市場動向︓the 2022 Gartner Hype Cycle for Privacy カテゴリ技術名プライバシー保護の「フレームワーク」連合学習(Federated Learning) データ合成 PIR(Private Information Retrieval) プライバシー保護の「技術」（プライバシー保護の実現のための Building Block）差分プライバシ(Differential Privacy) MPC (Multi-Party Computation) / TEE (Trusted Execution Environment) k-Anonymization (K-匿名化) ゼロ知識証明 ※1 参考⽂献︓ ENISA(The European Union Agency for Cybersecurity ) Data Protection Engineering https://www.enisa.europa.eu/publications/data-protection-engineering ⽇本総研プライバシー強化技術の概説と動向 https://www.jri.co.jp/page.jsp?id=101511 デロイトトーマツ, プライバシー強化技術の紹介動画「A day with PETs」, https://www2.deloitte.com/jp/ja/pages/deloitte-analytics/articles/a-day-with-pets.html 主要なプライバシー技術の⼀覧※1 プライバシー保護の「フレームワーク」と「技術」で整理特にBigTech企業等でも注⽬されている技術を発表者の観点で抽出図出典: https://www.gartner.com/doc/reprints?id=1-2ARJT8DF&ct=220805 10 (TEE: Trusted Execution Environment, MPC: Multi-Party Computation)

Slide 11

Slide 11 text

差分プライバシーとは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供 11 Sensitive Data ! Noisy Output プライバシー保護された統計値を提供ノイズ付加適切なノイズ設計が必要

Slide 12

Slide 12 text

差分プライバシーとは︖ Sensitive Data ! Noisy Output 区別困難 ≃ # で表される程度に !′︓neighbor of ! プライバシー保護された統計値を提供 12 • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • （ノイズの加算により）いかなる知識との突合にも頑健なプライバシーを提供ノイズ付加ノイズ付加適切なノイズ設計が必要

Slide 13

Slide 13 text

差分プライバシーのプライバシー消費 • データ活⽤に伴う累積的なプライバシー消費の定量的な管理の枠組み !" !" !# !" !# !$ … #Queries !" !# !$ … !$%" … Total Privacy Budget Sensitive Database & satisfying '(-DP satisfying ')-DP … Query *( Privacy Parameter '( Query *) Privacy Parameter ') 13 ノイズ付加ノイズ付加

Slide 14

Slide 14 text

差分プライバシーの2種類のモデルノイズ付加ノイズ付加ノイズ付加サーバサーバノイズ付加 Central Differential Privacy(CDP) Local Differential Privacy(LDP) サーバーから第三者への統計値の提供時（サーバー側でノイズ付加）クライアントからサーバーへのデータの収集時（クライアント側でノイズ付加） 14

Slide 15

Slide 15 text

3. プライバシー保護のための差分プライバシーの適⽤事例パターン 15

Slide 16

Slide 16 text

差分プライバシーの適⽤事例パターン l ①データ提供にDP l ②データ収集にDP l ③連合学習(Federated Learning)にDP l 拡張︓TEE / MPCとの組み合わせなど 16

Slide 17

Slide 17 text

①データ提供にDP (Central DP) l サーバーで収集したデータの集計結果にノイズを付加 l 1名のデータの存在/⾮存在が集計結果の傾向から区別できない NAME Cancer Alice Yes Bob No Cynthia No David Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes Eve Yes NAME Cancer Alice Yes Bob No Cynthia No David Yes ノイズ付加ノイズ付加ノイズ付加 !"#(%)程度しか区別が困難元データの差異の区別が困難 ' 追加削除 '′ '′′ 17

Slide 18

Slide 18 text

②データ収集にDP (Local DP) l クライアントは情報を隠しつつも, サーバは真の収集結果を推計する • (Local Differential Privacyを満たした形で実現) Client Server ・・・ 18

Slide 19

Slide 19 text

②データ収集にDP︓データ量による違い l クライアント数が⼤量であれば、統計的な特徴はサーバにて推定可能 ! = 10,000の場合 ! = 10,000,000の場合ランダム化したクライアント送信データからの頻度推定（⼈⼯データを利⽤）頻度クライアントが送信したアイテムクライアントが送信したアイテム頻度上位数件のみ推定多く件数を推定 19

Slide 20

Slide 20 text

②データ収集にDP (Local DP): ⽂字列の推定の例 l アクセス履歴（URL）をLocal DPで収集し、サーバーで推定(AOLデータを利⽤) → データ量が多ければ、ある程度の推定が可能 AOLデータ AOLデータ (⽔増し) 約100万クライアント約1,000万クライアント正解推定正解推定 20

Slide 21

Slide 21 text

③連合学習(Federated Learning)にDP (1/2) Federated Learning (FL) とは • クライアントで機械学習を実施して更新情報だけをサーバーが収集 (データはクライアントから出ない) 解決する課題 • クライアントでしか扱いを許容されない機微データの活⽤を実現残存するプライバシーリスク • 更新情報やモデルからのデータ復元 Non-participants of FL Local Update Info Local Update Info Distributing Parameters Update Global Parameters 21

Slide 22

Slide 22 text

③連合学習(Federated Learning)にDP (2/2) FLにDifferential Privacyを適⽤ • 更新情報を他⼈と⾒分けがつかない形に • モデルからの学習データの推定を困難に • 有効な学習には膨⼤なクライアントが必要解決する課題 • 厳密なプライバシーの保証と管理 Distributing Parameters + + + + + + + + + Differential Privacy + Differential Privacy ノイズを加算することで出⼒の差異を制限 (どんな⼊⼒でも出⼒がほぼ同じに⾒える) 多数の更新情報を集約するとノイズ同⼠が打ち消し合う Update Global Parameters 22

Slide 23

Slide 23 text

シャッフルモデル with MPC or TEE l クライアントが送るデータをシャッフルすることでプライバシー保護を強化 l シャッフル処理は、ある程度の信頼が必要であり、MPCやTEEが有効な⼿段の⼀つクライアントからのレポートをシャッフルし, サーバに対し送信元をわからなくする + Differential Privacy + + + + + Shuffler with TEE or MPC Swap / Remove Identifiers Anonymized Shuffler should be a “trusted” entity. !"-LDP at client !-CDP + + + + 23

Slide 24

Slide 24 text

Secure Aggregation with MPC or TEE l クライアントが送るデータを、MPCやTEEで秘匿しながら集計することでプライバシー保護を強化 + Differential Privacy + + Secure Aggregation with MPC or TEE + + + + + + + + 24

Slide 25

Slide 25 text

参考︓学習モデルのFine-Tuning時のDP適⽤ l ⼤規模な学習モデル(⾔語モデルなど)から、機密データを⽤いてFine-Tuningする際にDP適⽤※1 ⼿法︓DPを適⽤してFine-Tuning 課題︓Fine-Tuningはプライバシーリスクあり ※1 参考論⽂ • Xuechen Li, Florian Tramèr, Percy Liang, Tatsunori Hashimoto, "Large Language Models Can Be Strong Differentially Private Learners", ICLR 2022, https://arxiv.org/abs/2110.05679 • Da Yu, Saurabh Naik, Arturs Backurs, Sivakanth Gopi, Huseyin A. Inan, Gautam Kamath, Janardhan Kulkarni, Yin Tat Lee, Andre, Manoel, Lukas Wutschitz, Sergey Yekhanin, Huishuai Zhang, "Differentially Private Fine-tuning of Language Models", ICLR 2022, https://arxiv.org/abs/2110.06500 Public Data Private Data Fine Tune Learn Privacy Risk Public Data Private Data Fine Tune with DP Learn 25

Slide 26

Slide 26 text

4. BigTech企業の事例紹介 26

Slide 27

Slide 27 text

トレンドPrivacy TechにおけるBigTech企業の動向 l 各社は研究開発だけでなく事業導⼊※2を進めており、特にGoogleとAppleが⾼いプレゼンス • 各社とも研究論⽂の発表にも積極的 → 技術の妥当性検証・透明性のために必要な活動 ※1 Amazonは明確に導⼊していると⾔い切っていないが研究開発のBlogから⾒て導⼊済みの可能性が⾼いと判断 ※2 各社が公開している情報から発表者の判断で「研究開発」「導⼊済」を判断 27 パターン Privacyの「フレームワーク」 Privacyの「技術」 Google Apple Meta (Facebook) Amazon Microsoft その他国内 ①データ提供に DP - CDP 導⼊済 (⼈流レポート,Ad data hub) 導⼊済 (App Store Bench) 導⼊済 (Data for Good) 研究開発 Uber, LinkedIn NTT Docomo LayerX 等 ②データ収集に DP - LDP 導⼊済 (Chrome 等) 導⼊済 (QuickTyp e等) 研究開発導⼊済※1 (Alexa) 導⼊済 (telemetry) ③連合学習に DP 連合学習 LDP or CDP 導⼊済 (Gboard) 研究開発導⼊済※1 (Alexa) LINE LDP + TEE/MPC 研究開発

Slide 28

Slide 28 text

事例︓①データ提供にDP （社会課題解決系） l GoogleやMetaは⼈流レポートにCentral DPを適⽤し、社会課題解決のために開⽰出典︓COVID-19 コミュニティモビリティレポート, https://www.google.com/covid19/mobility/ https://arxiv.org/pdf/2004.04145.pdf 出典︓Data for Good, Meta, https://dataforgood.facebook.com/dfg/about GoogleのCOVID-19 Community Mobility Report MetaのData for Good 28

Slide 29

Slide 29 text

事例︓①データ提供にDP （広告分析系） l 広告分析では、詳細で⾼頻度な分析を⾏うニーズがあり、プライバシー侵害リスクが⾼い様⼦ l Googleは”Ad Data Hub”で差分チェックを導⼊済。AppleやIinkedInではDPを導⼊ Googleの”Ad Data Hub” Appleの事例、LinkedInの事例出典︓Privacy checks in Ads Data Hub, google https://developers.google.com/ads-data-hub/guides/privacy-checks#difference_checks 出典︓“Privacy-preserving analytics and reporting at LinkedIn”, https://engineering.linkedin.com/blog/2019/04/privacy-preserving-analytics-and-reporting-at-linkedin 出典︓WWDC2022:“Discover Benchmarks in App Analytics”, https://developer.apple.com/videos/play/wwdc2022/10044/?time=680 29

Slide 30

Slide 30 text

②データ収集にDP (Local DP)︓Appleの事例 l 技術︓ユーザが利⽤している絵⽂字の頻度を統計的に知るためにDifferential Privacyを利⽤ l コミュニケーション︓WWDC2016にて、いち早くDifferential Privacyを導⼊をアピール出典: "Craig Federighi on privacy on iOS - WWDC 2016", https://www.youtube.com/watch?v=EEE_bYXbAHk Server User Client 1 User Client 2 User Client 3 絵⽂字利⽤回数 + noise 絵⽂字利⽤回数 + noise 絵⽂字利⽤回数 + noise 統計的に集計 Differential Privacyを⽤いた集計コミュニケーション 30 図出典︓https://machinelearning.apple.com/research/learning-with-privacy-at-scale

Slide 31

Slide 31 text

参考︓Appleの他の事例、Microsoftの事例出典︓https://blogs.microsoft.com/ai-for-business/differential-privacy/ Appleは様々なアプリに適⽤ MicrosoftはWindowsのtelemetryデータ収集に適⽤出典︓ Apple Differential Privacy Technical Overview, https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf 31

Slide 32

Slide 32 text

③連合学習(Federated Learning)にDP︓Googleの事例 • Googleは、⽂字⼊⼒における次の⽂字の推薦のための学習（Gboardの学習）に Federated LearningとDifferential Privacyを導⼊済み Server Client 1 Client 2 Client 3 Data Data Data +noise +noise +noise Learn Learn Learn 出典: https://support.google.com/gboard/answer/9334583?hl=en 出典: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html 32

Slide 33

Slide 33 text

参考︓Amazonの事例、Metaの事例 https://www.amazon.science/blog/advances-in-trustworthy-machine-learning-at-alexa-ai AmazonはAlexaに適⽤※1 Meta AIはFL+DP+TEEを検討 ※1 Amazonは明確に導⼊していると⾔い切っていないが研究開発のBlogから⾒て導⼊済みの可能性が⾼いと判断 https://ai.facebook.com/blog/asynchronous-federated-learning/ 33

Slide 34

Slide 34 text

4. （参考）LINEの研究開発と事例 34

Slide 35

Slide 35 text

35 出典︓https://linecorp.com/ja/pr/news/ja/2022/4269

Slide 36

Slide 36 text

Our Publications Title Conference / WS Authors HDPView: Differentially Private Materialized View for Exploring High Dimensional Relational Data VLDB2022 Kato, Takahashi, Takagi, Cao, Liew, Yoshikawa Network Shuffling: Privacy Amplification via Random Walks SIGMOD2022 Liew, Takahashi, Takagi, Kato, Cao, Yoshikawa PEARL: Private Embeddings and Adversarial Reconstruction Learning ICLR2022 Liew, Takahashi, Ueno Construction of Differentially Private Summaries over Fully Homomorphic Encryption DEXA2021 Ushiyama, Takahashi, Kudo, Yamana P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model ICDE2021 Takagi, Takahashi, Cao, Yoshikawa Continuous and Gradual Style Changes of Graphic Designs with Generative Model IUI2021 Ueno, Sato Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks BigData2019 Takahashi Disentangling Clustered Representations of Variational Autoencoders for Generating Diverse Samples LDRC@IJCAI20 Takahashi, Komatsu, Yamada Differentially Private Variational Autoencoders with Term-wise Gradient Aggregation TPDP@CCS20 Takahashi, Takagi, Ono, Komatsu Locally Private Distributed Reinforcement Learning FL-ICML@ICML20 Ono, Takahashi インターンの成果トップカンファレンス 36

Slide 37

Slide 37 text

社外講演・チュートリアル l Differential Privacyのチュートリアル at DEIM2022 Ø https://speakerdeck.com/line_developers/the-forefront-of-data-utilization-through-differential-privacy l プライバシーに配慮した新たな技術動向 ~ Federated Learningを中⼼に ~ at CSS2021 Ø https://speakerdeck.com/line_developers/federated-learning-with-differential-privacy l Differential Privacy in Machine Learning at LINE DEVELOPER DAY 2020 Ø https://speakerdeck.com/line_devday2020/differential-privacy-in-machine-learning 37

Slide 38

Slide 38 text

LINEの研究成果① 課題︓差分プライバシを満たす様々なクエリ処理 l 差分プライバシ︓データ活⽤における累積的なプライバシー消費の管理の枠組み l 課題︓複数回の様々なクエリを実⾏すると閾値を超え、分析ができなくなる !" !" !# !" !# !$ … #Queries !" !# !$ … !$%" … Total Privacy Budget Sensitive Database & satisfying '(-DP satisfying ')%(-DP … Query *( Privacy Parameter '( Query *)%( Privacy Parameter ')%( VLDB2022採択 38

Slide 39

Slide 39 text

LINEの研究成果① 解決⽅法︓差分プライバシを満たす中間データを⽣成 l 任意のクエリに対して⼩さいノイズで応答するプライバシー保護型クエリ処理機構を実現するための中間データ構築法を提案 VLDB2022採択 Noise Resistance Space Efficient Query Agnostic Analytical Reliability 39

Slide 40

Slide 40 text

LINEの研究成果② Privacy Amplification: Network Shuffling l プライバシー強化に⽤いる「シャッフリング」処理を世界で初めて Decentralizedな⽅法で実現（基礎研究） Shuf fler Curator Trusted Entityで匿名化処理が必要クライアント間のE2EE通信で秘密裏にデータを交換しあうことで匿名化を実現 SIGMOD2022採択 / 特許出願中 40

Slide 41

Slide 41 text

LINEの研究成果③ データ合成 + DP l 機微データを共有する代わりに模倣データの⽣成モデルを共有 l プライバシー保護に⽤いるノイズに頑健な⽣成モデルの学習を実現 ICDE2021 / ICLR2022採択 41

Slide 42

Slide 42 text

参考︓DPの未解決課題の例 l 実⽤に耐えうる性能なのか︖ l プライバシーバジェットはどう管理するのか︖ l “ビュー”はどうやって管理するのか︖ l JOIN等、複数のテーブルに跨ったクエリ・分析への対応 l DPを保証していることをどうやって検証するのか︖ l 誰でもわかりやすく使えるインタフェース・クエリ⾔語の実現 42 是⾮⼀緒に研究しましょう

Slide 43

Slide 43 text

LINEの取り組みの詳細 l LINEとヤフーの合同技術カンファレンスにて紹介予定。11⽉17⽇(⽊曜)12:00〜 https://tech-verse.me/ja/sessions/46 43

Slide 44

Slide 44 text

まとめ l プライバシーは経営戦略・ブランド構築の位置付け l 差分プライバシーは既に多くの適⽤事例あり (Golden Standard) • 連合学習、TEE/MPCとの組み合わせなども差分プライバシーは怖くない︕ ⼀緒に共同研究・技術開発・導⼊促進していきましょう 44

Slide 45

Slide 45 text

参考︓AOLデータを⽤いたLocal DPによる推定 l Example︓クライアントからのURL収集 (AOLデータを利⽤) AOLデータ AOLデータ (⽔増し) 45