20230425 PRIVACY TECH NIGHT #02 「統計化すれば安全」の罠 ──差分プライバシーの背景

1 © LayerX Inc. 「統計化すれば安全」の罠 ──差分プライバシーの背景 2023/4/24 PRIVACY TECH NIGHT
#02 LayerX PrivacyTech事業部長中村龍矢

2 © LayerX Inc. 自己紹介データ分析・機械学習東京大工学部 • データサイエンスと出会う
Gunosy データ分析部 • アプリのデータ分析 • 機械学習での分類/推薦セキュリティ・形式検証データプライバシー LayerX 創業時からR&D • ブロックチェーンをきっかけにセキュリティの研究を始める • Ethereumへのコントリビューション R&Dから新規事業に中村龍矢 • LayerX 執行役員兼 PrivacyTech事業部長 • IPA 未踏スーパークリエータ • 2020年度電子情報通信学会インターネットアーキテクチャ研究賞最優秀賞 (共著)

3 © LayerX Inc. 本日お話しすること • 統計データの外部提供におけるリスク • プライバシー保護技術の難しさと、差分プライバシー登場の背景 ◦
（自分が勉強し始めた際に知りたかったこと） • プライバシー保護技術の現在地、今後の見通し

4 © LayerX Inc. LayerX PrivacyTech事業の紹介

5 © LayerX Inc. • バクラク事業・Fintech事業に続く第三の事業としてPrivacyTech事業を展開 LayerXの事業紹介

6 © LayerX Inc. 「Anonify（アノニファイ）」とは • 先端的なプライバシー分野の学術研究を土台に、実務的なデータ利活用に応用できるようLayerXが独自に開発したプライバシー保護のアルゴリズム群

7 © LayerX Inc. PrivacyTech事業の取り組み実績 • 次世代金融・企業間取引データにおける秘匿化技術を用いた事業検討協業事例（一部）メディア掲載（抜粋） •
住民意見収集サービスの秘匿集計基盤として採用 • 自動車走行データの自治体等外部向け分析サービスを共創 • テキストデータ・機械学習へのプライバシー保護技術適用の共同研究 JCB様つくば市様リクルート様あいおいニッセイ同和損保様 • 医療データのプライバシー保護に関する共同研究 JMDC様

8 © LayerX Inc. 「統計化すれば安全」の罠

9 © LayerX Inc. 本日題材とするユースケースのイメージ • 差分プライバシーなどのプライバシーテックの登場パターンは大きく三つに大別される • 本日は、「②収集したデータの外部提供」のパターンを題材に説明 designed
by Freepik ③双方向のデータ連携（特に名寄せを行う場合） ①エンドユーザーからのデータ収集 ②収集したデータの外部提供 • データビジネス • 大学との共同研究 • データコンペ、ハッカソン • 行政・自治体のオープンデータ • 外部委託 • etc.

10 © LayerX Inc. 統計データの外部提供 • パーソナルデータの外部提供においては、何らかの形で統計情報として提供することが多い • レコード情報としてそのまま提供するのと異なり、一般的に安全（リスクがない）と考えられている designed
by Freepik 例: ECサイトやメディアの事業者・広告主向け管理画面年齢性別住所年収 32 男性東京都中央区 650万円 24 女性神奈川県横浜市 600万円 56 男性東京都中央区 1000万円 44 女性千葉県松戸市 950万円平均年収: 800万円 PDFレポート/Excelファイル BIダッシュボード

11 © LayerX Inc. 平均年収：800万円平均年収：799.9万円 Aさん在籍時の合計年収 = 平均800万円 *
51人 Aさん退職後の合計年収 = 平均799.9万円 * 50人 Aさんの年収 = 800 * 51 - 799.9 * 50 = 805万円 Aさん在籍時 (51名) Aさん退職後 (50名) ・・・・・・・・・・・・・・・・・・・・・・・・・・たった1000円分の平均年収の変化から、Aさんの給与がわかってしまう差分攻撃: 平均年収の例 • しかし、統計情報だけを提供しても、差分から特定個人のデータが炙りだされてしまう • このようなリスクに関する研究が、1970年代（もしくはもっと前）から長く続いている designed by Freepik

12 © LayerX Inc. 事例： Facebookの広告システムに対する差分攻撃 • Facebookのカスタムオーディエンス広告において、広告主に対して提供される統計情報に対して差分攻撃等を行うことで、様々なユーザー情報が推定できたという事例 ◦
メールアドレスから電話番号を推定、ウェブサイトの閲覧履歴の推定 • 結果、Facebookはこの脆弱性を認め、修正した G. Venkatadri et al., "Privacy Risks with Facebook's PII-Based Targeting: Auditing a Data Broker's Advertising Interface," 2018 IEEE Symposium on Security and Privacy https://www.ftc.gov/system/files/documents/public_events/1223263/p155407privacyconmislove_1.pdf 元々実装されていた、人数の閾値設定や、統計量の丸めなどの防御は簡単に破られた

13 © LayerX Inc. 再構築攻撃 • 公開された大量の統計情報を連立方程式のように解くことで、元のレコードを復元する攻撃出典：https://cacm.acm.org/magazines/2019/3/234925-understanding-database-reconstruction-attacks-on-public-data/fulltext このように解いていくことで、最終的に地区Aの住民の情報を復元することが可能となる。
• ある地区には3人が住んでいる • 年齢の中央値30才、平均値44才公開した情報攻撃者による推論 • 125歳を人間の最高齢とする • この地区に住む男性の年齢の組み合わせは、 317,750通り • しかし、中央値・平均値の制約を満たす組み合わせは、30通りのみ（右図）

14 © LayerX Inc. 事例：米国国勢調査における再構築攻撃の再現 • 米国国勢調査は、政策決定や学術研究において柔軟に分析するため、大量の統計情報を公開する。 • 後の実験により、2010年度の国勢調査に対し再構築攻撃が可能だったことが明らかに。米国国勢調査局による実験結果（参考）
• ブロック、性別、年齢、人種、民族の情報について、全体の46% (1.42億人) を復元 • 年齢の誤差が±1の範囲で、71% (2.19億人) が復元 2010年度の米国国勢調査注: 上記の実験の妥当性などについては、後に研究が進んでいる参考: Dick, Travis, et al. "Confidence-ranked reconstruction of census microdata from published statistics." Proceedings of the National Academy of Sciences 120.8 (2023) 出所：https://en.wikipedia.org/wiki/2010_United_States_census, 2010 Census Summary File 1

15 © LayerX Inc. プライバシー保護の難しさ〜k-匿名性を例に〜

16 © LayerX Inc. k-匿名性の前提：間接識別子とは • 氏名や住所など、そのデータだけで個人の識別が可能な情報を「直接識別子」と呼ぶ • 性別や年齢など、他の項目と組み合わせることで個人が特定でき得る情報を「間接識別子」と呼ぶ •
間接識別子を通じて、攻撃者が持っている外部データと組み合わせることによって識別が起きると考える病院の元データ攻撃者所有の外部データ Name Job、Sex、Age Disease 直接識別子間接識別子センシティブ属性そのデータだけで個人の識別が可能そのデータだけでは個人の識別できない（性別だけをみても、レアに絞ることはできない）が、他の項目と組み合わせることで個人が特定でき得る守りたい情報図の出典: https://www.kamishima.net/archive/ppdp.pdf

17 © LayerX Inc. k-匿名性の定義 • k-匿名性: 同じ間接識別子の組を持つ人がk人以上存在する kが「大きい」ほどリスクは「小さい」（例:
k=3） kが「小さい」ほどリスクは「大きい」（例: k=1）職業性別年齢病気エンジニア男性 35 肝炎エンジニア男性 35 ねんざエンジニア男性 35 HIV ライター女性 31 風邪ライター女性 31 HIV ライター女性 31 HIV ライター女性 31 HIV 職業性別年齢病気エンジニア男性 35 肝炎エンジニア男性 38 ねんざ教師男性 32 HIV ライター女性 30 風邪ライター女性 30 HIV ダンサー女性 30 HIV ダンサー女性 30 HIV 間接識別子センシティブ属性間接識別子センシティブ属性

18 © LayerX Inc. k-匿名性の問題: 間接識別子を絞ることが難しい Netﬂixが公開したデータ • 有名なNetflixの事例: 機械学習アルゴリズムのコンペ用に、個人を直接特定できる情報は削除したデータ
を公開。しかし、他の映画評価サイトと照合し、映画の視聴履歴を用いて同一ユーザーを識別。 • 「この情報は識別に繋がらないだろう」という仮定は、想定外のリスクを生みやすい。映画評価サイトIMDbのデータユーザ映画名評価評価日 abc123 スターウォーズ 5 20xx/6/5 トップガン 5 20xx/6/5 ジュラシック・パーク 2 20xx/6/5 : : スノーデン 5 def456 シンドラーのリスト 3 ゴッドファーザー 5 ：： ghi789 プラダを着た悪魔 4 ：映画名評価コメントスタンド・バイ・ミー 4 ：：：スターウォーズ 5 ・・・トップガン 5 ・・・ジュラシック・パーク 2 ・・・ : ： : ：スノーデン 5 （特定の思想に関連するコメント）：識別の結果、ユーザーの政治的思想や性的嗜好が明らかになってしまった個人を直接特定できる情報は削除したデータを公開していたが、複数の映画および評価日の組み合わせから、個人を特定できてしまう出典：「データ解析におけるプライバシー保護」佐久間淳を元にLayerXにて作成

19 © LayerX Inc. k-匿名性の問題: 間接識別子の増加と次元の呪い • 前スライドの事情より、間接識別子は増えやすい（「安全に倒したくなる」気持ち） •
加えて、実際の使い方としては、匿名化テーブルを1つ生成し、そこから色々な分析結果を出力する形（理由は後述）のため、一つのテーブルにたくさんの間接識別子が同居する形になる k-匿名化済みデータ生データ中央区新宿区 … 男性 10人 50人 … 女性 20人 5人統計分析必ずしも同時に使わない属性の組み合わせを残さざるをえない性別年齢居住地職業 2023年の傷病 2022年の傷病 … 男性 35 中央区会社員肝炎風邪男性 35 新宿区公務員ねんざなし女性 31 渋谷区フリー風邪インフル … … … … … … … 2022 2023 … 会社員 5人 20人 … 公務員 9人 50人

20 © LayerX Inc. k-匿名性の問題: 間接識別子の増加と次元の呪い • 間接識別子が増えると、その組み合わせが全く同じ人が存在する可能性は小さくなるため、k人未満として消えてしまうグループが増え、有用性が悪化する（次元の呪い） •
特に、履歴データの場合は難しくなる k-匿名化済みデータ必ずしも同時に使わない属性の組み合わせを残さざるをえない性別年齢居住地職業 2023年の傷病 2022年の傷病 … 男性 35 中央区会社員肝炎風邪男性 35 新宿区公務員ねんざなし女性 31 渋谷区フリー風邪インフル … … … … … … … Charu C. Aggarwal. 2005. On k-anonymity and the curse of dimensionality. In Proceedings of the 31st international conference on Very large data bases (VLDB '05). データの有用性（残存レコード率）ほとんど消えてしまう

21 © LayerX Inc. 代案: ユースケース別の匿名化データの都度抽出 • では、一つ一つの分析のケースごとに分けて、匿名化したデータをその都度抽出するのはどうか？ • 一つのテーブルに共存する間接識別子が減ることで、次元の呪いを回避できるか？
匿名化生データユースケースごとに分割したテーブル or 分析結果を提供外部企業・研究機関等性別年齢居住地男性 35 中央区女性 31 渋谷区 … … … 居住地職業 2022年の傷病中央区会社員風邪新宿区公務員なし … … …

22 © LayerX Inc. 都度抽出型の課題: Compositionのリスク • それぞれ単独で安全なテーブル・データも、組み合わせることでリスクが生まれる • つまり、提供したデータを全てまとめて匿名性を評価しないといけない！
Ganta, Srivatsava Ranjit, Shiva Prasad Kasiviswanathan, and Adam Smith. "Composition attacks and auxiliary information in data privacy." Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 2008. もし攻撃者がAliceについて • Age = 28 • Zip code = 13012 • 両方の病院に行ったことを知っている場合、 AliceはAIDSと分かる（唯一共通しているため） • 異なる2つの病院のデータ • それぞれ4-匿名性, 6-匿名性あり

23 © LayerX Inc. 都度抽出型の課題: Compositionを考慮した匿名性の複雑性 • 複数のテーブル・データを横断した匿名性を考慮した手法も存在する • しかし、計算コストが非現実的（多項式時間では計算できない）なものが多い
• 結果、現在あまり普及している方法はない（当社調べ）提供したテーブルのレコード同士の関係性をグラフ形式で表現した場合のイメージ提供したテーブル

25 © LayerX Inc. 差分プライバシーとは • 2006年に考案された、数学的に証明可能なプライバシー保証を提供するアプローチ • プライバシーを評価する指標は「ε（イプシロン）」
と呼ばれる（以下、ε-DPと表記）差分プライバシーの定義 εが小さいほど、区別がしにくい → 安全性が高い

26 © LayerX Inc. 差分プライバシーのイメージ • 統計量などの出力結果に、差分プライバシーの定義を満たすノイズを加える年齢性別住所
年収 32 男性東京都中央区 650万円 24 女性神奈川県横浜市 600万円 56 男性東京都中央区 1000万円 44 女性千葉県松戸市 950万円ノイズ付与後の平均年収: 810万円平均年収: 800万円（真の値）公開しない元のデータの復元が困難元のパーソナルデータ差分プライバシーのアルゴリズム +10万円のノイズを付与

27 © LayerX Inc. 差分プライバシーの利点: 攻撃者仮定をシンプル化できる • 攻撃者がどんな背景知識を持っていても、差分プライバシーの保証に影響はない • よって、k-匿名性と異なり、間接識別子を絞る必要はない
攻撃者がAさん以外の全てのレコードの値を知っていても差分プライバシーの保証は成立する

28 © LayerX Inc. 差分プライバシーの利点: compositionがシンプル • ε1-DP, ε2-DPの出力を組み合わせると、全体はε1+ε2-DPとなる（合成定理）
• この性質により、compositionを簡単に扱うことができる差分プライバシーのメカニズム生データ ε/n-DP n個の出力について全体をε-DP で保護したい場合は、それぞれε/n-DPで保護すれば良い ε/n-DP ε/n-DP

29 © LayerX Inc. データ外部提供における差分プライバシーの活用事例 Linkedinの広告主向けダッシュボードでは、広告の表示数やクリック数を可視化。ユーザーの閲覧情報などを逆算する攻撃を防ぐため、差分プライバシーの亜種を導入。差分プライバシーの活用事例
米国国勢調査局米国の国勢調査において、人口統計や所得や学歴などの統計情報を公開する際に、差分プライバシーを活用。コロナ禍におけるFacebookユーザーの行動情報（1日の間にユーザーが移動する量と、家にいる人の数の指標）を疫学研究を目的として公開する上で、差分プライバシーを活用。機密性の高いユーザーの位置情報を、社内のデータサイエンティストがプライバシー保護を担保したまま分析するために、差分プライバシーを活用。 • 政府やビッグテックを中心に、この数年間で活用事例が増えている参考：差分プライバシーとは - AppleやGoogleも活用する最先端のプライバシー保護技術

31 © LayerX Inc. 差分プライバシーの有用性の課題 • 実際のユースケースで「普通の」統計分析をしようとすると、ノイズが大きくなりすぎる • 差分プライバシーで終わったかのように見えた、プライバシー保護技術のR＆Dはこれからが正念場？ ◦
かなり大きな技術の変化が、もう1, 2サイクル起きるかもしれない（というか必要かもしれない）データ量が足りないケースでは、有用性が実用のネックになる（安全性は問題ない）（米国国勢調査でも議論になっている）簡略化した例 • ε = 1で10個の統計量を出力 ◦ 個別の統計量は0.1-DPとなる • ノイズの95%信頼区間は約30 • （もっと理論的に良い方法はたくさんある）（注: Laplace mechanism, sensitivity = 1の場合） → プライバシー保護技術は（少なくとも今は）完璧ではない

32 © LayerX Inc. • とはいえ、差分プライバシーで有用性が出ないデータ提供は諦めるしかないのか？ • 技術の研究が進むのを待っている間にも、社会問題解決につながるデータ提供の機会がある技術の発展を待たずにやってくるユースケース LayerX
会社紹介資料より https://speakerdeck.com/layerx/company-deck 組織横断のデータ流通による社会課題解決への貢献

33 © LayerX Inc. 今やれることをやるために: 技術選定の重要性 • 社会的意義のあるユースケースについては、完璧ではなくても、今の技術でできる範囲のリスクコントロールをした上で、データ提供を進めるべきではないか •
各業界でベストプラクティスを研究していくことが必要（お気軽にご相談ください！）プライバシ｜保護水準高低有用性高低銀の弾丸 k-匿名化も手段として完全に否定されるわけではない差分プライバシーの理論的な改善や緩和が日々研究されている

20230425 PRIVACY TECH NIGHT #02 「統計化すれば安全」の罠 ─...

20230425 PRIVACY TECH NIGHT #02 「統計化すれば安全」の罠 ──差分プライバシーの背景

Ryuya Nakamura

More Decks by Ryuya Nakamura

Other Decks in Research

Featured

Transcript

1 © LayerX Inc. 「統計化すれば安全」の罠 ──差分プライバシーの背景 2023/4/24 PRIVACY TECH NIGHT

2 © LayerX Inc. 自己紹介データ分析・機械学習東京大工学部 • データサイエンスと出会う

3 © LayerX Inc. 本日お話しすること • 統計データの外部提供におけるリスク • プライバシー保護技術の難しさと、差分プライバシー登場の背景 ◦

4 © LayerX Inc. LayerX PrivacyTech事業の紹介

5 © LayerX Inc. • バクラク事業・Fintech事業に続く第三の事業としてPrivacyTech事業を展開 LayerXの事業紹介

6 © LayerX Inc. 「Anonify（アノニファイ）」とは • 先端的なプライバシー分野の学術研究を土台に、実務的なデータ利活用に応用できるようLayerXが独自に開発したプライバシー保護のアルゴリズム群

7 © LayerX Inc. PrivacyTech事業の取り組み実績 • 次世代金融・企業間取引データにおける秘匿化技術を用いた事業検討協業事例（一部）メディア掲載（抜粋） •

8 © LayerX Inc. 「統計化すれば安全」の罠

9 © LayerX Inc. 本日題材とするユースケースのイメージ • 差分プライバシーなどのプライバシーテックの登場パターンは大きく三つに大別される • 本日は、「②収集したデータの外部提供」のパターンを題材に説明 designed

11 © LayerX Inc. 平均年収：800万円平均年収：799.9万円 Aさん在籍時の合計年収 = 平均800万円 *

15 © LayerX Inc. プライバシー保護の難しさ〜k-匿名性を例に〜

17 © LayerX Inc. k-匿名性の定義 • k-匿名性: 同じ間接識別子の組を持つ人がk人以上存在する kが「大きい」ほどリスクは「小さい」（例:

18 © LayerX Inc. k-匿名性の問題: 間接識別子を絞ることが難しい Netﬂixが公開したデータ • 有名なNetflixの事例: 機械学習アルゴリズムのコンペ用に、個人を直接特定できる情報は削除したデータ

19 © LayerX Inc. k-匿名性の問題: 間接識別子の増加と次元の呪い • 前スライドの事情より、間接識別子は増えやすい（「安全に倒したくなる」気持ち） •

22 © LayerX Inc. 都度抽出型の課題: Compositionのリスク • それぞれ単独で安全なテーブル・データも、組み合わせることでリスクが生まれる • つまり、提供したデータを全てまとめて匿名性を評価しないといけない！

23 © LayerX Inc. 都度抽出型の課題: Compositionを考慮した匿名性の複雑性 • 複数のテーブル・データを横断した匿名性を考慮した手法も存在する • しかし、計算コストが非現実的（多項式時間では計算できない）なものが多い

24 © LayerX Inc. 差分プライバシーの登場

25 © LayerX Inc. 差分プライバシーとは • 2006年に考案された、数学的に証明可能なプライバシー保証を提供するアプローチ • プライバシーを評価する指標は「ε（イプシロン）」

26 © LayerX Inc. 差分プライバシーのイメージ • 統計量などの出力結果に、差分プライバシーの定義を満たすノイズを加える年齢性別住所

27 © LayerX Inc. 差分プライバシーの利点: 攻撃者仮定をシンプル化できる • 攻撃者がどんな背景知識を持っていても、差分プライバシーの保証に影響はない • よって、k-匿名性と異なり、間接識別子を絞る必要はない

28 © LayerX Inc. 差分プライバシーの利点: compositionがシンプル • ε1-DP, ε2-DPの出力を組み合わせると、全体はε1+ε2-DPとなる（合成定理）

30 © LayerX Inc. 現状の課題と今後の見通し

34 © LayerX Inc.