Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20230425 PRIVACY TECH NIGHT #02 「統計化すれば安全」の罠 ──差分プライバシーの背景

20230425 PRIVACY TECH NIGHT #02 「統計化すれば安全」の罠 ──差分プライバシーの背景

差分プライバシーをはじめとするプライバシー保護技術は、そもそもどんな課題を解決する技術で、それがないとどんな問題が起きてしまうのでしょうか?
一般的には「個人情報・パーソナルデータは、統計情報に加工すれば安全」と考えられており、PDFレポートやWEBのダッシュボードなどの形で外部に提供・公開することは、多くの企業や行政機関が行なっています。しかしながら、本当に「統計化すれば安全」かは非常に複雑で、長い研究の歴史があります。
今回は、このような背景について少し詳細に立ち入りながら、その解決策の一例としての差分プライバシーについて、国内外の事例と合わせて紹介します。

Ryuya Nakamura

April 25, 2023
Tweet

More Decks by Ryuya Nakamura

Other Decks in Research

Transcript

  1. 2 © LayerX Inc. 自己紹介 データ分析・機械学習 東京大 工学部 • データサイエンスと出会う

    Gunosy データ分析部 • アプリのデータ分析 • 機械学習での分類/推薦 セキュリティ・形式検証 データプライバシー LayerX 創業時からR&D • ブロックチェーンをきっかけに セキュリティの研究を始める • Ethereumへのコントリ ビューション R&Dから新規事業に 中村 龍矢 • LayerX 執行役員 兼 PrivacyTech事業部長 • IPA 未踏スーパークリエータ • 2020年度 電子情報通信学会 インターネット アーキテクチャ研究賞 最優秀賞 (共著)
  2. 3 © LayerX Inc. 本日お話しすること • 統計データの外部提供におけるリスク • プライバシー保護技術の難しさと、差分プライバシー登場の背景 ◦

    (自分が勉強し始めた際に知りたかったこと) • プライバシー保護技術の現在地、今後の見通し
  3. 7 © LayerX Inc. PrivacyTech事業の取り組み実績 • 次世代金融・企業間取引データにおける秘匿化技術を用いた事業検討 協業事例(一部) メディア掲載(抜粋) •

    住民意見収集サービスの秘匿集計基盤として採用 • 自動車走行データの自治体等外部向け分析サービスを共創 • テキストデータ・機械学習へのプライバシー保護技術適用の共同研究 JCB様 つくば市様 リクルート様 あいおいニッセイ 同和損保様 • 医療データのプライバシー保護に関する共同研究 JMDC様
  4. 9 © LayerX Inc. 本日題材とするユースケースのイメージ • 差分プライバシーなどのプライバシーテックの登場パターンは大きく三つに大別される • 本日は、「②収集したデータの外部提供」のパターンを題材に説明 designed

    by Freepik ③双方向のデータ連携 (特に名寄せを行う場合) ①エンドユーザーからの データ収集 ②収集したデータの外部提供 • データビジネス • 大学との共同研究 • データコンペ、ハッカソン • 行政・自治体のオープンデータ • 外部委託 • etc.
  5. 10 © LayerX Inc. 統計データの外部提供 • パーソナルデータの外部提供においては、何らかの形で統計情報として提供することが多い • レコード情報としてそのまま提供するのと異なり、一般的に安全(リスクがない)と考えられている designed

    by Freepik 例: ECサイトやメディアの事業者・広告主向け管理画面 年齢 性別 住所 年収 32 男性 東京都中央区 650万円 24 女性 神奈川県横浜市 600万円 56 男性 東京都中央区 1000万円 44 女性 千葉県松戸市 950万円 平均年収: 800万円 PDFレポート/Excelファイル BIダッシュボード
  6. 11 © LayerX Inc. 平均年収:800万円 平均年収:799.9万円 Aさん在籍時の合計年収 = 平均800万円 *

    51人 Aさん退職後の合計年収 = 平均799.9万円 * 50人 Aさんの年収 = 800 * 51 - 799.9 * 50 = 805万円 Aさん在籍時 (51名) Aさん退職後 (50名) ・・・・・・・・・・・・・ ・・・・・・・・・・・・・ たった1000円分の平均年収の変 化から、Aさんの給与がわかって しまう 差分攻撃: 平均年収の例 • しかし、統計情報だけを提供しても、差分から特定個人のデータが炙りだされてしまう • このようなリスクに関する研究が、1970年代(もしくはもっと前)から長く続いている designed by Freepik
  7. 12 © LayerX Inc. 事例: Facebookの広告システムに対する差分攻撃 • Facebookのカスタムオーディエンス広告において、広告主に対して提供される統計情報に対して差分攻 撃等を行うことで、様々なユーザー情報が推定できたという事例 ◦

    メールアドレスから電話番号を推定、ウェブサイトの閲覧履歴の推定 • 結果、Facebookはこの脆弱性を認め、修正した G. Venkatadri et al., "Privacy Risks with Facebook's PII-Based Targeting: Auditing a Data Broker's Advertising Interface," 2018 IEEE Symposium on Security and Privacy https://www.ftc.gov/system/files/documents/public_events/1223263/p155407privacyconmislove_1.pdf 元々実装されていた、人数の閾値設定や、統計量の丸めなどの防御は簡単に破られた
  8. 13 © LayerX Inc. 再構築攻撃 • 公開された大量の統計情報を連立方程式のように解くことで、元のレコードを復元する攻撃 出典:https://cacm.acm.org/magazines/2019/3/234925-understanding-database-reconstruction-attacks-on-public-data/fulltext このように解いていくことで、最終的に地区Aの住 民の情報を復元することが可能となる。

    • ある地区には3人が住んでいる • 年齢の中央値30才、平均値44才 公開した情報 攻撃者による推論 • 125歳を人間の最高齢とする • この地区に住む男性の年齢の組み合わせは、 317,750通り • しかし、中央値・平均値の制約を満たす組み合 わせは、30通りのみ(右図)
  9. 14 © LayerX Inc. 事例:米国国勢調査における再構築攻撃の再現 • 米国国勢調査は、政策決定や学術研究において柔軟に分析するため、大量の統計情報を公開する。 • 後の実験により、2010年度の国勢調査に対し再構築攻撃が可能だったことが明らかに。 米国国勢調査局による実験結果(参考)

    • ブロック、性別、年齢、人種、民族の情報について、全体の46% (1.42億人) を復元 • 年齢の誤差が±1の範囲で、71% (2.19億人) が復元 2010年度の米国国勢調査 注: 上記の実験の妥当性などについては、後に研究が進んでいる 参考: Dick, Travis, et al. "Confidence-ranked reconstruction of census microdata from published statistics." Proceedings of the National Academy of Sciences 120.8 (2023) 出所:https://en.wikipedia.org/wiki/2010_United_States_census, 2010 Census Summary File 1
  10. 16 © LayerX Inc. k-匿名性の前提:間接識別子とは • 氏名や住所など、そのデータだけで個人の識別が可能な情報を「直接識別子」と呼ぶ • 性別や年齢など、他の項目と組み合わせることで個人が特定でき得る情報を「間接識別子」と呼ぶ •

    間接識別子を通じて、攻撃者が持っている外部データと組み合わせることによって識別が起きると考える 病院の元データ 攻撃者所有の外部データ Name Job、Sex、Age Disease 直接識別子 間接識別子 センシティブ属性 そのデータだけで個人の識別が可能 そのデータだけでは個人の識別できない(性別だけをみても、レアに絞ること はできない)が、他の項目と組み合わせることで個人が特定でき得る 守りたい情報 図の出典: https://www.kamishima.net/archive/ppdp.pdf
  11. 17 © LayerX Inc. k-匿名性の定義 • k-匿名性: 同じ間接識別子の組を持つ人がk人以上存在する kが「大きい」ほどリスクは「小さい」 (例:

    k=3) kが「小さい」ほどリスクは「大きい」 (例: k=1) 職業 性別 年齢 病気 エンジニア 男性 35 肝炎 エンジニア 男性 35 ねんざ エンジニア 男性 35 HIV ライター 女性 31 風邪 ライター 女性 31 HIV ライター 女性 31 HIV ライター 女性 31 HIV 職業 性別 年齢 病気 エンジニア 男性 35 肝炎 エンジニア 男性 38 ねんざ 教師 男性 32 HIV ライター 女性 30 風邪 ライター 女性 30 HIV ダンサー 女性 30 HIV ダンサー 女性 30 HIV 間接識別子 センシティ ブ属性 間接識別子 センシティ ブ属性
  12. 18 © LayerX Inc. k-匿名性の問題: 間接識別子を絞ることが難しい Netflixが公開したデータ • 有名なNetflixの事例: 機械学習アルゴリズムのコンペ用に、個人を直接特定できる情報は削除したデータ

    を公開。しかし、他の映画評価サイトと照合し、映画の視聴履歴を用いて同一ユーザーを識別。 • 「この情報は識別に繋がらないだろう」という仮定は、想定外のリスクを生みやすい。 映画評価サイトIMDbのデータ ユーザ 映画名 評価 評価日 abc123 スターウォーズ 5 20xx/6/5 トップガン 5 20xx/6/5 ジュラシック・パーク 2 20xx/6/5 : : スノーデン 5 def456 シンドラーのリスト 3 ゴッドファーザー 5 : : ghi789 プラダを着た悪魔 4 : 映画名 評価 コメント スタンド・バイ・ミー 4 : : : スターウォーズ 5 ・・・ トップガン 5 ・・・ ジュラシック・パーク 2 ・・・ : : : : スノーデン 5 (特定の思想に関連するコメ ント) : 識別の結果、ユーザーの政治的思想や性 的嗜好が明らかになってしまった 個人を直接特定できる情報は削除したデータを公 開していたが、複数の映画および評価日の組み合 わせから、個人を特定できてしまう 出典:「データ解析におけるプライバシー保護」佐久間淳 を元にLayerXにて作成
  13. 19 © LayerX Inc. k-匿名性の問題: 間接識別子の増加と次元の呪い • 前スライドの事情より、間接識別子は増えやすい (「安全に倒したくなる」気持ち) •

    加えて、実際の使い方としては、匿名化テーブルを1つ生成し、そこから色々な分析結果を出力する形 (理 由は後述)のため、一つのテーブルにたくさんの間接識別子が同居する形になる k-匿名化済みデータ 生データ 中央区 新宿区 … 男性 10人 50人 … 女性 20人 5人 統計分析 必ずしも同時に使わない属性の 組み合わせを残さざるをえない 性別 年齢 居住地 職業 2023年 の傷病 2022年 の傷病 … 男性 35 中央区 会社員 肝炎 風邪 男性 35 新宿区 公務員 ねんざ なし 女性 31 渋谷区 フリー 風邪 インフル … … … … … … … 2022 2023 … 会社員 5人 20人 … 公務員 9人 50人
  14. 20 © LayerX Inc. k-匿名性の問題: 間接識別子の増加と次元の呪い • 間接識別子が増えると、その組み合わせが全く同じ人が存在する可能性は小さくなるため、k人未満として 消えてしまうグループが増え、有用性が悪化する(次元の呪い) •

    特に、履歴データの場合は難しくなる k-匿名化済みデータ 必ずしも同時に使わない属性の 組み合わせを残さざるをえない 性別 年齢 居住地 職業 2023年 の傷病 2022年 の傷病 … 男性 35 中央区 会社員 肝炎 風邪 男性 35 新宿区 公務員 ねんざ なし 女性 31 渋谷区 フリー 風邪 インフル … … … … … … … Charu C. Aggarwal. 2005. On k-anonymity and the curse of dimensionality. In Proceedings of the 31st international conference on Very large data bases (VLDB '05). データの有用性 (残存レコード率) ほとんど 消えてしまう
  15. 21 © LayerX Inc. 代案: ユースケース別の匿名化データの都度抽出 • では、一つ一つの分析のケースごとに分けて、匿名化したデータをその都度抽出するのはどうか? • 一つのテーブルに共存する間接識別子が減ることで、次元の呪いを回避できるか?

    匿 名 化 生データ ユースケースごとに 分割したテーブル or 分析結果を提供 外部企業・ 研究機関等 性別 年齢 居住地 男性 35 中央区 女性 31 渋谷区 … … … 居住地 職業 2022年 の傷病 中央区 会社員 風邪 新宿区 公務員 なし … … …
  16. 22 © LayerX Inc. 都度抽出型の課題: Compositionのリスク • それぞれ単独で安全なテーブル・データも、組み合わせることでリスクが生まれる • つまり、提供したデータを全てまとめて匿名性を評価しないといけない!

    Ganta, Srivatsava Ranjit, Shiva Prasad Kasiviswanathan, and Adam Smith. "Composition attacks and auxiliary information in data privacy." Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 2008. もし攻撃者がAliceについて • Age = 28 • Zip code = 13012 • 両方の病院に行った ことを知っている場合、 AliceはAIDSと分かる (唯一共通しているため) • 異なる2つの病院のデータ • それぞれ4-匿名性, 6-匿名 性あり
  17. 23 © LayerX Inc. 都度抽出型の課題: Compositionを考慮した匿名性の複雑性 • 複数のテーブル・データを横断した匿名性を考慮した手法も存在する • しかし、計算コストが非現実的(多項式時間では計算できない)なものが多い

    • 結果、現在あまり普及している方法はない(当社調べ) 提供したテーブルのレコード同士の関係性をグラフ形式で表現した場合のイメージ 提供したテーブル
  18. 26 © LayerX Inc. 差分プライバシーのイメージ • 統計量などの出力結果に、差分プライバシーの定義を満たすノイズを加える 年齢 性別 住所

    年収 32 男性 東京都中央区 650万円 24 女性 神奈川県横浜市 600万円 56 男性 東京都中央区 1000万円 44 女性 千葉県松戸市 950万円 ノイズ付与後の 平均年収: 810万円 平均年収: 800万円 (真の値) 公開しない 元のデータの 復元が困難 元のパーソナルデータ 差分プライバシー のアルゴリズム +10万円の ノイズを付与
  19. 28 © LayerX Inc. 差分プライバシーの利点: compositionがシンプル • ε1-DP, ε2-DPの出力を組み合わせると、全体はε1+ε2-DPとなる (合成定理)

    • この性質により、compositionを簡単に扱うことができる 差分プライバシーの メカニズム 生データ ε/n-DP n個の出力について全体をε-DP で保護したい場合は、そ れぞれε/n-DPで保護すれば良い ε/n-DP ε/n-DP
  20. 29 © LayerX Inc. データ外部提供における差分プライバシーの活用事例 Linkedinの広告主向けダッシュボードでは、広告 の表示数やクリック数を可視化。ユーザーの閲覧情 報などを逆算する攻撃を防ぐため、差分プライバ シーの亜種を導入。 差分プライバシーの活用事例

    米国 国勢調査局 米国の国勢調査において、人口統計や所得や学歴 などの統計情報を公開する際に、差分プライバシー を活用。 コロナ禍におけるFacebookユーザーの行動情報 (1日の間にユーザーが移動する量と、家にいる人 の数の指標)を疫学研究を目的として公開する上 で、差分プライバシーを活用。 機密性の高いユーザーの位置情報を、社内のデー タサイエンティストがプライバシー保護を担保した まま分析するために、差分プライバシーを活用。 • 政府やビッグテックを中心に、この数年間で活用事例が増えている 参考:差分プライバシーとは - AppleやGoogleも活用する最先端のプライバシー保護技術
  21. 31 © LayerX Inc. 差分プライバシーの有用性の課題 • 実際のユースケースで「普通の」統計分析をしようとすると、ノイズが大きくなりすぎる • 差分プライバシーで終わったかのように見えた、プライバシー保護技術のR&Dはこれからが正念場? ◦

    かなり大きな技術の変化が、もう1, 2サイクル起きるかもしれない(というか必要かもしれない) データ量が足りないケースでは、有用性が実用のネックになる (安全性は問題ない) (米国国勢調査でも議論になっている) 簡略化した例 • ε = 1で10個の統計量を出力 ◦ 個別の統計量は0.1-DPとなる • ノイズの95%信頼区間は約30 • (もっと理論的に良い方法はたくさんある) (注: Laplace mechanism, sensitivity = 1の場合) → プライバシー保護技術は(少なくとも今は)完璧ではない
  22. 33 © LayerX Inc. 今やれることをやるために: 技術選定の重要性 • 社会的意義のあるユースケースについては、完璧ではなくても、今の技術でできる範囲のリスクコントロー ルをした上で、データ提供を進めるべきではないか •

    各業界でベストプラクティスを研究していくことが必要(お気軽にご相談ください!) プ ラ イ バ シ | 保 護 水 準 高 低 有用性 高 低 銀の弾丸 k-匿名化も手段として 完全に否定される わけではない 差分プライバシーの理論的な改善 や緩和が日々研究されている