Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20230425 PRIVACY TECH NIGHT #02 「統計化すれば安全」の罠 ──差分プライバシーの背景

20230425 PRIVACY TECH NIGHT #02 「統計化すれば安全」の罠 ──差分プライバシーの背景

差分プライバシーをはじめとするプライバシー保護技術は、そもそもどんな課題を解決する技術で、それがないとどんな問題が起きてしまうのでしょうか?
一般的には「個人情報・パーソナルデータは、統計情報に加工すれば安全」と考えられており、PDFレポートやWEBのダッシュボードなどの形で外部に提供・公開することは、多くの企業や行政機関が行なっています。しかしながら、本当に「統計化すれば安全」かは非常に複雑で、長い研究の歴史があります。
今回は、このような背景について少し詳細に立ち入りながら、その解決策の一例としての差分プライバシーについて、国内外の事例と合わせて紹介します。

Ryuya Nakamura

April 25, 2023
Tweet

More Decks by Ryuya Nakamura

Other Decks in Research

Transcript

  1. 1
    © LayerX Inc.
    「統計化すれば安全」の罠
    ──差分プライバシーの背景
    2023/4/24 PRIVACY TECH NIGHT #02
    LayerX PrivacyTech事業部長 中村 龍矢

    View Slide

  2. 2
    © LayerX Inc.
    自己紹介
    データ分析・機械学習
    東京大 工学部
    ● データサイエンスと出会う
    Gunosy データ分析部
    ● アプリのデータ分析
    ● 機械学習での分類/推薦
    セキュリティ・形式検証 データプライバシー
    LayerX 創業時からR&D
    ● ブロックチェーンをきっかけに
    セキュリティの研究を始める
    ● Ethereumへのコントリ
    ビューション
    R&Dから新規事業に
    中村 龍矢
    ● LayerX 執行役員 兼 PrivacyTech事業部長
    ● IPA 未踏スーパークリエータ
    ● 2020年度 電子情報通信学会 インターネット
    アーキテクチャ研究賞 最優秀賞 (共著)

    View Slide

  3. 3
    © LayerX Inc.
    本日お話しすること
    ● 統計データの外部提供におけるリスク
    ● プライバシー保護技術の難しさと、差分プライバシー登場の背景
    ○ (自分が勉強し始めた際に知りたかったこと)
    ● プライバシー保護技術の現在地、今後の見通し

    View Slide

  4. 4
    © LayerX Inc.
    LayerX
    PrivacyTech事業の紹介

    View Slide

  5. 5
    © LayerX Inc.
    ● バクラク事業・Fintech事業に続く第三の事業としてPrivacyTech事業を展開
    LayerXの事業紹介

    View Slide

  6. 6
    © LayerX Inc.
    「Anonify(アノニファイ)」とは
    ● 先端的なプライバシー分野の学術研究を土台に、実務的なデータ利活用に応用できるようLayerXが独自
    に開発したプライバシー保護のアルゴリズム群

    View Slide

  7. 7
    © LayerX Inc.
    PrivacyTech事業の取り組み実績
    ● 次世代金融・企業間取引データにおける秘匿化技術を用いた事業検討
    協業事例(一部)
    メディア掲載(抜粋)
    ● 住民意見収集サービスの秘匿集計基盤として採用
    ● 自動車走行データの自治体等外部向け分析サービスを共創
    ● テキストデータ・機械学習へのプライバシー保護技術適用の共同研究
    JCB様
    つくば市様
    リクルート様
    あいおいニッセイ
    同和損保様
    ● 医療データのプライバシー保護に関する共同研究
    JMDC様

    View Slide

  8. 8
    © LayerX Inc.
    「統計化すれば安全」の罠

    View Slide

  9. 9
    © LayerX Inc.
    本日題材とするユースケースのイメージ
    ● 差分プライバシーなどのプライバシーテックの登場パターンは大きく三つに大別される
    ● 本日は、「②収集したデータの外部提供」のパターンを題材に説明
    designed by Freepik
    ③双方向のデータ連携
    (特に名寄せを行う場合)
    ①エンドユーザーからの
    データ収集
    ②収集したデータの外部提供
    ● データビジネス
    ● 大学との共同研究
    ● データコンペ、ハッカソン
    ● 行政・自治体のオープンデータ
    ● 外部委託
    ● etc.

    View Slide

  10. 10
    © LayerX Inc.
    統計データの外部提供
    ● パーソナルデータの外部提供においては、何らかの形で統計情報として提供することが多い
    ● レコード情報としてそのまま提供するのと異なり、一般的に安全(リスクがない)と考えられている
    designed by Freepik
    例: ECサイトやメディアの事業者・広告主向け管理画面
    年齢 性別 住所 年収
    32 男性 東京都中央区 650万円
    24 女性 神奈川県横浜市 600万円
    56 男性 東京都中央区 1000万円
    44 女性 千葉県松戸市 950万円
    平均年収: 800万円
    PDFレポート/Excelファイル
    BIダッシュボード

    View Slide

  11. 11
    © LayerX Inc.
    平均年収:800万円
    平均年収:799.9万円
    Aさん在籍時の合計年収
    = 平均800万円 * 51人
    Aさん退職後の合計年収
    = 平均799.9万円 * 50人
    Aさんの年収
    = 800 * 51 - 799.9 *
    50
    = 805万円
    Aさん在籍時
    (51名)
    Aさん退職後
    (50名)
    ・・・・・・・・・・・・・
    ・・・・・・・・・・・・・
    たった1000円分の平均年収の変
    化から、Aさんの給与がわかって
    しまう
    差分攻撃: 平均年収の例
    ● しかし、統計情報だけを提供しても、差分から特定個人のデータが炙りだされてしまう
    ● このようなリスクに関する研究が、1970年代(もしくはもっと前)から長く続いている
    designed by Freepik

    View Slide

  12. 12
    © LayerX Inc.
    事例: Facebookの広告システムに対する差分攻撃
    ● Facebookのカスタムオーディエンス広告において、広告主に対して提供される統計情報に対して差分攻
    撃等を行うことで、様々なユーザー情報が推定できたという事例
    ○ メールアドレスから電話番号を推定、ウェブサイトの閲覧履歴の推定
    ● 結果、Facebookはこの脆弱性を認め、修正した
    G. Venkatadri et al., "Privacy Risks with Facebook's PII-Based Targeting: Auditing a Data Broker's
    Advertising Interface," 2018 IEEE Symposium on Security and Privacy
    https://www.ftc.gov/system/files/documents/public_events/1223263/p155407privacyconmislove_1.pdf
    元々実装されていた、人数の閾値設定や、統計量の丸めなどの防御は簡単に破られた

    View Slide

  13. 13
    © LayerX Inc.
    再構築攻撃
    ● 公開された大量の統計情報を連立方程式のように解くことで、元のレコードを復元する攻撃
    出典:https://cacm.acm.org/magazines/2019/3/234925-understanding-database-reconstruction-attacks-on-public-data/fulltext
    このように解いていくことで、最終的に地区Aの住
    民の情報を復元することが可能となる。
    ● ある地区には3人が住んでいる
    ● 年齢の中央値30才、平均値44才
    公開した情報
    攻撃者による推論
    ● 125歳を人間の最高齢とする
    ● この地区に住む男性の年齢の組み合わせは、
    317,750通り
    ● しかし、中央値・平均値の制約を満たす組み合
    わせは、30通りのみ(右図)

    View Slide

  14. 14
    © LayerX Inc.
    事例:米国国勢調査における再構築攻撃の再現
    ● 米国国勢調査は、政策決定や学術研究において柔軟に分析するため、大量の統計情報を公開する。
    ● 後の実験により、2010年度の国勢調査に対し再構築攻撃が可能だったことが明らかに。
    米国国勢調査局による実験結果(参考)
    ● ブロック、性別、年齢、人種、民族の情報について、全体の46% (1.42億人) を復元
    ● 年齢の誤差が±1の範囲で、71% (2.19億人) が復元
    2010年度の米国国勢調査
    注: 上記の実験の妥当性などについては、後に研究が進んでいる
    参考: Dick, Travis, et al. "Confidence-ranked reconstruction of census microdata from published
    statistics." Proceedings of the National Academy of Sciences 120.8 (2023)
    出所:https://en.wikipedia.org/wiki/2010_United_States_census,
    2010 Census Summary File 1

    View Slide

  15. 15
    © LayerX Inc.
    プライバシー保護の難しさ
    〜k-匿名性を例に〜

    View Slide

  16. 16
    © LayerX Inc.
    k-匿名性の前提:間接識別子とは
    ● 氏名や住所など、そのデータだけで個人の識別が可能な情報を「直接識別子」と呼ぶ
    ● 性別や年齢など、他の項目と組み合わせることで個人が特定でき得る情報を「間接識別子」と呼ぶ
    ● 間接識別子を通じて、攻撃者が持っている外部データと組み合わせることによって識別が起きると考える
    病院の元データ 攻撃者所有の外部データ
    Name
    Job、Sex、Age
    Disease
    直接識別子
    間接識別子
    センシティブ属性
    そのデータだけで個人の識別が可能
    そのデータだけでは個人の識別できない(性別だけをみても、レアに絞ること
    はできない)が、他の項目と組み合わせることで個人が特定でき得る
    守りたい情報
    図の出典: https://www.kamishima.net/archive/ppdp.pdf

    View Slide

  17. 17
    © LayerX Inc.
    k-匿名性の定義
    ● k-匿名性: 同じ間接識別子の組を持つ人がk人以上存在する
    kが「大きい」ほどリスクは「小さい」
    (例: k=3)
    kが「小さい」ほどリスクは「大きい」
    (例: k=1)
    職業 性別 年齢 病気
    エンジニア 男性 35 肝炎
    エンジニア 男性 35 ねんざ
    エンジニア 男性 35 HIV
    ライター 女性 31 風邪
    ライター 女性 31 HIV
    ライター 女性 31 HIV
    ライター 女性 31 HIV
    職業 性別 年齢 病気
    エンジニア 男性 35 肝炎
    エンジニア 男性 38 ねんざ
    教師 男性 32 HIV
    ライター 女性 30 風邪
    ライター 女性 30 HIV
    ダンサー 女性 30 HIV
    ダンサー 女性 30 HIV
    間接識別子
    センシティ
    ブ属性
    間接識別子
    センシティ
    ブ属性

    View Slide

  18. 18
    © LayerX Inc.
    k-匿名性の問題: 間接識別子を絞ることが難しい
    Netflixが公開したデータ
    ● 有名なNetflixの事例: 機械学習アルゴリズムのコンペ用に、個人を直接特定できる情報は削除したデータ
    を公開。しかし、他の映画評価サイトと照合し、映画の視聴履歴を用いて同一ユーザーを識別。
    ● 「この情報は識別に繋がらないだろう」という仮定は、想定外のリスクを生みやすい。
    映画評価サイトIMDbのデータ
    ユーザ 映画名 評価 評価日
    abc123 スターウォーズ 5 20xx/6/5
    トップガン 5 20xx/6/5
    ジュラシック・パーク 2 20xx/6/5
    :
    :
    スノーデン 5
    def456 シンドラーのリスト 3
    ゴッドファーザー 5


    ghi789 プラダを着た悪魔 4

    映画名 評価 コメント
    スタンド・バイ・ミー 4



    スターウォーズ 5 ・・・
    トップガン 5 ・・・
    ジュラシック・パーク 2 ・・・
    : :
    : :
    スノーデン 5
    (特定の思想に関連するコメ
    ント)

    識別の結果、ユーザーの政治的思想や性
    的嗜好が明らかになってしまった
    個人を直接特定できる情報は削除したデータを公
    開していたが、複数の映画および評価日の組み合
    わせから、個人を特定できてしまう
    出典:「データ解析におけるプライバシー保護」佐久間淳 を元にLayerXにて作成

    View Slide

  19. 19
    © LayerX Inc.
    k-匿名性の問題: 間接識別子の増加と次元の呪い
    ● 前スライドの事情より、間接識別子は増えやすい (「安全に倒したくなる」気持ち)
    ● 加えて、実際の使い方としては、匿名化テーブルを1つ生成し、そこから色々な分析結果を出力する形 (理
    由は後述)のため、一つのテーブルにたくさんの間接識別子が同居する形になる
    k-匿名化済みデータ
    生データ
    中央区 新宿区 …
    男性 10人 50人 …
    女性 20人 5人
    統計分析
    必ずしも同時に使わない属性の
    組み合わせを残さざるをえない
    性別 年齢 居住地 職業
    2023年
    の傷病
    2022年
    の傷病

    男性 35 中央区 会社員 肝炎 風邪
    男性 35 新宿区 公務員 ねんざ なし
    女性 31 渋谷区 フリー 風邪 インフル
    … … … … … … …
    2022 2023 …
    会社員 5人 20人 …
    公務員 9人 50人

    View Slide

  20. 20
    © LayerX Inc.
    k-匿名性の問題: 間接識別子の増加と次元の呪い
    ● 間接識別子が増えると、その組み合わせが全く同じ人が存在する可能性は小さくなるため、k人未満として
    消えてしまうグループが増え、有用性が悪化する(次元の呪い)
    ● 特に、履歴データの場合は難しくなる
    k-匿名化済みデータ
    必ずしも同時に使わない属性の
    組み合わせを残さざるをえない
    性別 年齢 居住地 職業
    2023年
    の傷病
    2022年
    の傷病

    男性 35 中央区 会社員 肝炎 風邪
    男性 35 新宿区 公務員 ねんざ なし
    女性 31 渋谷区 フリー 風邪 インフル
    … … … … … … …
    Charu C. Aggarwal. 2005. On k-anonymity and the curse of dimensionality. In Proceedings of the 31st
    international conference on Very large data bases (VLDB '05).
    データの有用性
    (残存レコード率)
    ほとんど
    消えてしまう

    View Slide

  21. 21
    © LayerX Inc.
    代案: ユースケース別の匿名化データの都度抽出
    ● では、一つ一つの分析のケースごとに分けて、匿名化したデータをその都度抽出するのはどうか?
    ● 一つのテーブルに共存する間接識別子が減ることで、次元の呪いを回避できるか?



    生データ
    ユースケースごとに
    分割したテーブル or 分析結果を提供
    外部企業・
    研究機関等
    性別 年齢 居住地
    男性 35 中央区
    女性 31 渋谷区
    … … …
    居住地 職業
    2022年
    の傷病
    中央区 会社員 風邪
    新宿区 公務員 なし
    … … …

    View Slide

  22. 22
    © LayerX Inc.
    都度抽出型の課題: Compositionのリスク
    ● それぞれ単独で安全なテーブル・データも、組み合わせることでリスクが生まれる
    ● つまり、提供したデータを全てまとめて匿名性を評価しないといけない!
    Ganta, Srivatsava Ranjit, Shiva Prasad Kasiviswanathan, and Adam Smith. "Composition attacks and auxiliary information in data privacy."
    Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 2008.
    もし攻撃者がAliceについて
    ● Age = 28
    ● Zip code = 13012
    ● 両方の病院に行った
    ことを知っている場合、
    AliceはAIDSと分かる
    (唯一共通しているため)
    ● 異なる2つの病院のデータ
    ● それぞれ4-匿名性, 6-匿名
    性あり

    View Slide

  23. 23
    © LayerX Inc.
    都度抽出型の課題: Compositionを考慮した匿名性の複雑性
    ● 複数のテーブル・データを横断した匿名性を考慮した手法も存在する
    ● しかし、計算コストが非現実的(多項式時間では計算できない)なものが多い
    ● 結果、現在あまり普及している方法はない(当社調べ)
    提供したテーブルのレコード同士の関係性をグラフ形式で表現した場合のイメージ
    提供したテーブル

    View Slide

  24. 24
    © LayerX Inc.
    差分プライバシーの登場

    View Slide

  25. 25
    © LayerX Inc.
    差分プライバシーとは
    ● 2006年に考案された、数学的に証明可能なプライバシー保証を提供するアプローチ
    ● プライバシーを評価する指標は 「ε(イプシロン)」 と呼ばれる (以下、ε-DPと表記)
    差分プライバシーの定義
    εが小さいほど、区別がしにくい → 安全性が高い

    View Slide

  26. 26
    © LayerX Inc.
    差分プライバシーのイメージ
    ● 統計量などの出力結果に、差分プライバシーの定義を満たすノイズを加える
    年齢 性別 住所 年収
    32 男性 東京都中央区 650万円
    24 女性 神奈川県横浜市 600万円
    56 男性 東京都中央区 1000万円
    44 女性 千葉県松戸市 950万円
    ノイズ付与後の
    平均年収: 810万円
    平均年収: 800万円
    (真の値)
    公開しない
    元のデータの
    復元が困難
    元のパーソナルデータ
    差分プライバシー
    のアルゴリズム
    +10万円の
    ノイズを付与

    View Slide

  27. 27
    © LayerX Inc.
    差分プライバシーの利点: 攻撃者仮定をシンプル化できる
    ● 攻撃者がどんな背景知識を持っていても、差分プライバシーの保証に影響はない
    ● よって、k-匿名性と異なり、間接識別子を絞る必要はない
    攻撃者がAさん以外の全てのレコードの値を知っていても
    差分プライバシーの保証は成立する

    View Slide

  28. 28
    © LayerX Inc.
    差分プライバシーの利点: compositionがシンプル
    ● ε1-DP, ε2-DPの出力を組み合わせると、全体はε1+ε2-DPとなる (合成定理)
    ● この性質により、compositionを簡単に扱うことができる
    差分プライバシーの
    メカニズム
    生データ
    ε/n-DP
    n個の出力について全体をε-DP で保護したい場合は、そ
    れぞれε/n-DPで保護すれば良い
    ε/n-DP
    ε/n-DP

    View Slide

  29. 29
    © LayerX Inc.
    データ外部提供における差分プライバシーの活用事例
    Linkedinの広告主向けダッシュボードでは、広告
    の表示数やクリック数を可視化。ユーザーの閲覧情
    報などを逆算する攻撃を防ぐため、差分プライバ
    シーの亜種を導入。
    差分プライバシーの活用事例
    米国
    国勢調査局
    米国の国勢調査において、人口統計や所得や学歴
    などの統計情報を公開する際に、差分プライバシー
    を活用。
    コロナ禍におけるFacebookユーザーの行動情報
    (1日の間にユーザーが移動する量と、家にいる人
    の数の指標)を疫学研究を目的として公開する上
    で、差分プライバシーを活用。
    機密性の高いユーザーの位置情報を、社内のデー
    タサイエンティストがプライバシー保護を担保した
    まま分析するために、差分プライバシーを活用。
    ● 政府やビッグテックを中心に、この数年間で活用事例が増えている
    参考:差分プライバシーとは - AppleやGoogleも活用する最先端のプライバシー保護技術

    View Slide

  30. 30
    © LayerX Inc.
    現状の課題と今後の見通し

    View Slide

  31. 31
    © LayerX Inc.
    差分プライバシーの有用性の課題
    ● 実際のユースケースで「普通の」統計分析をしようとすると、ノイズが大きくなりすぎる
    ● 差分プライバシーで終わったかのように見えた、プライバシー保護技術のR&Dはこれからが正念場?
    ○ かなり大きな技術の変化が、もう1, 2サイクル起きるかもしれない(というか必要かもしれない)
    データ量が足りないケースでは、有用性が実用のネックになる (安全性は問題ない)
    (米国国勢調査でも議論になっている)
    簡略化した例
    ● ε = 1で10個の統計量を出力
    ○ 個別の統計量は0.1-DPとなる
    ● ノイズの95%信頼区間は約30
    ● (もっと理論的に良い方法はたくさんある)
    (注: Laplace mechanism, sensitivity = 1の場合)
    → プライバシー保護技術は(少なくとも今は)完璧ではない

    View Slide

  32. 32
    © LayerX Inc.
    ● とはいえ、差分プライバシーで有用性が出ないデータ提供は諦めるしかないのか?
    ● 技術の研究が進むのを待っている間にも、社会問題解決につながるデータ提供の機会がある
    技術の発展を待たずにやってくるユースケース
    LayerX 会社紹介資料より
    https://speakerdeck.com/layerx/company-deck
    組織横断のデータ流通による社会課題解決への貢献

    View Slide

  33. 33
    © LayerX Inc.
    今やれることをやるために: 技術選定の重要性
    ● 社会的意義のあるユースケースについては、完璧ではなくても、今の技術でできる範囲のリスクコントロー
    ルをした上で、データ提供を進めるべきではないか
    ● 各業界でベストプラクティスを研究していくことが必要(お気軽にご相談ください!)












    有用性 高

    銀の弾丸
    k-匿名化も手段として
    完全に否定される
    わけではない
    差分プライバシーの理論的な改善
    や緩和が日々研究されている

    View Slide

  34. 34
    © LayerX Inc.

    View Slide