Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20221206 プライバシーエンジニアの仕事 @PRIVACY TECH NIGHT #01 LayerX 中村龍矢

20221206 プライバシーエンジニアの仕事 @PRIVACY TECH NIGHT #01 LayerX 中村龍矢

LayerXのPrivacyTech事業部では、差分プライバシーをはじめとするプライバシー保護技術を使って、金融・医療・行政等のパーソナルデータを、企業・組織横断で活用する事業に取り組んでいます。多くの人にとって、プライバシー保護技術は一見馴染みがないように見えるかもしれませんが、そんなことはありません。データ分析、データエンジニアリング、統計学、セキュリティの技術と密接な関わりがあり、色々なバックグラウンドの人が活躍しうる分野だと思います。この講演では、プライバシー保護技術を活用するサービス・プロダクトが、日々どんな業務・技術的なチャレンジによって作られているのか、LayerXの事例に基づいて紹介します。

Ryuya Nakamura

December 06, 2022
Tweet

More Decks by Ryuya Nakamura

Other Decks in Technology

Transcript

  1. 2 © LayerX Inc. これまで取り組んできたこと 自己紹介 データ分析・機械学習 東京大 工学部 •

    データサイエンスと出会う Gunosy データ分析部 • アプリのデータ分析 • 機械学習での分類/推薦 セキュリティ・形式検証 プライバシー LayerX 創業時からR&D • ブロックチェーンをきっかけにセ キュリティの研究を始める • プログラムの形式的検証 • 分散システムに対する攻撃 R&Dから事業化 • 今に至る 中村 龍矢 • LayerX 執行役員 兼 PrivacyTech事業部長 ◦ 事業開発と理論研究が半々くらい • IPA 未踏スーパークリエータ • 2020年度 電子情報通信学会 インターネット アーキテクチャ研究賞 最優秀賞 (共著)
  2. 3 © LayerX Inc. 本日のトピック プライバシーエンジニアリングとはどういうものか、当社での例を元に紹介。 プライバシーエンジニアリングは、 1. とても「技術的」なもの。(主観的・倫理的なイメージに反して?) 2.

    データ分析・データエンジニアリングや、セキュリティなど、他分野の経験が活き る。(自分自身の体験) ※個別の技術の詳細には立ち入りません
  3. 6 © LayerX Inc. • 世の中にあるデータのうち、データ流通のポテンシャルはまだ数%くらいしか発揮されていない(?) • 医療、行政、金融など様々な社会問題の解決に繋がる データソース別の利用シーン(一例) 顧客属性データ

    決済・取引データ 移動履歴データ スマホ位置情報 電子カルテ 購買データ TV視聴データ 電力利用データ 政策立案・改善 商圏分析 ・立地検討 マーケティング 施策立案・改善 製品開発 広告などの パーソナライズ 事例①:Suica利用データ 事例②:電力利用データ • 駅の利用状況データを通じて人の流れをより正確に把握することによ る、観光施策や地域活性化向けの活用を狙うもの。 • 首都圏を中心に駅ごとの乗降者数のデータなどを集計したレポート 「駅カルテ」を作成。 • スマートメーターを通じて収集した電力データを利用するもの。 • 特定地域での電力使用状況に基づく商圏分析や、各世帯での電力使用 状況に基づく高齢者見守り・再配達削減などに活用を図る。 出所:JR東日本、電力・ガス基本政策小委員会 パーソナルデータ流通の可能性
  4. 7 © LayerX Inc. 就職で不利になったり、 勤務先で差別されないか・・・ パーソナルデータ流通に伴うプライバシーの懸念 • 学歴、病歴 •

    収入、資産 • 行動履歴 • etc. 本人 様々な事業者 病歴のせいで生命保険に加入できなく なるかも・・・ 不安 • しかし、パーソナルデータの外部提供は、ユーザー・ステークホルダーの不安につながる可能性 • 価値のあるリアルなデータほど、伝統的な大きな企業が保有することが多く、何十年とかけて築き上げてき たユーザー・社会との信頼関係は非常に重要 クレカが作れなくなったり、必要な時に お金を借りれられなかったらどうしよ う・・・ データ取得 自分のデータが勝手に 売られるのは気持ち悪い! designed by Freepik
  5. 9 © LayerX Inc. PrivacyTech事業の取り組み実績 • 次世代金融における秘匿化技術の活用可能性に関する共同研究 • 秘匿性を担保した複数企業間の取引記録インフラの事業検討・技術検証 協業事例(一部)

    メディア掲載(抜粋) • 住民意見収集システムとして採用(秘匿化技術国内初の実用化事例) • インターネット投票の実現に向け、公職選挙法の規制緩和の提案 • 「Anonify」を活用した自動車走行データの分析サービスの提供を開始 • プライバシー保護とデータ利活用のさらなる高度化に向けた共創を開始 • テキストデータのプライバシー保護技術適用の共同研究 JCB様 つくば市様 リクルート様 あいおいニッセイ 同和損保様
  6. 10 © LayerX Inc. あいおいニッセイ同和損害保険さまの事例 • 保険加入者様の自動車走行データを用いたデータ分析サービスを、Anonifyを用いて、プライバシー保護 をした形で実現。 • 急ブレーキ等の危険挙動を、場所や、性別や年齢情報等の様々な切り口で分析が可能。

    • 自治体様に提供することで、交通安全対策に用いるなど。 ◦ 結果的に交通事故が削減されれば、保険金の支払いも減り本業にもシナジーがある ◦ (単なる「データ販売」に限らないデータ外部提供の事例) 出所:2022年6月30日付け、LayerXプレスリリース
  7. 14 © LayerX Inc. プライバシーエンジニアリングの登場パターン • プライバシーエンジニアリングの登場パターンを大きく三つに大別 • 本日は、LayerXで多いパターンである「②一方通行のデータ提供」を題材に紹介 designed

    by Freepik ③双方向のデータ連携 (特に名寄せを行う場合) ②一方通行のデータ提供 →本日の題材 注: 個別のプライバシー保護の要素技術は、上記の分類に一対一対応するわけではなく、組み合わせて使われる (差分プライバシーはどこにでも登場する) ①エンドユーザーからの データ収集
  8. 17 © LayerX Inc. • 今回題材にしている「データ外部提供におけるプライバシー保護」では、基本的には、攻撃者が出力結果を 見て、個人に関するデータを推定しようとすることを防ぐ • 要件定義では、プライバシーを保証するための様々な「前提」「仮定」を整理する ◦

    仮定が間違っていると、そのプライバシー保証に意味がなくなるので注意! 要件定義フェーズとは 元データ プライバシー 保護 データオーナー データ利用者 攻撃者 ? 出力 出力 出力 注: 攻撃者は必ずしも「悪意のあるハッ カー」だけではない! (悪意のないデータ利用者が、データから 示唆を得ようと試行錯誤するうちに自然 と「n1分析」的に、個に行き着く可能性も ある)
  9. 18 © LayerX Inc. 攻撃者はどんな背景知識を保有するのか • 出力と組み合わせることのできる、他のパーソナルデータを 保有しているか ◦ 例:

    提供先の運営するサービスの顧客情報 ◦ 例: 有名人やニュースで報道された人に関する情報 ◦ 例: 他社から購入した他のパーソナルデータ • 最も重要なのが、攻撃者は誰で、どんな背景知識を保有するかという仮定 要件定義: 攻撃者仮定 攻撃者 ? 出力 出力 出力 データにアクセスしうる人は誰か • WEB上にパブリックに公開するものか ◦ 例: オープンデータ化のユースケース • 提供先に限定されているのか ◦ 例: 信用できる相手 & 契約締結をする
  10. 19 © LayerX Inc. 仮定を置く際の注意①: 漏れても良い情報かどうかの判断は難しい Netflixが公開したデータ • 有名なNetflixの事例: 機械学習アルゴリズムのコンペ用に、個人を直接特定できる情報は削除したデータ

    を公開。しかし、他の映画評価サイトと照合することで、映画の視聴履歴から、ユーザーの政治的思考・性的 嗜好が特定可能であることが後に明らかになった。 • 「この情報はセンシティブではないだろう」という仮定は、想定外のリスクを生みやすい。 映画評価サイトIMDbのデータ ユーザ 映画名 評価 評価日 abc123 スターウォーズ 5 20xx/6/5 トップガン 5 20xx/6/5 ジュラシック・パーク 2 20xx/6/5 : : スノーデン 5 def456 シンドラーのリスト 3 ゴッドファーザー 5 : : ghi789 プラダを着た悪魔 4 : 映画名 評価 コメント スタンド・バイ・ミー 4 : : : スターウォーズ 5 ・・・ トップガン 5 ・・・ ジュラシック・パーク 2 ・・・ : : : : スノーデン 5 (特定の思想に関連するコメ ント) : 識別の結果、ユーザーの政治的思想や性 的嗜好が明らかになってしまった 個人を直接特定できる情報は削除したデータを公 開していたが、複数の映画および評価日の組み合 わせから、個人を特定できてしまう 週末に見たスターウォーズと トップガンは良かった! ジュラシックパークはイマイチ だったな 出典:「データ解析におけるプライバシー保護」佐久間淳 を元にLayerXにて作成
  11. 20 © LayerX Inc. 仮定を置く際の注意②: 攻撃手法を限定することは難しい 地区Aにおける人口統計 ※3人未満の場合は非公開((D)) • 再構築攻撃:

    大量に公開された統計情報を連立方程式のように解くことで、元のレコードを復元する攻撃。 ◦ 一般的な線形計画ソルバーを使えば、ノートPCで可能。 • プライバシー系の攻撃は、暗号解読とは異なり、莫大な計算リソースは必要ないものがほとんど。 統計2Bは、男性が3人住んでいることを示す。 125歳を人間の最高齢とみなすと、この地区に住む男性の年齢の組 み合わせは、317,750通り存在する。 しかし、317,750通りの年齢の組み合わせの中で、中央値30才、 平均値44才の制約を満たす組み合わせは、30通りに絞られる。 出典 :https://cacm.acm.org/magazines/2019/3/234925-understanding-database-r econstruction-attacks-on-public-data/fulltext このように公開された統計情報から得られる様々な制約条件から連 立方程式を立て、解いていくことで、最終的に地区Aの住民の情報 を復元することが可能となる。
  12. 21 © LayerX Inc. プライバシー保護の仮定とアカウンタビリティ 事業者/利用側の視点 エンドユーザー/社会の視点 • まさか自分たちはプライバシー侵害 なんてしない

    • データ提供先の人は信頼できるし、 悪意のある攻撃をする人なんでいな いだろう • 基本的には、プライバシー保護の仮定はシンプルかつ汎用的であることが望ましい • 「そんな攻撃は起きないはず」などと仮定が強いものになりすぎると、 ◦ 仮定を間違えたり、将来的にその仮定が成立しなくなるケースが出てきやすくなる ◦ ステークホルダーに納得いただくのが困難になる 「この情報はセンシティブではないから最悪漏れても問題ない」などの主観的な仮定を避けることで、 プライバシーエンジニアリングは客観的・技術的な問題解決に集中できる。 差分プライバシーは、(種類にもよるが)仮定をあまり緩和せずにプライバシーを保証できるのが強み。 • 自分のデータが変なことに使われな いか不安 • データ提供先の顔が見えない、信頼 できる人なのかわからない
  13. 24 © LayerX Inc. 技術選定フェーズとは • 定義した要件を満たすプライバシー保護技術・アルゴリズムを選定する • いきなり具体的な加工アルゴリズムを考えるのではなく、プライバシー保護の理論的な「定義」を定める •

    補足: 差分プライバシー自体はプライバシー保護の「定義」であり、一つの加工方法ではない 定義を満たすアルゴリズムの構成 プライバシー保護の定義 (例:差分プライバシー) 出典: https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf
  14. 25 © LayerX Inc. 余談: 合成データによるプライバシー保護? • 合成データ: 元データの特徴を機械学習モデル等で学習し、似ている架空のデータを生成する手法 •

    ただし、合成データにしたからといってプライバシーが保護されるわけではない ◦ 合成データから元データを復元する攻撃が盛んに研究されている ◦ 何らかのプライバシー保護要件を定義し、それを満たす合成/学習方法を構成しないといけない ▪ 差分プライバシーを保護した合成データ生成も可能(他のプライバシー要件の研究もある) 合成データのモデルが 元データを「記憶」している可能性
  15. 29 © LayerX Inc. 技術検証フェーズとは • プライバシー保護の結果、多かれ少なかれデータの有用性は下がる ◦ 一部の情報が削除されたり、データにノイズが付与されたりする •

    そこで、有用性を評価するシミュレーションや、必要に応じてサンプルデータでの実験を行う ◦ 機械学習の実験と似て、Python + Jupyter notebookでやることも多い • 実用可能な有用性を達成するべく、技術選定をやり直しながら、試行錯誤が続く 有用性評価実験 • プライバシー保護を行わない場合と比べて どれくらい悪化するか? • (比較対象のプライバシー保護手法がある場 合)どちらが優れているか?
  16. 30 © LayerX Inc. 技術検証フェーズ: データ分析力が肝 • 技術検証フェーズは「データ分析そのもの」であり、分析力が求められる ◦ 機械学習でのモデル選定やチューニングのスキルと近い

    • また、データ分析ノウハウを活かして「データ利用者のやりたいこと」から問題を分解・迂回できる プライバシー保護したまま 提供できる情報 データ利用者が やりたいこと ココを探すことが重要で、 そのためにデータ活用力が必要 ここで試行錯誤しても 意味がない ここは諦めるしかない
  17. 33 © LayerX Inc. 実装・運用フェーズ: データエンジニアリング力が肝 • 元データから、最終的な出力まで、前処理・プライバシー保護処理の一連のステップは非常に複雑 • その中で、データ処理の品質を担保し、問題発生時に対処しやすくするDataOpsが重要

    • また、パーソナルデータはサイズが大きく、プライバシー保護処理のパフォーマンス向上が必要なことも stage 0 データレイク stage 1 前処理 stage 2 ファクトテーブル stage 3 プライバシー保護 前処理 stage 4 プライバシー保護 ・評価 stage 5 データマート 生データ 社外 社内 社内分析者 社外分析者 データアプリケーション LayerXのデータ基盤のイメージ
  18. 36 © LayerX Inc. まとめ • プライバシーエンジニアリングの流れを紹介 ◦ 要件定義→技術選定→技術検証→実装・運用 •

    プライバシーエンジニアリングでは、理論的・技術的に問題を解決する ◦ 主観的・水掛け論になる仮定はなるべく排除する • プライバシーエンジニアリングには、データ分析・データエンジニアリングや、セキュ リティなど、他分野の経験が活きる!