20221206 プライバシーエンジニアの仕事 @PRIVACY TECH NIGHT #01 LayerX 中村龍矢

by Ryuya Nakamura

Slide 1

Slide 1 text

1 © LayerX Inc. 「プライバシーエンジニアの仕事」 2022/12/06 PRIVACY TECH NIGHT #01 LayerX PrivacyTech事業部長中村龍矢

Slide 2

Slide 2 text

2 © LayerX Inc. これまで取り組んできたこと自己紹介データ分析・機械学習東京大工学部 ● データサイエンスと出会う Gunosy データ分析部 ● アプリのデータ分析 ● 機械学習での分類/推薦セキュリティ・形式検証プライバシー LayerX 創業時からR&D ● ブロックチェーンをきっかけにセキュリティの研究を始める ● プログラムの形式的検証 ● 分散システムに対する攻撃 R&Dから事業化 ● 今に至る中村龍矢 ● LayerX 執行役員兼 PrivacyTech事業部長 ○ 事業開発と理論研究が半々くらい ● IPA 未踏スーパークリエータ ● 2020年度電子情報通信学会インターネットアーキテクチャ研究賞最優秀賞 (共著)

Slide 3

Slide 3 text

3 © LayerX Inc. 本日のトピックプライバシーエンジニアリングとはどういうものか、当社での例を元に紹介。プライバシーエンジニアリングは、 1. とても「技術的」なもの。（主観的・倫理的なイメージに反して？） 2. データ分析・データエンジニアリングや、セキュリティなど、他分野の経験が活きる。（自分自身の体験） ※個別の技術の詳細には立ち入りません

Slide 4

Slide 4 text

4 © LayerX Inc. LayerX PrivacyTech事業の紹介

Slide 5

Slide 5 text

5 © LayerX Inc. ● SaaS事業・Fintech事業に続く第三の事業としてPrivacyTech事業を展開 LayerXの事業紹介自社プロダクト(SaaS)を提供プライバシー保護 /秘匿化技術三井物産様と合弁会社 SaaS事業 Fintech事業 PrivacyTech事業出資・出向

Slide 6

Slide 6 text

6 © LayerX Inc. ● 世の中にあるデータのうち、データ流通のポテンシャルはまだ数%くらいしか発揮されていない（？） ● 医療、行政、金融など様々な社会問題の解決に繋がるデータソース別の利用シーン（一例）顧客属性データ決済・取引データ移動履歴データスマホ位置情報電子カルテ購買データ TV視聴データ電力利用データ政策立案・改善商圏分析・立地検討マーケティング施策立案・改善製品開発広告などのパーソナライズ事例①：Suica利用データ事例②：電力利用データ ● 駅の利用状況データを通じて人の流れをより正確に把握することによる、観光施策や地域活性化向けの活用を狙うもの。 ● 首都圏を中心に駅ごとの乗降者数のデータなどを集計したレポート「駅カルテ」を作成。 ● スマートメーターを通じて収集した電力データを利用するもの。 ● 特定地域での電力使用状況に基づく商圏分析や、各世帯での電力使用状況に基づく高齢者見守り・再配達削減などに活用を図る。出所：JR東日本、電力・ガス基本政策小委員会パーソナルデータ流通の可能性

Slide 7

Slide 7 text

7 © LayerX Inc. 就職で不利になったり、勤務先で差別されないか・・・パーソナルデータ流通に伴うプライバシーの懸念 ● 学歴、病歴 ● 収入、資産 ● 行動履歴 ● etc. 本人様々な事業者病歴のせいで生命保険に加入できなくなるかも・・・不安 ● しかし、パーソナルデータの外部提供は、ユーザー・ステークホルダーの不安につながる可能性 ● 価値のあるリアルなデータほど、伝統的な大きな企業が保有することが多く、何十年とかけて築き上げてきたユーザー・社会との信頼関係は非常に重要クレカが作れなくなったり、必要な時にお金を借りれられなかったらどうしよう・・・データ取得自分のデータが勝手に売られるのは気持ち悪い！ designed by Freepik

Slide 8

Slide 8 text

8 © LayerX Inc. 「Anonify（アノニファイ）」とは ● 世界中で進む先端的なプライバシー分野の学術研究を土台に、実務的なデータ利活用に応用できるよう LayerXが独自に開発したプライバシー保護のアルゴリズム群

Slide 9

Slide 9 text

9 © LayerX Inc. PrivacyTech事業の取り組み実績 ● 次世代金融における秘匿化技術の活用可能性に関する共同研究 ● 秘匿性を担保した複数企業間の取引記録インフラの事業検討・技術検証協業事例（一部）メディア掲載（抜粋） ● 住民意見収集システムとして採用（秘匿化技術国内初の実用化事例） ● インターネット投票の実現に向け、公職選挙法の規制緩和の提案 ● 「Anonify」を活用した自動車走行データの分析サービスの提供を開始 ● プライバシー保護とデータ利活用のさらなる高度化に向けた共創を開始 ● テキストデータのプライバシー保護技術適用の共同研究 JCB様つくば市様リクルート様あいおいニッセイ同和損保様

Slide 10

Slide 10 text

10 © LayerX Inc. あいおいニッセイ同和損害保険さまの事例 ● 保険加入者様の自動車走行データを用いたデータ分析サービスを、Anonifyを用いて、プライバシー保護をした形で実現。 ● 急ブレーキ等の危険挙動を、場所や、性別や年齢情報等の様々な切り口で分析が可能。 ● 自治体様に提供することで、交通安全対策に用いるなど。 ○ 結果的に交通事故が削減されれば、保険金の支払いも減り本業にもシナジーがある ○ （単なる「データ販売」に限らないデータ外部提供の事例）出所：2022年6月30日付け、LayerXプレスリリース

Slide 11

Slide 11 text

11 © LayerX Inc. プライバシーエンジニアリングとは

Slide 12

Slide 12 text

12 © LayerX Inc. プライバシーエンジニアリングとは https://chat.openai.com ● 話題のChatGPTに聞いてみたその他、NISTの定義などもあるよ！

Slide 13

Slide 13 text

13 © LayerX Inc. プライバシーエンジニアという仕事 https://jobs.apple.com/en-us/details/200423409/platform-privacy-engineer https://careers.mastercard.com/us/en/job/R-184152/Vice-Preside nt-Privacy-Engineer https://www.metacareers.com/v2/jobs/431958232249790/ ● 「Privacy Engineer」という職種の求人も見かける Meta (Facebook) Mastercard Apple

Slide 14

Slide 14 text

14 © LayerX Inc. プライバシーエンジニアリングの登場パターン ● プライバシーエンジニアリングの登場パターンを大きく三つに大別 ● 本日は、LayerXで多いパターンである「②一方通行のデータ提供」を題材に紹介 designed by Freepik ③双方向のデータ連携（特に名寄せを行う場合） ②一方通行のデータ提供 →本日の題材注: 個別のプライバシー保護の要素技術は、上記の分類に一対一対応するわけではなく、組み合わせて使われる（差分プライバシーはどこにでも登場する） ①エンドユーザーからのデータ収集

Slide 15

Slide 15 text

15 © LayerX Inc. プライバシーエンジニアリングの流れ ● 以下の4つのフェーズに沿って、何をやるのか、どんな能力が必要とされるのかを紹介 ①プライバシー保護の要件定義 ②プライバシー保護技術の選定 ④選定した技術の実装と運用 ③選定した技術の検証

Slide 16

Slide 16 text

16 © LayerX Inc. プライバシーエンジニアリングの流れ〜①要件定義フェーズ〜

Slide 17

Slide 17 text

17 © LayerX Inc. ● 今回題材にしている「データ外部提供におけるプライバシー保護」では、基本的には、攻撃者が出力結果を見て、個人に関するデータを推定しようとすることを防ぐ ● 要件定義では、プライバシーを保証するための様々な「前提」「仮定」を整理する ○ 仮定が間違っていると、そのプライバシー保証に意味がなくなるので注意！要件定義フェーズとは元データプライバシー保護データオーナーデータ利用者攻撃者？出力出力出力注: 攻撃者は必ずしも「悪意のあるハッカー」だけではない！（悪意のないデータ利用者が、データから示唆を得ようと試行錯誤するうちに自然と「n1分析」的に、個に行き着く可能性もある）

Slide 18

Slide 18 text

18 © LayerX Inc. 攻撃者はどんな背景知識を保有するのか ● 出力と組み合わせることのできる、他のパーソナルデータを保有しているか ○ 例: 提供先の運営するサービスの顧客情報 ○ 例: 有名人やニュースで報道された人に関する情報 ○ 例: 他社から購入した他のパーソナルデータ ● 最も重要なのが、攻撃者は誰で、どんな背景知識を保有するかという仮定要件定義: 攻撃者仮定攻撃者？出力出力出力データにアクセスしうる人は誰か ● WEB上にパブリックに公開するものか ○ 例: オープンデータ化のユースケース ● 提供先に限定されているのか ○ 例: 信用できる相手 & 契約締結をする

Slide 19

Slide 19 text

19 © LayerX Inc. 仮定を置く際の注意①: 漏れても良い情報かどうかの判断は難しい Netﬂixが公開したデータ ● 有名なNetflixの事例: 機械学習アルゴリズムのコンペ用に、個人を直接特定できる情報は削除したデータを公開。しかし、他の映画評価サイトと照合することで、映画の視聴履歴から、ユーザーの政治的思考・性的嗜好が特定可能であることが後に明らかになった。 ● 「この情報はセンシティブではないだろう」という仮定は、想定外のリスクを生みやすい。映画評価サイトIMDbのデータユーザ映画名評価評価日 abc123 スターウォーズ 5 20xx/6/5 トップガン 5 20xx/6/5 ジュラシック・パーク 2 20xx/6/5 : : スノーデン 5 def456 シンドラーのリスト 3 ゴッドファーザー 5 ：： ghi789 プラダを着た悪魔 4 ：映画名評価コメントスタンド・バイ・ミー 4 ：：：スターウォーズ 5 ・・・トップガン 5 ・・・ジュラシック・パーク 2 ・・・ : ： : ：スノーデン 5 （特定の思想に関連するコメント）：識別の結果、ユーザーの政治的思想や性的嗜好が明らかになってしまった個人を直接特定できる情報は削除したデータを公開していたが、複数の映画および評価日の組み合わせから、個人を特定できてしまう週末に見たスターウォーズとトップガンは良かった！ジュラシックパークはイマイチだったな出典：「データ解析におけるプライバシー保護」佐久間淳を元にLayerXにて作成

Slide 20

Slide 20 text

20 © LayerX Inc. 仮定を置く際の注意②: 攻撃手法を限定することは難しい地区Aにおける人口統計 ※3人未満の場合は非公開（(D)） ● 再構築攻撃: 大量に公開された統計情報を連立方程式のように解くことで、元のレコードを復元する攻撃。 ○ 一般的な線形計画ソルバーを使えば、ノートPCで可能。 ● プライバシー系の攻撃は、暗号解読とは異なり、莫大な計算リソースは必要ないものがほとんど。統計2Bは、男性が3人住んでいることを示す。 125歳を人間の最高齢とみなすと、この地区に住む男性の年齢の組み合わせは、317,750通り存在する。しかし、317,750通りの年齢の組み合わせの中で、中央値30才、平均値44才の制約を満たす組み合わせは、30通りに絞られる。出典：https://cacm.acm.org/magazines/2019/3/234925-understanding-database-r econstruction-attacks-on-public-data/fulltext このように公開された統計情報から得られる様々な制約条件から連立方程式を立て、解いていくことで、最終的に地区Aの住民の情報を復元することが可能となる。

Slide 21

Slide 21 text

21 © LayerX Inc. プライバシー保護の仮定とアカウンタビリティ事業者/利用側の視点エンドユーザー/社会の視点 ● まさか自分たちはプライバシー侵害なんてしない ● データ提供先の人は信頼できるし、悪意のある攻撃をする人なんでいないだろう ● 基本的には、プライバシー保護の仮定はシンプルかつ汎用的であることが望ましい ● 「そんな攻撃は起きないはず」などと仮定が強いものになりすぎると、 ○ 仮定を間違えたり、将来的にその仮定が成立しなくなるケースが出てきやすくなる ○ ステークホルダーに納得いただくのが困難になる「この情報はセンシティブではないから最悪漏れても問題ない」などの主観的な仮定を避けることで、プライバシーエンジニアリングは客観的・技術的な問題解決に集中できる。差分プライバシーは、（種類にもよるが）仮定をあまり緩和せずにプライバシーを保証できるのが強み。 ● 自分のデータが変なことに使われないか不安 ● データ提供先の顔が見えない、信頼できる人なのかわからない

Slide 22

Slide 22 text

22 © LayerX Inc. 要件定義フェーズ: セキュリティ分野との共通点 ● 脅威モデルと、システムの守るべき要件を定め、採用する保護手法がその要件を満たすことを証明する ● リスクとその対策をわかりやすくステークホルダーにコミュニケーションする ● 安全性と有用性・利便性はトレードオフにあり、その狭間でもがき続ける

Slide 23

Slide 23 text

23 © LayerX Inc. プライバシーエンジニアリングの流れ〜②技術選定フェーズ〜

Slide 24

Slide 24 text

24 © LayerX Inc. 技術選定フェーズとは ● 定義した要件を満たすプライバシー保護技術・アルゴリズムを選定する ● いきなり具体的な加工アルゴリズムを考えるのではなく、プライバシー保護の理論的な「定義」を定める ● 補足: 差分プライバシー自体はプライバシー保護の「定義」であり、一つの加工方法ではない定義を満たすアルゴリズムの構成プライバシー保護の定義（例:差分プライバシー）出典: https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

Slide 25

Slide 25 text

25 © LayerX Inc. 余談: 合成データによるプライバシー保護？ ● 合成データ: 元データの特徴を機械学習モデル等で学習し、似ている架空のデータを生成する手法 ● ただし、合成データにしたからといってプライバシーが保護されるわけではない ○ 合成データから元データを復元する攻撃が盛んに研究されている ○ 何らかのプライバシー保護要件を定義し、それを満たす合成/学習方法を構成しないといけない ■ 差分プライバシーを保護した合成データ生成も可能（他のプライバシー要件の研究もある）合成データのモデルが元データを「記憶」している可能性

Slide 26

Slide 26 text

26 © LayerX Inc. 技術選定における候補の豊富さ ● プライバシー保護の定義も、それを満たすアルゴリズムも沢山ある ● ユースケースごとに適切なものを選ぶ必要増え続ける差分プライバシーの定義 Desfontaines, Damien, and Balázs Pejó. "Sok: differential privacies." Proceedings on privacy enhancing technologies 2020.2 (2020): 288-313.

Slide 27

Slide 27 text

27 © LayerX Inc. 安全性と有用性のトレードオフ ● 安全性も有用性も完璧という「銀の弾丸」は存在しない（ことが証明されている） ● LayerXでは、組織間のデータ提供のユースケースに絞った最適解を研究し続けているプライバシ｜保護水準高低有用性高低銀の弾丸

Slide 28

Slide 28 text

Slide 29

Slide 29 text

29 © LayerX Inc. 技術検証フェーズとは ● プライバシー保護の結果、多かれ少なかれデータの有用性は下がる ○ 一部の情報が削除されたり、データにノイズが付与されたりする ● そこで、有用性を評価するシミュレーションや、必要に応じてサンプルデータでの実験を行う ○ 機械学習の実験と似て、Python + Jupyter notebookでやることも多い ● 実用可能な有用性を達成するべく、技術選定をやり直しながら、試行錯誤が続く有用性評価実験 ● プライバシー保護を行わない場合と比べてどれくらい悪化するか？ ● （比較対象のプライバシー保護手法がある場合）どちらが優れているか？

Slide 30

Slide 30 text

30 © LayerX Inc. 技術検証フェーズ: データ分析力が肝 ● 技術検証フェーズは「データ分析そのもの」であり、分析力が求められる ○ 機械学習でのモデル選定やチューニングのスキルと近い ● また、データ分析ノウハウを活かして「データ利用者のやりたいこと」から問題を分解・迂回できるプライバシー保護したまま提供できる情報データ利用者がやりたいことココを探すことが重要で、そのためにデータ活用力が必要ここで試行錯誤しても意味がないここは諦めるしかない

Slide 31

Slide 31 text

Slide 32

Slide 32 text

32 © LayerX Inc. 実装・運用フェーズとは ● 選定したプライバシー保護技術を、業務で使えるようにデータ基盤に実装する ● LayerXでも独自のプライバシー保護データ基盤を開発している ○ 社内で活用するパターンと、お客様向けにサービスとして提供するパターンがある

Slide 33

Slide 33 text

33 © LayerX Inc. 実装・運用フェーズ: データエンジニアリング力が肝 ● 元データから、最終的な出力まで、前処理・プライバシー保護処理の一連のステップは非常に複雑 ● その中で、データ処理の品質を担保し、問題発生時に対処しやすくするDataOpsが重要 ● また、パーソナルデータはサイズが大きく、プライバシー保護処理のパフォーマンス向上が必要なことも stage 0 データレイク stage 1 前処理 stage 2 ファクトテーブル stage 3 プライバシー保護前処理 stage 4 プライバシー保護・評価 stage 5 データマート生データ社外社内社内分析者社外分析者データアプリケーション LayerXのデータ基盤のイメージ

Slide 34

Slide 34 text

34 © LayerX Inc. 実装・運用フェーズ: データエンジニアリング力が肝 ● 詳しくは、PrivacyTech事業部リードエンジニアのOsukeさんの下記資料を参照「dbtを中心に据えたデータ分析とプロダクト開発」 https://speakerdeck.com/osuke/dbtwozhong-xin-niju-eta-detafen-xi-topurodakutokai-fa

Slide 35

Slide 35 text

Slide 36

Slide 36 text

36 © LayerX Inc. まとめ ● プライバシーエンジニアリングの流れを紹介 ○ 要件定義→技術選定→技術検証→実装・運用 ● プライバシーエンジニアリングでは、理論的・技術的に問題を解決する ○ 主観的・水掛け論になる仮定はなるべく排除する ● プライバシーエンジニアリングには、データ分析・データエンジニアリングや、セキュリティなど、他分野の経験が活きる！