Slide 1

Slide 1 text

1 © LayerX Inc. 「プライバシーエンジニアの仕事」 2022/12/06 PRIVACY TECH NIGHT #01 LayerX PrivacyTech事業部長 中村 龍矢

Slide 2

Slide 2 text

2 © LayerX Inc. これまで取り組んできたこと 自己紹介 データ分析・機械学習 東京大 工学部 ● データサイエンスと出会う Gunosy データ分析部 ● アプリのデータ分析 ● 機械学習での分類/推薦 セキュリティ・形式検証 プライバシー LayerX 創業時からR&D ● ブロックチェーンをきっかけにセ キュリティの研究を始める ● プログラムの形式的検証 ● 分散システムに対する攻撃 R&Dから事業化 ● 今に至る 中村 龍矢 ● LayerX 執行役員 兼 PrivacyTech事業部長 ○ 事業開発と理論研究が半々くらい ● IPA 未踏スーパークリエータ ● 2020年度 電子情報通信学会 インターネット アーキテクチャ研究賞 最優秀賞 (共著)

Slide 3

Slide 3 text

3 © LayerX Inc. 本日のトピック プライバシーエンジニアリングとはどういうものか、当社での例を元に紹介。 プライバシーエンジニアリングは、 1. とても「技術的」なもの。(主観的・倫理的なイメージに反して?) 2. データ分析・データエンジニアリングや、セキュリティなど、他分野の経験が活き る。(自分自身の体験) ※個別の技術の詳細には立ち入りません

Slide 4

Slide 4 text

4 © LayerX Inc. LayerX PrivacyTech事業の紹介

Slide 5

Slide 5 text

5 © LayerX Inc. ● SaaS事業・Fintech事業に続く第三の事業としてPrivacyTech事業を展開 LayerXの事業紹介 自社プロダクト(SaaS)を提供 プライバシー保護 /秘匿化技術 三井物産様と合弁会社 SaaS事業 Fintech事業 PrivacyTech事業 出資・出向

Slide 6

Slide 6 text

6 © LayerX Inc. ● 世の中にあるデータのうち、データ流通のポテンシャルはまだ数%くらいしか発揮されていない(?) ● 医療、行政、金融など様々な社会問題の解決に繋がる データソース別の利用シーン(一例) 顧客属性データ 決済・取引データ 移動履歴データ スマホ位置情報 電子カルテ 購買データ TV視聴データ 電力利用データ 政策立案・改善 商圏分析 ・立地検討 マーケティング 施策立案・改善 製品開発 広告などの パーソナライズ 事例①:Suica利用データ 事例②:電力利用データ ● 駅の利用状況データを通じて人の流れをより正確に把握することによ る、観光施策や地域活性化向けの活用を狙うもの。 ● 首都圏を中心に駅ごとの乗降者数のデータなどを集計したレポート 「駅カルテ」を作成。 ● スマートメーターを通じて収集した電力データを利用するもの。 ● 特定地域での電力使用状況に基づく商圏分析や、各世帯での電力使用 状況に基づく高齢者見守り・再配達削減などに活用を図る。 出所:JR東日本、電力・ガス基本政策小委員会 パーソナルデータ流通の可能性

Slide 7

Slide 7 text

7 © LayerX Inc. 就職で不利になったり、 勤務先で差別されないか・・・ パーソナルデータ流通に伴うプライバシーの懸念 ● 学歴、病歴 ● 収入、資産 ● 行動履歴 ● etc. 本人 様々な事業者 病歴のせいで生命保険に加入できなく なるかも・・・ 不安 ● しかし、パーソナルデータの外部提供は、ユーザー・ステークホルダーの不安につながる可能性 ● 価値のあるリアルなデータほど、伝統的な大きな企業が保有することが多く、何十年とかけて築き上げてき たユーザー・社会との信頼関係は非常に重要 クレカが作れなくなったり、必要な時に お金を借りれられなかったらどうしよ う・・・ データ取得 自分のデータが勝手に 売られるのは気持ち悪い! designed by Freepik

Slide 8

Slide 8 text

8 © LayerX Inc. 「Anonify(アノニファイ)」とは ● 世界中で進む先端的なプライバシー分野の学術研究を土台に、実務的なデータ利活用に応用できるよう LayerXが独自に開発したプライバシー保護のアルゴリズム群

Slide 9

Slide 9 text

9 © LayerX Inc. PrivacyTech事業の取り組み実績 ● 次世代金融における秘匿化技術の活用可能性に関する共同研究 ● 秘匿性を担保した複数企業間の取引記録インフラの事業検討・技術検証 協業事例(一部) メディア掲載(抜粋) ● 住民意見収集システムとして採用(秘匿化技術国内初の実用化事例) ● インターネット投票の実現に向け、公職選挙法の規制緩和の提案 ● 「Anonify」を活用した自動車走行データの分析サービスの提供を開始 ● プライバシー保護とデータ利活用のさらなる高度化に向けた共創を開始 ● テキストデータのプライバシー保護技術適用の共同研究 JCB様 つくば市様 リクルート様 あいおいニッセイ 同和損保様

Slide 10

Slide 10 text

10 © LayerX Inc. あいおいニッセイ同和損害保険さまの事例 ● 保険加入者様の自動車走行データを用いたデータ分析サービスを、Anonifyを用いて、プライバシー保護 をした形で実現。 ● 急ブレーキ等の危険挙動を、場所や、性別や年齢情報等の様々な切り口で分析が可能。 ● 自治体様に提供することで、交通安全対策に用いるなど。 ○ 結果的に交通事故が削減されれば、保険金の支払いも減り本業にもシナジーがある ○ (単なる「データ販売」に限らないデータ外部提供の事例) 出所:2022年6月30日付け、LayerXプレスリリース

Slide 11

Slide 11 text

11 © LayerX Inc. プライバシーエンジニアリングとは

Slide 12

Slide 12 text

12 © LayerX Inc. プライバシーエンジニアリングとは https://chat.openai.com ● 話題のChatGPTに聞いてみた その他、NISTの定義などもあるよ!

Slide 13

Slide 13 text

13 © LayerX Inc. プライバシーエンジニアという仕事 https://jobs.apple.com/en-us/details/200423409/platform-privacy-engineer https://careers.mastercard.com/us/en/job/R-184152/Vice-Preside nt-Privacy-Engineer https://www.metacareers.com/v2/jobs/431958232249790/ ● 「Privacy Engineer」という職種の求人も見かける Meta (Facebook) Mastercard Apple

Slide 14

Slide 14 text

14 © LayerX Inc. プライバシーエンジニアリングの登場パターン ● プライバシーエンジニアリングの登場パターンを大きく三つに大別 ● 本日は、LayerXで多いパターンである「②一方通行のデータ提供」を題材に紹介 designed by Freepik ③双方向のデータ連携 (特に名寄せを行う場合) ②一方通行のデータ提供 →本日の題材 注: 個別のプライバシー保護の要素技術は、上記の分類に一対一対応するわけではなく、組み合わせて使われる (差分プライバシーはどこにでも登場する) ①エンドユーザーからの データ収集

Slide 15

Slide 15 text

15 © LayerX Inc. プライバシーエンジニアリングの流れ ● 以下の4つのフェーズに沿って、何をやるのか、どんな能力が必要とされるのかを紹介 ①プライバシー保護の要件定義 ②プライバシー保護技術の選定 ④選定した技術の実装と運用 ③選定した技術の検証

Slide 16

Slide 16 text

16 © LayerX Inc. プライバシーエンジニアリングの流れ 〜①要件定義フェーズ〜

Slide 17

Slide 17 text

17 © LayerX Inc. ● 今回題材にしている「データ外部提供におけるプライバシー保護」では、基本的には、攻撃者が出力結果を 見て、個人に関するデータを推定しようとすることを防ぐ ● 要件定義では、プライバシーを保証するための様々な「前提」「仮定」を整理する ○ 仮定が間違っていると、そのプライバシー保証に意味がなくなるので注意! 要件定義フェーズとは 元データ プライバシー 保護 データオーナー データ利用者 攻撃者 ? 出力 出力 出力 注: 攻撃者は必ずしも「悪意のあるハッ カー」だけではない! (悪意のないデータ利用者が、データから 示唆を得ようと試行錯誤するうちに自然 と「n1分析」的に、個に行き着く可能性も ある)

Slide 18

Slide 18 text

18 © LayerX Inc. 攻撃者はどんな背景知識を保有するのか ● 出力と組み合わせることのできる、他のパーソナルデータを 保有しているか ○ 例: 提供先の運営するサービスの顧客情報 ○ 例: 有名人やニュースで報道された人に関する情報 ○ 例: 他社から購入した他のパーソナルデータ ● 最も重要なのが、攻撃者は誰で、どんな背景知識を保有するかという仮定 要件定義: 攻撃者仮定 攻撃者 ? 出力 出力 出力 データにアクセスしうる人は誰か ● WEB上にパブリックに公開するものか ○ 例: オープンデータ化のユースケース ● 提供先に限定されているのか ○ 例: 信用できる相手 & 契約締結をする

Slide 19

Slide 19 text

19 © LayerX Inc. 仮定を置く際の注意①: 漏れても良い情報かどうかの判断は難しい Netflixが公開したデータ ● 有名なNetflixの事例: 機械学習アルゴリズムのコンペ用に、個人を直接特定できる情報は削除したデータ を公開。しかし、他の映画評価サイトと照合することで、映画の視聴履歴から、ユーザーの政治的思考・性的 嗜好が特定可能であることが後に明らかになった。 ● 「この情報はセンシティブではないだろう」という仮定は、想定外のリスクを生みやすい。 映画評価サイトIMDbのデータ ユーザ 映画名 評価 評価日 abc123 スターウォーズ 5 20xx/6/5 トップガン 5 20xx/6/5 ジュラシック・パーク 2 20xx/6/5 : : スノーデン 5 def456 シンドラーのリスト 3 ゴッドファーザー 5 : : ghi789 プラダを着た悪魔 4 : 映画名 評価 コメント スタンド・バイ・ミー 4 : : : スターウォーズ 5 ・・・ トップガン 5 ・・・ ジュラシック・パーク 2 ・・・ : : : : スノーデン 5 (特定の思想に関連するコメ ント) : 識別の結果、ユーザーの政治的思想や性 的嗜好が明らかになってしまった 個人を直接特定できる情報は削除したデータを公 開していたが、複数の映画および評価日の組み合 わせから、個人を特定できてしまう 週末に見たスターウォーズと トップガンは良かった! ジュラシックパークはイマイチ だったな 出典:「データ解析におけるプライバシー保護」佐久間淳 を元にLayerXにて作成

Slide 20

Slide 20 text

20 © LayerX Inc. 仮定を置く際の注意②: 攻撃手法を限定することは難しい 地区Aにおける人口統計 ※3人未満の場合は非公開((D)) ● 再構築攻撃: 大量に公開された統計情報を連立方程式のように解くことで、元のレコードを復元する攻撃。 ○ 一般的な線形計画ソルバーを使えば、ノートPCで可能。 ● プライバシー系の攻撃は、暗号解読とは異なり、莫大な計算リソースは必要ないものがほとんど。 統計2Bは、男性が3人住んでいることを示す。 125歳を人間の最高齢とみなすと、この地区に住む男性の年齢の組 み合わせは、317,750通り存在する。 しかし、317,750通りの年齢の組み合わせの中で、中央値30才、 平均値44才の制約を満たす組み合わせは、30通りに絞られる。 出典 :https://cacm.acm.org/magazines/2019/3/234925-understanding-database-r econstruction-attacks-on-public-data/fulltext このように公開された統計情報から得られる様々な制約条件から連 立方程式を立て、解いていくことで、最終的に地区Aの住民の情報 を復元することが可能となる。

Slide 21

Slide 21 text

21 © LayerX Inc. プライバシー保護の仮定とアカウンタビリティ 事業者/利用側の視点 エンドユーザー/社会の視点 ● まさか自分たちはプライバシー侵害 なんてしない ● データ提供先の人は信頼できるし、 悪意のある攻撃をする人なんでいな いだろう ● 基本的には、プライバシー保護の仮定はシンプルかつ汎用的であることが望ましい ● 「そんな攻撃は起きないはず」などと仮定が強いものになりすぎると、 ○ 仮定を間違えたり、将来的にその仮定が成立しなくなるケースが出てきやすくなる ○ ステークホルダーに納得いただくのが困難になる 「この情報はセンシティブではないから最悪漏れても問題ない」などの主観的な仮定を避けることで、 プライバシーエンジニアリングは客観的・技術的な問題解決に集中できる。 差分プライバシーは、(種類にもよるが)仮定をあまり緩和せずにプライバシーを保証できるのが強み。 ● 自分のデータが変なことに使われな いか不安 ● データ提供先の顔が見えない、信頼 できる人なのかわからない

Slide 22

Slide 22 text

22 © LayerX Inc. 要件定義フェーズ: セキュリティ分野との共通点 ● 脅威モデルと、システムの守るべき要件を定め、採用する保護手法がその要件を満たすことを証明する ● リスクとその対策をわかりやすくステークホルダーにコミュニケーションする ● 安全性と有用性・利便性はトレードオフにあり、その狭間でもがき続ける

Slide 23

Slide 23 text

23 © LayerX Inc. プライバシーエンジニアリングの流れ 〜②技術選定フェーズ〜

Slide 24

Slide 24 text

24 © LayerX Inc. 技術選定フェーズとは ● 定義した要件を満たすプライバシー保護技術・アルゴリズムを選定する ● いきなり具体的な加工アルゴリズムを考えるのではなく、プライバシー保護の理論的な「定義」を定める ● 補足: 差分プライバシー自体はプライバシー保護の「定義」であり、一つの加工方法ではない 定義を満たすアルゴリズムの構成 プライバシー保護の定義 (例:差分プライバシー) 出典: https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

Slide 25

Slide 25 text

25 © LayerX Inc. 余談: 合成データによるプライバシー保護? ● 合成データ: 元データの特徴を機械学習モデル等で学習し、似ている架空のデータを生成する手法 ● ただし、合成データにしたからといってプライバシーが保護されるわけではない ○ 合成データから元データを復元する攻撃が盛んに研究されている ○ 何らかのプライバシー保護要件を定義し、それを満たす合成/学習方法を構成しないといけない ■ 差分プライバシーを保護した合成データ生成も可能(他のプライバシー要件の研究もある) 合成データのモデルが 元データを「記憶」している可能性

Slide 26

Slide 26 text

26 © LayerX Inc. 技術選定における候補の豊富さ ● プライバシー保護の定義も、それを満たすアルゴリズムも沢山ある ● ユースケースごとに適切なものを選ぶ必要 増え続ける差分プライバシーの定義 Desfontaines, Damien, and Balázs Pejó. "Sok: differential privacies." Proceedings on privacy enhancing technologies 2020.2 (2020): 288-313.

Slide 27

Slide 27 text

27 © LayerX Inc. 安全性と有用性のトレードオフ ● 安全性も有用性も完璧という「銀の弾丸」は存在しない(ことが証明されている) ● LayerXでは、組織間のデータ提供のユースケースに絞った最適解を研究し続けている プ ラ イ バ シ | 保 護 水 準 高 低 有用性 高 低 銀の弾丸

Slide 28

Slide 28 text

28 © LayerX Inc. プライバシーエンジニアリングの流れ 〜③技術検証フェーズ〜

Slide 29

Slide 29 text

29 © LayerX Inc. 技術検証フェーズとは ● プライバシー保護の結果、多かれ少なかれデータの有用性は下がる ○ 一部の情報が削除されたり、データにノイズが付与されたりする ● そこで、有用性を評価するシミュレーションや、必要に応じてサンプルデータでの実験を行う ○ 機械学習の実験と似て、Python + Jupyter notebookでやることも多い ● 実用可能な有用性を達成するべく、技術選定をやり直しながら、試行錯誤が続く 有用性評価実験 ● プライバシー保護を行わない場合と比べて どれくらい悪化するか? ● (比較対象のプライバシー保護手法がある場 合)どちらが優れているか?

Slide 30

Slide 30 text

30 © LayerX Inc. 技術検証フェーズ: データ分析力が肝 ● 技術検証フェーズは「データ分析そのもの」であり、分析力が求められる ○ 機械学習でのモデル選定やチューニングのスキルと近い ● また、データ分析ノウハウを活かして「データ利用者のやりたいこと」から問題を分解・迂回できる プライバシー保護したまま 提供できる情報 データ利用者が やりたいこと ココを探すことが重要で、 そのためにデータ活用力が必要 ここで試行錯誤しても 意味がない ここは諦めるしかない

Slide 31

Slide 31 text

31 © LayerX Inc. プライバシーエンジニアリングの流れ 〜④実装・運用フェーズ〜

Slide 32

Slide 32 text

32 © LayerX Inc. 実装・運用フェーズとは ● 選定したプライバシー保護技術を、業務で使えるようにデータ基盤に実装する ● LayerXでも独自のプライバシー保護データ基盤を開発している ○ 社内で活用するパターンと、お客様向けにサービスとして提供するパターンがある

Slide 33

Slide 33 text

33 © LayerX Inc. 実装・運用フェーズ: データエンジニアリング力が肝 ● 元データから、最終的な出力まで、前処理・プライバシー保護処理の一連のステップは非常に複雑 ● その中で、データ処理の品質を担保し、問題発生時に対処しやすくするDataOpsが重要 ● また、パーソナルデータはサイズが大きく、プライバシー保護処理のパフォーマンス向上が必要なことも stage 0 データレイク stage 1 前処理 stage 2 ファクトテーブル stage 3 プライバシー保護 前処理 stage 4 プライバシー保護 ・評価 stage 5 データマート 生データ 社外 社内 社内分析者 社外分析者 データアプリケーション LayerXのデータ基盤のイメージ

Slide 34

Slide 34 text

34 © LayerX Inc. 実装・運用フェーズ: データエンジニアリング力が肝 ● 詳しくは、PrivacyTech事業部リードエンジニアのOsukeさんの下記資料を参照 「dbtを中心に据えた データ分析とプロダクト開発」 https://speakerdeck.com/osuke/dbtwozhong-xin-niju-eta-detafen-xi-topurodakutokai-fa

Slide 35

Slide 35 text

35 © LayerX Inc. まとめ

Slide 36

Slide 36 text

36 © LayerX Inc. まとめ ● プライバシーエンジニアリングの流れを紹介 ○ 要件定義→技術選定→技術検証→実装・運用 ● プライバシーエンジニアリングでは、理論的・技術的に問題を解決する ○ 主観的・水掛け論になる仮定はなるべく排除する ● プライバシーエンジニアリングには、データ分析・データエンジニアリングや、セキュ リティなど、他分野の経験が活きる!

Slide 37

Slide 37 text

37 © LayerX Inc.