Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PrivacyTech事業説明会「データ分析×プライバシー」とは?

LayerX
September 13, 2022

 PrivacyTech事業説明会「データ分析×プライバシー」とは?

LayerXに少しでもご興味をお持ちくださっている方々、PrivacyTech事業部が何をやっているのかが気になる方へ向けて、説明の資料をご用意しました。

メンバーと話してみたい方は、ぜひカジュアル面談をご活用ください。

【カジュアル面談一覧】
事業部長 中村 龍矢
事業副部長 畑島 崇宏
エンジニア 恩田 壮恭
代表取締役 CTO 松本 勇気

---------------------
詳細: PrivacyTech採用情報

LayerX

September 13, 2022
Tweet

More Decks by LayerX

Other Decks in Business

Transcript

  1. 2 © LayerX Inc. 中村 龍矢 (執行役員 兼 PrivacyTech事業部長) スピーカー紹介

    • 株式会社Gunosyにてデータ分析及び、AI/機械学 習アルゴリズムの実装に従事 • LayerXの創業より参画、研究開発をリード • セキュリティ・プライバシーの学術論文を国内外 の学会にて発表 • 2020年度IPA未踏スーパークリエータに認定 • 東京工業大学との共同研究が2020年度インター ネットアーキテクチャ研究賞(最優秀賞) • Ethereumの脆弱性を複数発見し、仕様策定に貢 献し、Ethereum Foundationのグラントを日本拠 点のチームで初めて獲得 Twitter: @nrryuya_jp
  2. 3 © LayerX Inc. 本日のトピック • 「データ利活用とプライバシー」について、手触り感を持っていただく ◦ 特に、普段からデータに関わる方にぜひ知っていただきたい! •

    私のパートでは、前提となる事業や技術の概要をお話しします • (本日のイベント全体を通して、プライバシー保護技術の専門的な話は割愛し ます)
  3. 6 © LayerX Inc. LayerXのミッション • 「すべての経済活動をデジタル化」するため、「企業や組織を横断したDX」に創業時より着目 • プライバシーやセキュリティの観点から生まれる「信用のコスト」を減らしたい •

    当初、ブロックチェーンなどに着目していた(詳細は割愛) ◦ しかしながら、ブロックチェーンで企業横断のインフラなどを実現するのは少し早かった、、、
  4. 9 © LayerX Inc. PrivacyTech事業の取り組み実績 • 次世代金融における秘匿化技術の活用可能性に関する共同研究 • 秘匿性を担保した複数企業間の取引記録インフラの事業検討・技術検証 協業事例(一部)

    メディア掲載(抜粋) • 住民意見収集システムとして採用(秘匿化技術国内初の実用化事例) • インターネット投票の実現に向け、公職選挙法の規制緩和の提案 • 「Anonify」を活用した自動車走行データの分析サービスの提供を開始 • プライバシー保護とデータ利活用のさらなる高度化に向けた共創を開始 • テキストデータのプライバシー保護技術適用の共同研究 JCB様 つくば市様 リクルート様 あいおいニッセイ 同和損保様
  5. 12 © LayerX Inc. 平均年収:800万円 平均年収:799.9万円 Aさん在籍時の合計年収 = 平均800万円 *

    51人 Aさん退職後の合計年収 = 平均799.9万円 * 50人 Aさんの年収 = 800 * 51 - 799.9 * 50 = 805万円 Aさん在籍時 (51名) Aさん退職後 (50名) ・・・・・・・・・・・・・ ・・・・・・・・・・・・・ たった1000円分の平均年収の 変化から、Aさんの給与がわ かってしまう プライバシー保護の難しさ • 統計情報だけを提供しても、差分から特定個人のデータが炙りだされてしまう • 1970年代(もしくはもっと前)から続く、長い研究の歴史 • 実際にはもっともっと色々なリスクがある!
  6. 13 © LayerX Inc. 差分プライバシーとは • 機密なデータに基づく統計データに、プライバシーを保護するノイズを注入する • 誤差が発生するが、統計的な分析では活用できる 年齢

    性別 住所 年収 32 男性 東京都中央区 650万円 24 女性 神奈川県横浜市 600万円 56 男性 東京都中央区 1000万円 44 女性 千葉県松戸市 950万円 ノイズ付与後の 平均年収: 810万円 平均年収: 800万円 (真の値) 公開しない 元のデータの 復元困難 元のパーソナルデータ 差分プライバシー のアルゴリズム +10万円の ノイズを付与
  7. 14 © LayerX Inc. 差分プライバシーの数学的な定義 • ただランダムにノイズを加えるわけではなく、数学的な証明に基づいている • プライバシーの担保を「しっかり説明できる」ことが重要視されているのがポイント(後述) 出典:

    https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf 差分プライバシーによるノ イズ付与 統計量 差分プライバシーによるノ イズ付与 統計量 Aさんあり Aさんなし Aさんがいるか 区別ができない 意味:特定の個人が含まれていてもいなくても、「同じような」統計量となることを保証 差分プライバシーの数学的な定義
  8. 15 © LayerX Inc. 実社会における差分プライバシーの活用事例 参考:差分プライバシーとは - AppleやGoogleも活用する最先端のプライバシー保護技術 Linkedinの広告主向けダッシュボードでは、広告の表示 数やクリック数を可視化。ユーザーの閲覧情報などを逆

    算する攻撃を防ぐため、差分プライバシーの亜種を導入 (出典) 差分プライバシーの活用事例 人口統計や、大卒者の収入と雇用に関する統計情報を公 開する際に、差分プライバシーを活用。(出典) コロナ禍におけるFacebookユーザーの行動情報(1日 の間にユーザーが移動する量と、家にいる人の数の指 標)を疫学研究を目的として公開する上で、差分プライ バシーを活用。(出典) 機密性の高いユーザーの位置情報を、社内のデータサイ エンティストがプライバシー保護を担保したまま分析す るために、差分プライバシーを活用。(出典) • 米国政府や、グローバル大手IT企業などにも利用されている。 • 社内における機密データの分析や、データを外部公開する等のケースにおいて、プライバシー保護をア カウンタビリティをもって保証する目的で利用されている。 Meta (旧Facebook) LinkedIn Uber 米国政府 Apple, Google, Microsoft
  9. 18 © LayerX Inc. 出所:https://www.jmir.org/2021/10/e30697/PDF, https://www.mdclone.com/adams-platform • MDCloneは、2016年創業のイスラエルの会社で、累計$104Mを調達 • 合成データにより、医療データの外部との共有を、自由に、迅速に行えるプラットフォームを提供

    ◦ IRB(治験審査委員会)のプロセスを待たずにデータを活用できる 事例: MDClone 合成データの活用事例: ワシントン大学との全米COVIDコホート共同研究 • COVID-19では、複数の施設から得られるビッグデータを用いた包括的な分析を行う上で、個々の施設 に存在する臨床データの共有が課題となっている。 • そこで、ワシントン大学では臨床データのプライバシー・機密性の保持との両立をはかるべく、 MDClone社の協力のもと、合成データとして導出した。 • 合成データから得られた結果をオリジナルデータから得られた結果と比較して検証した結果、 ◦ 各ユースケースにおいて、合成データの分析結果は、データの分布が類似。 ◦ 予測モデルも同等の性能を示すなど、オリジナルデータの分析結果をうまく模倣できている。
  10. 20 © LayerX Inc. • 世の中にあるデータのうち、データ流通のポテンシャルはまだ数%くらいしか発揮されていない(?) • 医療、行政、金融など様々な社会問題の解決に繋がる データソース別の利用シーン(一例) 顧客属性データ

    決済・取引データ 移動履歴データ スマホ位置情報 電子カルテ 購買データ TV視聴データ 電力利用データ 政策立案・改善 商圏分析 ・立地検討 マーケティング 施策立案・改善 製品開発 広告などの パーソナライズ 事例①:Suica利用データ 事例②:電力利用データ • 駅の利用状況データを通じて人の流れをより正確に把握することに よる、観光施策や地域活性化向けの活用を狙うもの。 • 首都圏を中心に駅ごとの乗降者数のデータなどを集計したレポート 「駅カルテ」を作成。 • スマートメーターを通じて収集した電力データを利用するもの。 • 特定地域での電力使用状況に基づく商圏分析や、各世帯での電力使 用状況に基づく高齢者見守り・再配達削減などに活用を図る。 出所:JR東日本、電力・ガス基本政策小委員会 パーソナルデータ流通の可能性
  11. 21 © LayerX Inc. 就職で不利になったり、 勤務先で差別されないか・・・ パーソナルデータ利用に伴うプライバシーの懸念 • 学歴、病歴 •

    収入、資産 • 行動履歴 • etc. 本人 様々な事業者 病歴のせいで生命保険に加入できなく なるかも・・・ 不安 • しかし、パーソナルデータの外部提供に伴い、ユーザー・ステークホルダーの不安につながりうる • 価値のあるリアルなデータほど、伝統的な大きな企業が保有することが多く、何十年とかけて築き上げ てきたユーザー・社会との信頼関係は非常に重要なものである クレカが作れなくなったり、必要な時 にお金を借りれられなかったらどうし よう・・・ データ取得 自分のデータが勝手に 売られるのは気持ち悪い! designed by Freepik
  12. 22 © LayerX Inc. データ外部提供におけるジレンマ • その結果、保守的になり、提供する情報量を絞っているケースがある ◦ また、データを使う側も自由に使えなかったりする •

    しかし、データの利用者は、もっと沢山の情報量・もっと柔軟な分析を期待する ◦ 理想は、まるで自社のデータかのように分析できること 現状提供しているもの 利用者が求めるもの designed by Freepik
  13. 23 © LayerX Inc. 弊社PrivacyTech事業のビジョン こ れ ま で こ

    れ か ら • リスクの判断基準が難しく、匿 名加工情報なども使いにくい • データを安全に流通させる仕組 みが整っていない • 統計的な(個人を選別しない) 用途でデータが安全に流通 • 明確な基準でプライバシーを担 保し、外部に対する透明性、ア カウンタビリティを担保 外部データへの アクセスは困難 データ保有者 データ利用者 エンドユーザー 守り部門/規制当局 暗黙的で 形式的な同意取得 リスク把握が困難で 保守的な判断 非選別目的で 柔軟に活用可能に データ保有者 データ利用者 エンドユーザー 守り部門/規制当局 明確なルールで リスクを評価 客観的な安全性 による安心感 designed by Freepik
  14. 26 © LayerX Inc. • 技術的に安全であることは、それ単体で直ちに必ずしもエンドユーザーの安心に繋がるわけではないも のの、実際的なリスクを対処し、説明可能にすることは、全ての解決策の土台になる • 技術によるプライバシー担保や「トラスト」の形成は、これからの社会における長期の重要テーマ 信用の連鎖

    最初のドミノ • 規制当局・プライバシー保護の有識者 2つ目のドミノ • メディア・政府などの権威 3つ目のドミノ • 一般の方(デジタルリテラシーのある方等) 4つ目のドミノ • さらに広い一般の方・社会全体
  15. 28 © LayerX Inc. プライバシー保護技術のトレードオフ プ ラ イ バ シ

    | 保 護 水 準 高 低 有用性 (*2) 高 低 何も出せない 生データ同等 トレードオフ あり 既知の様々な 攻撃あり 単体で非常に 高いリスク ほぼ解消 一定範囲で ほぼ解消 一部攻撃あり & 未知の攻撃 への保証なし • 有用性とプライバシー保護にはトレードオフがあり、「銀の弾丸」は存在しない。 • 差分プライバシーはかなり高いプライバシー保護要件であり、「適切な緩和」の研究も行われている 銀の弾丸 プライバシー保護技術のR&Dの面白さ
  16. 29 © LayerX Inc. プライバシー保護技術のR&Dの面白さ 参考:"Differential privacy in health research:

    A scoping review" https://academic.oup.com/jamia/article/28/10/2269/6333353 • 世界的に研究が盛んで、日々新しい手法が出続けている! • 社会実装がはじまった結果、良いリサーチクエスチョンが出始めた時期 ◦ 実際のデータやユースケースのドメイン知識と組み合わせることで、有用性を改善できる 差分プライバシーに関する年別論文出版件数(EBSCOhost)
  17. 30 © LayerX Inc. データ分析の面白さ 出典: https://xtrend.nikkei.com/atcl/contents/casestudy/00012/00994/ • 位置・移動データ、決済データ、医療データなど「リアルな」データだからこその統計的な難しさ •

    データの掛け合わせにより、さらにデータサイエンス・機械学習の可能性は広がる ◦ 例: 走行データに、歩行者の人流データや、天気のデータを掛け合わせて、急ブレーキ原因を分析