Upgrade to Pro — share decks privately, control downloads, hide ads and more …

差分プライベート深層変換モデルによる テキストプライバシの保護/cybozulabs-youth10-sasada

A97eee01397705443a72a48ce29d3e19?s=47 Cybozu
March 31, 2021

差分プライベート深層変換モデルによる テキストプライバシの保護/cybozulabs-youth10-sasada

A97eee01397705443a72a48ce29d3e19?s=128

Cybozu

March 31, 2021
Tweet

Transcript

  1. 笹⽥ ⼤翔 差分プライベート深層変換モデルによる テキストプライバシの保護 サイボウズ・ラボ株式会社 第10期ラボユース 機械学習/⾃然⾔語処理に関するソフトウェア開発

  2. ⾃⼰紹介 第10期サイボウズ・ラボユース成果発表会 Name : 笹⽥ ⼤翔 (Taisho Sasada) Affiliation :

    奈良先端科学技術⼤学院⼤学 Hobby : バイオリン,旅⾏,ドライブ 研究室: サイバーレジリエンス構成学研究室 (ZTNやLocal 5G,SDN系)
  3. プライバシ保護の必要性 [NK21] 政府、LINEに報告要求 個人情報保護委や総務省 <https://www.nikkei.com/article/DGXZQODE195FW0Z10C21A3000000/ >, 最 終閲覧日:2021年3月24日 1/15 第10期サイボウズ・ラボユース成果発表会

    名前 住所 電話番号 性別 個⼈情報は本⼈の同意なく提供してできず収集後も 安全に管理されているのか把握する必要がある[NK21] 不適切な管理は個⼈情報の漏洩につながる 個⼈情報を扱うサービス 収集 監視
  4. テキストデータの利活⽤ [PB11] Park, Byung-Kwon, and Il-Yeol Song. "Toward total business

    intelligence incorporating structured and unstructured data.” In Proceedings of the 2nd International Workshop on Business intelligencE and the WEB, pp. 12-19. 2011. [HJ18] Howard, Jeremy, and Sebastian Ruder. "Universal Language Model Fine-tuning for Text Classification." In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 328-339. 2018. 1/15 第10期サイボウズ・ラボユース成果発表会 個⼈の識別を防ぎつつデータ提供を⾏うためにプライバシ保護加⼯が必要 提供 ユーザ⽣成テキスト 推測 センシティブ情報 プライバシ漏洩 ~~~~~~~ ~~~~~~~ User Review ユーザ⽣成テキストの提供によるデータ事業創出の需要が増加 [PB11, HJ18]
  5. ランダム化機構𝑀を通して返される結果から得られる情報が少ないため 出⼒におけるプライバシが保護される指標 [DC06, DJ13] DP : 𝑃𝑟 𝑀 𝐷 ∈

    𝑦 ≤ exp(𝜀) . 𝑃𝑟[𝑀(𝐷′) ∈ 𝑦] User Database [DC06] Dwork, Cynthia, Frank McSherry, Kobbi Nissim, and Adam Smith. "Calibrating noise to sensitivity in private data analysis." In Theory of cryptography conference, pp. 265-284. Springer, Berlin, Heidelberg, 2006. [DJ13] Duchi, John C., Michael I. Jordan, and Martin J. Wainwright. “Local privacy and statistical minimax rates.” In 2013 IEEE 54th Annual Symposium on Foundations of Computer Science, pp. 429-438. IEEE, 2013. 第三者 推測不可 センシティブ情報 +𝐿𝑎𝑝(𝜀) ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 3/15 すべての値に対して加⼯処理を⾏うためデータの有⽤性損失が⼤きい 第10期サイボウズ・ラボユース成果発表会 差分プライバシ (DP: Differential Privacy)
  6. 本研究の⽬的 プライバシを保護した安全なテキスト提供を⾏い テキストデータ利活⽤の促進 User 第三者 推測不可 センシティブ情報 収集 提供 +𝐿𝑎𝑝(𝜀)

    有⽤性損失の抑制とプライバシ保護の両⽴ ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 4/15 第10期サイボウズ・ラボユース成果発表会
  7. [AM16] Abadi, Martin, Andy Chu, Ian Goodfellow, H. Brendan McMahan,

    Ilya Mironov, Kunal Talwar, and Li Zhang. "Deep learning with differential privacy." In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security, pp. 308-318. 2016. [JJ18] Jordon, James, Jinsung Yoon, and Mihaela Van Der Schaar. "PATE-GAN: Generating synthetic data with differential privacy guarantees." In International Conference on Learning Representations. 2018. 深層学習モデルの勾配においてガウシアンノイズを付加して学習させ 出⼒される結果が差分プライバシを満⾜する⼿法を提案 [AM16, JJ18] 提供 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review Feature Space 6 𝑃𝑟[𝑥] 𝑃𝑟[𝑥] Feature Space ⽣成データの確率分布 正解データの確率分布 深層学習モデル 𝜃 SGD + DP 5/15 第10期サイボウズ・ラボユース成果発表会 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 勾配に⼤量のノイズがのってしまうと有⽤な変換は不可 変換テキスト 差分プライベート深層学習モデル
  8. Term Value Bob 10 ⋮ ⋮ Carol 1 Adversary [SJ14]

    Soria-Comas, Jordi, Josep Domingo-Ferrer, David Sánchez, and Sergio Martínez. "Enhancing data utility in differential privacy via microaggregation-based k-anonymity." The VLDB Journal 23, no. 5 (2014): 771-794. k-匿名性を満⾜させてからノイズを付加することで 少量のノイズで差分プライバシを満⾜できる [SJ14] 背景知識 重複が多いとノイズ量が少なくても⽋損した場合と区別しずらい 6/15 第10期サイボウズ・ラボユース成果発表会 差分プライバシにおけるノイズ付加量低減
  9. Term Value Bob 10 ⋮ ⋮ Carol 1 Adversary [SJ14]

    Soria-Comas, Jordi, Josep Domingo-Ferrer, David Sánchez, and Sergio Martínez. "Enhancing data utility in differential privacy via microaggregation-based k-anonymity." The VLDB Journal 23, no. 5 (2014): 771-794. k-匿名性を満⾜させてからノイズを付加することで 少量のノイズで差分プライバシを満⾜できる [SJ14] 背景知識 重複が多いとノイズ量が少なくても⽋損した場合と区別しずらい 6/15 第10期サイボウズ・ラボユース成果発表会 差分プライバシにおけるノイズ付加量低減
  10. 深層⽣成モデル 第三者 変換 疑似テキスト 提供 知識グラフ 準識別⼦抽出 収集したテキストから重複作成が可能な固有表現を学習済みBERTで抽出 ⼀意な表現を⼀般化してノイズ付加量を低減し差分プライバシを満⾜ ⼀般化

    ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 8/15 第10期サイボウズ・ラボユース成果発表会 提案⼿法概要
  11. 9/15 準識別⼦辞書 BERT Term Document Atlanta 1,3,5 Anaheim 2,10 ⋮

    ⋮ Washington 1,6 Term Document United Status 1,3,5 United Status 2,10 ⋮ ⋮ United Status 1,6 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 'War movie' is a Hollywood genre that has been done and redone so many times that clichéd dialogue, ... 元テキスト 知識グラフ 学習済みBERTモデルによって上位概念を保持する固有表現を抽出して 知識グラフ[ST20]による⼀般化を⾏いk匿名性を満⾜する [ST20] Sasada, Taisho, Yuzo Taenaka, and Youki Kadobayashi. "Anonymizing Location Information in Unstructured Text Using Knowledge Graph." In Proceedings of the 22nd International Conference on Information Integration and Web-based Applications & Services, pp. 163-167. 2020. LOC : Hollywood 第10期サイボウズ・ラボユース成果発表会 準識別⼦の抽出と⼀般化
  12. [ST20] Sasada, Taisho, Yuzo Taenaka, and Youki Kadobayashi. "Anonymizing Location

    Information in Unstructured Text Using Knowledge Graph." In Proceedings of the 22nd International Conference on Information Integration and Web-based Applications & Services, pp. 163-167. 2020. 抽出した準識別⼦を𝑘-匿名性を満⾜するまで⼀般化[ST20] ⼀意な固有表現をk-匿名化することで重複を多数作成する UC Berkeley University EdgeProperty : inAddr EdgeProperty : inAddr EdgeProperty : inAddr Los Angeles California United States Generalization Generalization Generalization Construct Store Neo4j GIS EdgeProperty : category 10/15 第10期サイボウズ・ラボユース成果発表会 ナレッジグラフの構築
  13. 差分プライベートEncoder-Decoder(DP E-D) Encoder - Decoder Adam + DP 𝛽! ,

    𝛽" 𝜂 Loss Function 𝑁(0, 𝜎"𝐶"𝐼) パラメータ 学習率 , 𝜙 ガウシアンノイズ [Obama is an American politician] LSTM LSTM Encoder Decoder Embedding Embedding [O.B is a politician] ~~~~~~~~~~~ ~~~~~~~~~~~ User Review ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 11/15 第10期サイボウズ・ラボユース成果発表会 変換
  14. 評価実験 実験概要 ⼀般化によるk匿名 モデル構築+ノイズ 疑似テキスト⽣成 ⼀般化 ⽣成モデル構築 Ø ML Model

    RBFカーネルSVM 多項Logistic回帰 Decision Tree (C4.5) Random Forest 実験評価 (1)有⽤性損失 (2)プライバシ損失 実験評価 抽出した準識別⼦を𝑘-匿名性を満⾜するまで⼀般化 ⼀意な固有表現をk-匿名化することで重複を多数作成する Ø データセット IMDB Dataset [MA11] [MA11]Maas, Andrew, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. "Learning word vectors for sentiment analysis." In Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies, pp. 142-150. 2011. 12/15 第10期サイボウズ・ラボユース成果発表会 DP-ED
  15. 実験1: データ有⽤性損失 プライバシが保護されていたとしても与えられているタスクに 有⽤なモデルが構築できるとは限らない[OL18] 変換 第三者 提供 DP-ED 提案⼿法(DPvG E-D)の⽅が

    F値の精度差が⼩さい 極性判定の 精度劣化抑制に貢献 オリジナルテキストとの精度差 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review diff F-value [OL18] Ou, Lu, Zheng Qin, Shaolin Liao, Yuan Hong, and Xiaohua Jia. "Releasing correlated trajectories: Towards high utility and optimal differential privacy." IEEE Transactions on Dependable and Secure Computing 17, no. 5 (2018): 1109-1123. 13/15 第10期サイボウズ・ラボユース成果発表会
  16. 実験2: 疑似テキストの⾮可逆性 ⽣成した疑似テキストから元のテキストが可逆関係にある場合 要求されるプライバシが保護されているとは⾔えない ⽣成 ⽣成モデルから出⼒される 単語の無作為性はわずかに減少 ⼀般化後 付与ラベルの異なるテキスト同⼠の コサイン類似度低下

    DP E-D DPvG E-D ~~~~~~~~~~~ ~~~~~~~~~~~ User Review ~~~~~~~~~~~ ~~~~~~~~~~~ User Review ≠ 疑似テキスト 元テキスト 14/15 第10期サイボウズ・ラボユース成果発表会 DP-ED
  17. 本研究のまとめ 1. ラベルごとに⽣成するコンディショナルモデルへの拡張 今後の課題 研究⽬的 有⽤性損失の抑制とプライバシ保護の両⽴ 提案 ナレッジグラフによる⼀般化で ノイズ付加量を低減したDP変換 2.

    疑似メンバシップ推論による評価 15/15 第10期サイボウズ・ラボユース成果発表会