差分プライベート深層変換モデルによるテキストプライバシの保護/cybozulabs-youth10-sasada

笹⽥⼤翔差分プライベート深層変換モデルによるテキストプライバシの保護サイボウズ・ラボ株式会社第10期ラボユース機械学習/⾃然⾔語処理に関するソフトウェア開発

⾃⼰紹介第10期サイボウズ・ラボユース成果発表会 Name : 笹⽥⼤翔 (Taisho Sasada) Affiliation :
奈良先端科学技術⼤学院⼤学 Hobby : バイオリン，旅⾏，ドライブ研究室: サイバーレジリエンス構成学研究室 (ZTNやLocal 5G，SDN系)

プライバシ保護の必要性 [NK21] 政府、LINEに報告要求個人情報保護委や総務省 <https://www.nikkei.com/article/DGXZQODE195FW0Z10C21A3000000/ >, 最終閲覧日:2021年3月24日 1/15 第10期サイボウズ・ラボユース成果発表会
名前住所電話番号性別個⼈情報は本⼈の同意なく提供してできず収集後も安全に管理されているのか把握する必要がある[NK21] 不適切な管理は個⼈情報の漏洩につながる個⼈情報を扱うサービス収集監視

テキストデータの利活⽤ [PB11] Park, Byung-Kwon, and Il-Yeol Song. "Toward total business
intelligence incorporating structured and unstructured data.” In Proceedings of the 2nd International Workshop on Business intelligencE and the WEB, pp. 12-19. 2011. [HJ18] Howard, Jeremy, and Sebastian Ruder. "Universal Language Model Fine-tuning for Text Classification." In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 328-339. 2018. 1/15 第10期サイボウズ・ラボユース成果発表会個⼈の識別を防ぎつつデータ提供を⾏うためにプライバシ保護加⼯が必要提供ユーザ⽣成テキスト推測センシティブ情報プライバシ漏洩 ~~~~~~~ ~~~~~~~ User Review ユーザ⽣成テキストの提供によるデータ事業創出の需要が増加 [PB11, HJ18]

ランダム化機構𝑀を通して返される結果から得られる情報が少ないため出⼒におけるプライバシが保護される指標 [DC06, DJ13] DP : 𝑃𝑟 𝑀 𝐷 ∈
𝑦 ≤ exp(𝜀) . 𝑃𝑟[𝑀(𝐷′) ∈ 𝑦] User Database [DC06] Dwork, Cynthia, Frank McSherry, Kobbi Nissim, and Adam Smith. "Calibrating noise to sensitivity in private data analysis." In Theory of cryptography conference, pp. 265-284. Springer, Berlin, Heidelberg, 2006. [DJ13] Duchi, John C., Michael I. Jordan, and Martin J. Wainwright. “Local privacy and statistical minimax rates.” In 2013 IEEE 54th Annual Symposium on Foundations of Computer Science, pp. 429-438. IEEE, 2013. 第三者推測不可センシティブ情報 +𝐿𝑎𝑝(𝜀) ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 3/15 すべての値に対して加⼯処理を⾏うためデータの有⽤性損失が⼤きい第10期サイボウズ・ラボユース成果発表会差分プライバシ (DP: Differential Privacy)

本研究の⽬的プライバシを保護した安全なテキスト提供を⾏いテキストデータ利活⽤の促進 User 第三者推測不可センシティブ情報収集提供 +𝐿𝑎𝑝(𝜀)
有⽤性損失の抑制とプライバシ保護の両⽴ ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 4/15 第10期サイボウズ・ラボユース成果発表会

[AM16] Abadi, Martin, Andy Chu, Ian Goodfellow, H. Brendan McMahan,
Ilya Mironov, Kunal Talwar, and Li Zhang. "Deep learning with differential privacy." In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security, pp. 308-318. 2016. [JJ18] Jordon, James, Jinsung Yoon, and Mihaela Van Der Schaar. "PATE-GAN: Generating synthetic data with differential privacy guarantees." In International Conference on Learning Representations. 2018. 深層学習モデルの勾配においてガウシアンノイズを付加して学習させ出⼒される結果が差分プライバシを満⾜する⼿法を提案 [AM16, JJ18] 提供 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review Feature Space 6 𝑃𝑟[𝑥] 𝑃𝑟[𝑥] Feature Space ⽣成データの確率分布正解データの確率分布深層学習モデル 𝜃 SGD + DP 5/15 第10期サイボウズ・ラボユース成果発表会 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 勾配に⼤量のノイズがのってしまうと有⽤な変換は不可変換テキスト差分プライベート深層学習モデル

Term Value Bob 10 ⋮ ⋮ Carol 1 Adversary [SJ14]
Soria-Comas, Jordi, Josep Domingo-Ferrer, David Sánchez, and Sergio Martínez. "Enhancing data utility in differential privacy via microaggregation-based k-anonymity." The VLDB Journal 23, no. 5 (2014): 771-794. k-匿名性を満⾜させてからノイズを付加することで少量のノイズで差分プライバシを満⾜できる [SJ14] 背景知識重複が多いとノイズ量が少なくても⽋損した場合と区別しずらい 6/15 第10期サイボウズ・ラボユース成果発表会差分プライバシにおけるノイズ付加量低減

深層⽣成モデル第三者変換疑似テキスト提供知識グラフ準識別⼦抽出収集したテキストから重複作成が可能な固有表現を学習済みBERTで抽出⼀意な表現を⼀般化してノイズ付加量を低減し差分プライバシを満⾜⼀般化
~~~~~~~~~~~ ~~~~~~~~~~~ User Review 8/15 第10期サイボウズ・ラボユース成果発表会提案⼿法概要

9/15 準識別⼦辞書 BERT Term Document Atlanta 1,3,5 Anaheim 2,10 ⋮
⋮ Washington 1,6 Term Document United Status 1,3,5 United Status 2,10 ⋮ ⋮ United Status 1,6 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 'War movie' is a Hollywood genre that has been done and redone so many times that clichéd dialogue, ... 元テキスト知識グラフ学習済みBERTモデルによって上位概念を保持する固有表現を抽出して知識グラフ[ST20]による⼀般化を⾏いk匿名性を満⾜する [ST20] Sasada, Taisho, Yuzo Taenaka, and Youki Kadobayashi. "Anonymizing Location Information in Unstructured Text Using Knowledge Graph." In Proceedings of the 22nd International Conference on Information Integration and Web-based Applications & Services, pp. 163-167. 2020. LOC : Hollywood 第10期サイボウズ・ラボユース成果発表会準識別⼦の抽出と⼀般化

[ST20] Sasada, Taisho, Yuzo Taenaka, and Youki Kadobayashi. "Anonymizing Location
Information in Unstructured Text Using Knowledge Graph." In Proceedings of the 22nd International Conference on Information Integration and Web-based Applications & Services, pp. 163-167. 2020. 抽出した準識別⼦を𝑘-匿名性を満⾜するまで⼀般化[ST20] ⼀意な固有表現をk-匿名化することで重複を多数作成する UC Berkeley University EdgeProperty : inAddr EdgeProperty : inAddr EdgeProperty : inAddr Los Angeles California United States Generalization Generalization Generalization Construct Store Neo4j GIS EdgeProperty : category 10/15 第10期サイボウズ・ラボユース成果発表会ナレッジグラフの構築

差分プライベートEncoder-Decoder(DP E-D) Encoder - Decoder Adam + DP 𝛽! ,
𝛽" 𝜂 Loss Function 𝑁(0, 𝜎"𝐶"𝐼) パラメータ学習率 , 𝜙 ガウシアンノイズ [Obama is an American politician] LSTM LSTM Encoder Decoder Embedding Embedding [O.B is a politician] ~~~~~~~~~~~ ~~~~~~~~~~~ User Review ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 11/15 第10期サイボウズ・ラボユース成果発表会変換

評価実験実験概要⼀般化によるk匿名モデル構築+ノイズ疑似テキスト⽣成⼀般化⽣成モデル構築 Ø ML Model
RBFカーネルSVM 多項Logistic回帰 Decision Tree (C4.5) Random Forest 実験評価 (1)有⽤性損失 (2)プライバシ損失実験評価抽出した準識別⼦を𝑘-匿名性を満⾜するまで⼀般化⼀意な固有表現をk-匿名化することで重複を多数作成する Ø データセット IMDB Dataset [MA11] [MA11]Maas, Andrew, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. "Learning word vectors for sentiment analysis." In Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies, pp. 142-150. 2011. 12/15 第10期サイボウズ・ラボユース成果発表会 DP-ED

実験1: データ有⽤性損失プライバシが保護されていたとしても与えられているタスクに有⽤なモデルが構築できるとは限らない[OL18] 変換第三者提供 DP-ED 提案⼿法(DPvG E-D)の⽅が
F値の精度差が⼩さい極性判定の精度劣化抑制に貢献オリジナルテキストとの精度差 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review diff F-value [OL18] Ou, Lu, Zheng Qin, Shaolin Liao, Yuan Hong, and Xiaohua Jia. "Releasing correlated trajectories: Towards high utility and optimal differential privacy." IEEE Transactions on Dependable and Secure Computing 17, no. 5 (2018): 1109-1123. 13/15 第10期サイボウズ・ラボユース成果発表会

実験2: 疑似テキストの⾮可逆性⽣成した疑似テキストから元のテキストが可逆関係にある場合要求されるプライバシが保護されているとは⾔えない⽣成⽣成モデルから出⼒される単語の無作為性はわずかに減少⼀般化後付与ラベルの異なるテキスト同⼠のコサイン類似度低下
DP E-D DPvG E-D ~~~~~~~~~~~ ~~~~~~~~~~~ User Review ~~~~~~~~~~~ ~~~~~~~~~~~ User Review ≠ 疑似テキスト元テキスト 14/15 第10期サイボウズ・ラボユース成果発表会 DP-ED

本研究のまとめ 1. ラベルごとに⽣成するコンディショナルモデルへの拡張今後の課題研究⽬的有⽤性損失の抑制とプライバシ保護の両⽴提案ナレッジグラフによる⼀般化でノイズ付加量を低減したDP変換 2.
疑似メンバシップ推論による評価 15/15 第10期サイボウズ・ラボユース成果発表会

差分プライベート深層変換モデルによるテキストプライバシの保護/cybozulabs-yout...

差分プライベート深層変換モデルによるテキストプライバシの保護/cybozulabs-youth10-sasada

Cybozu
PRO

More Decks by Cybozu

Other Decks in Technology

Featured

Transcript

笹⽥⼤翔差分プライベート深層変換モデルによるテキストプライバシの保護サイボウズ・ラボ株式会社第10期ラボユース機械学習/⾃然⾔語処理に関するソフトウェア開発

⾃⼰紹介第10期サイボウズ・ラボユース成果発表会 Name : 笹⽥⼤翔 (Taisho Sasada) Affiliation :

プライバシ保護の必要性 [NK21] 政府、LINEに報告要求個人情報保護委や総務省 <https://www.nikkei.com/article/DGXZQODE195FW0Z10C21A3000000/ >, 最終閲覧日:2021年3月24日 1/15 第10期サイボウズ・ラボユース成果発表会

テキストデータの利活⽤ [PB11] Park, Byung-Kwon, and Il-Yeol Song. "Toward total business

ランダム化機構𝑀を通して返される結果から得られる情報が少ないため出⼒におけるプライバシが保護される指標 [DC06, DJ13] DP : 𝑃𝑟 𝑀 𝐷 ∈

本研究の⽬的プライバシを保護した安全なテキスト提供を⾏いテキストデータ利活⽤の促進 User 第三者推測不可センシティブ情報収集提供 +𝐿𝑎𝑝(𝜀)

[AM16] Abadi, Martin, Andy Chu, Ian Goodfellow, H. Brendan McMahan,

Term Value Bob 10 ⋮ ⋮ Carol 1 Adversary [SJ14]

Term Value Bob 10 ⋮ ⋮ Carol 1 Adversary [SJ14]

深層⽣成モデル第三者変換疑似テキスト提供知識グラフ準識別⼦抽出収集したテキストから重複作成が可能な固有表現を学習済みBERTで抽出⼀意な表現を⼀般化してノイズ付加量を低減し差分プライバシを満⾜⼀般化

9/15 準識別⼦辞書 BERT Term Document Atlanta 1,3,5 Anaheim 2,10 ⋮

[ST20] Sasada, Taisho, Yuzo Taenaka, and Youki Kadobayashi. "Anonymizing Location

差分プライベートEncoder-Decoder(DP E-D) Encoder - Decoder Adam + DP 𝛽! ,

評価実験実験概要⼀般化によるk匿名モデル構築+ノイズ疑似テキスト⽣成⼀般化⽣成モデル構築 Ø ML Model

実験1: データ有⽤性損失プライバシが保護されていたとしても与えられているタスクに有⽤なモデルが構築できるとは限らない[OL18] 変換第三者提供 DP-ED 提案⼿法(DPvG E-D)の⽅が

本研究のまとめ 1. ラベルごとに⽣成するコンディショナルモデルへの拡張今後の課題研究⽬的有⽤性損失の抑制とプライバシ保護の両⽴提案ナレッジグラフによる⼀般化でノイズ付加量を低減したDP変換 2.

差分プライベート深層変換モデルによる テキストプライバシの保護/cybozulabs-yout...

差分プライベート深層変換モデルによる テキストプライバシの保護/cybozulabs-youth10-sasada

More Decks by Cybozu

Other Decks in Technology

Featured

Transcript

差分プライベート深層変換モデルによるテキストプライバシの保護/cybozulabs-yout...

差分プライベート深層変換モデルによるテキストプライバシの保護/cybozulabs-youth10-sasada