intelligence incorporating structured and unstructured data.” In Proceedings of the 2nd International Workshop on Business intelligencE and the WEB, pp. 12-19. 2011. [HJ18] Howard, Jeremy, and Sebastian Ruder. "Universal Language Model Fine-tuning for Text Classification." In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 328-339. 2018. 1/15 第10期サイボウズ・ラボユース成果発表会 個⼈の識別を防ぎつつデータ提供を⾏うためにプライバシ保護加⼯が必要 提供 ユーザ⽣成テキスト 推測 センシティブ情報 プライバシ漏洩 ~~~~~~~ ~~~~~~~ User Review ユーザ⽣成テキストの提供によるデータ事業創出の需要が増加 [PB11, HJ18]
𝑦 ≤ exp(𝜀) . 𝑃𝑟[𝑀(𝐷′) ∈ 𝑦] User Database [DC06] Dwork, Cynthia, Frank McSherry, Kobbi Nissim, and Adam Smith. "Calibrating noise to sensitivity in private data analysis." In Theory of cryptography conference, pp. 265-284. Springer, Berlin, Heidelberg, 2006. [DJ13] Duchi, John C., Michael I. Jordan, and Martin J. Wainwright. “Local privacy and statistical minimax rates.” In 2013 IEEE 54th Annual Symposium on Foundations of Computer Science, pp. 429-438. IEEE, 2013. 第三者 推測不可 センシティブ情報 +𝐿𝑎𝑝(𝜀) ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 3/15 すべての値に対して加⼯処理を⾏うためデータの有⽤性損失が⼤きい 第10期サイボウズ・ラボユース成果発表会 差分プライバシ (DP: Differential Privacy)
Ilya Mironov, Kunal Talwar, and Li Zhang. "Deep learning with differential privacy." In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security, pp. 308-318. 2016. [JJ18] Jordon, James, Jinsung Yoon, and Mihaela Van Der Schaar. "PATE-GAN: Generating synthetic data with differential privacy guarantees." In International Conference on Learning Representations. 2018. 深層学習モデルの勾配においてガウシアンノイズを付加して学習させ 出⼒される結果が差分プライバシを満⾜する⼿法を提案 [AM16, JJ18] 提供 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review Feature Space 6 𝑃𝑟[𝑥] 𝑃𝑟[𝑥] Feature Space ⽣成データの確率分布 正解データの確率分布 深層学習モデル 𝜃 SGD + DP 5/15 第10期サイボウズ・ラボユース成果発表会 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 勾配に⼤量のノイズがのってしまうと有⽤な変換は不可 変換テキスト 差分プライベート深層学習モデル
⋮ Washington 1,6 Term Document United Status 1,3,5 United Status 2,10 ⋮ ⋮ United Status 1,6 ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 'War movie' is a Hollywood genre that has been done and redone so many times that clichéd dialogue, ... 元テキスト 知識グラフ 学習済みBERTモデルによって上位概念を保持する固有表現を抽出して 知識グラフ[ST20]による⼀般化を⾏いk匿名性を満⾜する [ST20] Sasada, Taisho, Yuzo Taenaka, and Youki Kadobayashi. "Anonymizing Location Information in Unstructured Text Using Knowledge Graph." In Proceedings of the 22nd International Conference on Information Integration and Web-based Applications & Services, pp. 163-167. 2020. LOC : Hollywood 第10期サイボウズ・ラボユース成果発表会 準識別⼦の抽出と⼀般化
Information in Unstructured Text Using Knowledge Graph." In Proceedings of the 22nd International Conference on Information Integration and Web-based Applications & Services, pp. 163-167. 2020. 抽出した準識別⼦を𝑘-匿名性を満⾜するまで⼀般化[ST20] ⼀意な固有表現をk-匿名化することで重複を多数作成する UC Berkeley University EdgeProperty : inAddr EdgeProperty : inAddr EdgeProperty : inAddr Los Angeles California United States Generalization Generalization Generalization Construct Store Neo4j GIS EdgeProperty : category 10/15 第10期サイボウズ・ラボユース成果発表会 ナレッジグラフの構築
𝛽" 𝜂 Loss Function 𝑁(0, 𝜎"𝐶"𝐼) パラメータ 学習率 , 𝜙 ガウシアンノイズ [Obama is an American politician] LSTM LSTM Encoder Decoder Embedding Embedding [O.B is a politician] ~~~~~~~~~~~ ~~~~~~~~~~~ User Review ~~~~~~~~~~~ ~~~~~~~~~~~ User Review 11/15 第10期サイボウズ・ラボユース成果発表会 変換
RBFカーネルSVM 多項Logistic回帰 Decision Tree (C4.5) Random Forest 実験評価 (1)有⽤性損失 (2)プライバシ損失 実験評価 抽出した準識別⼦を𝑘-匿名性を満⾜するまで⼀般化 ⼀意な固有表現をk-匿名化することで重複を多数作成する Ø データセット IMDB Dataset [MA11] [MA11]Maas, Andrew, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. "Learning word vectors for sentiment analysis." In Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies, pp. 142-150. 2011. 12/15 第10期サイボウズ・ラボユース成果発表会 DP-ED