$30 off During Our Annual Pro Sale. View Details »

差分プライベート深層変換モデルによる テキストプライバシの保護/cybozulabs-youth10-sasada

差分プライベート深層変換モデルによる テキストプライバシの保護/cybozulabs-youth10-sasada

Cybozu
PRO

March 31, 2021
Tweet

More Decks by Cybozu

Other Decks in Technology

Transcript

  1. 笹⽥ ⼤翔
    差分プライベート深層変換モデルによる
    テキストプライバシの保護
    サイボウズ・ラボ株式会社 第10期ラボユース
    機械学習/⾃然⾔語処理に関するソフトウェア開発

    View Slide

  2. ⾃⼰紹介
    第10期サイボウズ・ラボユース成果発表会
    Name : 笹⽥ ⼤翔 (Taisho Sasada)
    Affiliation : 奈良先端科学技術⼤学院⼤学
    Hobby : バイオリン,旅⾏,ドライブ
    研究室: サイバーレジリエンス構成学研究室 (ZTNやLocal 5G,SDN系)

    View Slide

  3. プライバシ保護の必要性
    [NK21] 政府、LINEに報告要求 個人情報保護委や総務省 , 最
    終閲覧日:2021年3月24日
    1/15
    第10期サイボウズ・ラボユース成果発表会
    名前
    住所
    電話番号
    性別
    個⼈情報は本⼈の同意なく提供してできず収集後も
    安全に管理されているのか把握する必要がある[NK21]
    不適切な管理は個⼈情報の漏洩につながる
    個⼈情報を扱うサービス
    収集 監視

    View Slide

  4. テキストデータの利活⽤
    [PB11] Park, Byung-Kwon, and Il-Yeol Song. "Toward total business intelligence incorporating structured and unstructured data.”
    In Proceedings of the 2nd International Workshop on Business intelligencE and the WEB, pp. 12-19. 2011.
    [HJ18] Howard, Jeremy, and Sebastian Ruder. "Universal Language Model Fine-tuning for Text Classification." In Proceedings of the
    56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 328-339. 2018.
    1/15
    第10期サイボウズ・ラボユース成果発表会
    個⼈の識別を防ぎつつデータ提供を⾏うためにプライバシ保護加⼯が必要
    提供
    ユーザ⽣成テキスト
    推測
    センシティブ情報
    プライバシ漏洩
    ~~~~~~~
    ~~~~~~~
    User Review
    ユーザ⽣成テキストの提供によるデータ事業創出の需要が増加 [PB11, HJ18]

    View Slide

  5. ランダム化機構𝑀を通して返される結果から得られる情報が少ないため
    出⼒におけるプライバシが保護される指標 [DC06, DJ13]
    DP : 𝑃𝑟 𝑀 𝐷 ∈ 𝑦 ≤ exp(𝜀) . 𝑃𝑟[𝑀(𝐷′) ∈ 𝑦]
    User
    Database
    [DC06] Dwork, Cynthia, Frank McSherry, Kobbi Nissim, and Adam Smith. "Calibrating noise to sensitivity in private data analysis."
    In Theory of cryptography conference, pp. 265-284. Springer, Berlin, Heidelberg, 2006.
    [DJ13] Duchi, John C., Michael I. Jordan, and Martin J. Wainwright. “Local privacy and statistical minimax rates.” In 2013 IEEE 54th
    Annual Symposium on Foundations of Computer Science, pp. 429-438. IEEE, 2013.
    第三者
    推測不可
    センシティブ情報
    +𝐿𝑎𝑝(𝜀)
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    3/15
    すべての値に対して加⼯処理を⾏うためデータの有⽤性損失が⼤きい
    第10期サイボウズ・ラボユース成果発表会
    差分プライバシ (DP: Differential Privacy)

    View Slide

  6. 本研究の⽬的
    プライバシを保護した安全なテキスト提供を⾏い
    テキストデータ利活⽤の促進
    User
    第三者
    推測不可
    センシティブ情報
    収集 提供
    +𝐿𝑎𝑝(𝜀)
    有⽤性損失の抑制とプライバシ保護の両⽴
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    4/15
    第10期サイボウズ・ラボユース成果発表会

    View Slide

  7. [AM16] Abadi, Martin, Andy Chu, Ian Goodfellow, H. Brendan McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. "Deep learning with
    differential privacy." In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security, pp. 308-318. 2016.
    [JJ18] Jordon, James, Jinsung Yoon, and Mihaela Van Der Schaar. "PATE-GAN: Generating synthetic data with differential privacy
    guarantees." In International Conference on Learning Representations. 2018.
    深層学習モデルの勾配においてガウシアンノイズを付加して学習させ
    出⼒される結果が差分プライバシを満⾜する⼿法を提案 [AM16, JJ18]
    提供
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    Feature Space
    6
    𝑃𝑟[𝑥] 𝑃𝑟[𝑥]
    Feature Space
    ⽣成データの確率分布 正解データの確率分布
    深層学習モデル
    𝜃
    SGD
    +
    DP
    5/15
    第10期サイボウズ・ラボユース成果発表会
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    勾配に⼤量のノイズがのってしまうと有⽤な変換は不可
    変換テキスト
    差分プライベート深層学習モデル

    View Slide

  8. Term Value
    Bob 10
    ⋮ ⋮
    Carol 1
    Adversary
    [SJ14] Soria-Comas, Jordi, Josep Domingo-Ferrer, David Sánchez, and Sergio Martínez. "Enhancing data utility
    in differential privacy via microaggregation-based k-anonymity." The VLDB Journal 23, no. 5 (2014): 771-794.
    k-匿名性を満⾜させてからノイズを付加することで
    少量のノイズで差分プライバシを満⾜できる [SJ14]
    背景知識
    重複が多いとノイズ量が少なくても⽋損した場合と区別しずらい
    6/15
    第10期サイボウズ・ラボユース成果発表会
    差分プライバシにおけるノイズ付加量低減

    View Slide

  9. Term Value
    Bob 10
    ⋮ ⋮
    Carol 1
    Adversary
    [SJ14] Soria-Comas, Jordi, Josep Domingo-Ferrer, David Sánchez, and Sergio Martínez. "Enhancing data utility
    in differential privacy via microaggregation-based k-anonymity." The VLDB Journal 23, no. 5 (2014): 771-794.
    k-匿名性を満⾜させてからノイズを付加することで
    少量のノイズで差分プライバシを満⾜できる [SJ14]
    背景知識
    重複が多いとノイズ量が少なくても⽋損した場合と区別しずらい
    6/15
    第10期サイボウズ・ラボユース成果発表会
    差分プライバシにおけるノイズ付加量低減

    View Slide

  10. 深層⽣成モデル
    第三者
    変換
    疑似テキスト
    提供
    知識グラフ
    準識別⼦抽出
    収集したテキストから重複作成が可能な固有表現を学習済みBERTで抽出
    ⼀意な表現を⼀般化してノイズ付加量を低減し差分プライバシを満⾜
    ⼀般化
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    8/15
    第10期サイボウズ・ラボユース成果発表会
    提案⼿法概要

    View Slide

  11. 9/15
    準識別⼦辞書
    BERT
    Term Document
    Atlanta 1,3,5
    Anaheim 2,10
    ⋮ ⋮
    Washington 1,6
    Term Document
    United Status 1,3,5
    United Status 2,10
    ⋮ ⋮
    United Status 1,6
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    'War movie' is a Hollywood genre that has been done
    and redone so many times that clichéd dialogue, ...
    元テキスト
    知識グラフ
    学習済みBERTモデルによって上位概念を保持する固有表現を抽出して
    知識グラフ[ST20]による⼀般化を⾏いk匿名性を満⾜する
    [ST20] Sasada, Taisho, Yuzo Taenaka, and Youki Kadobayashi. "Anonymizing Location Information in Unstructured Text Using
    Knowledge Graph." In Proceedings of the 22nd International Conference on Information Integration and Web-based Applications &
    Services, pp. 163-167. 2020.
    LOC : Hollywood
    第10期サイボウズ・ラボユース成果発表会
    準識別⼦の抽出と⼀般化

    View Slide

  12. [ST20] Sasada, Taisho, Yuzo Taenaka, and Youki Kadobayashi. "Anonymizing Location Information in Unstructured Text Using
    Knowledge Graph." In Proceedings of the 22nd International Conference on Information Integration and Web-based Applications &
    Services, pp. 163-167. 2020.
    抽出した準識別⼦を𝑘-匿名性を満⾜するまで⼀般化[ST20]
    ⼀意な固有表現をk-匿名化することで重複を多数作成する
    UC Berkeley
    University
    EdgeProperty :
    inAddr
    EdgeProperty :
    inAddr
    EdgeProperty :
    inAddr
    Los Angeles
    California
    United States
    Generalization
    Generalization
    Generalization
    Construct
    Store
    Neo4j
    GIS
    EdgeProperty :
    category
    10/15
    第10期サイボウズ・ラボユース成果発表会
    ナレッジグラフの構築

    View Slide

  13. 差分プライベートEncoder-Decoder(DP E-D)
    Encoder - Decoder
    Adam + DP
    𝛽!
    , 𝛽"
    𝜂
    Loss Function
    𝑁(0, 𝜎"𝐶"𝐼)
    パラメータ 学習率
    , 𝜙
    ガウシアンノイズ
    [Obama
    is
    an
    American
    politician]
    LSTM LSTM
    Encoder Decoder
    Embedding Embedding
    [O.B
    is
    a
    politician]
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    11/15
    第10期サイボウズ・ラボユース成果発表会
    変換

    View Slide

  14. 評価実験
    実験概要
    ⼀般化によるk匿名
    モデル構築+ノイズ
    疑似テキスト⽣成
    ⼀般化
    ⽣成モデル構築
    Ø ML Model
    RBFカーネルSVM
    多項Logistic回帰
    Decision Tree (C4.5)
    Random Forest
    実験評価
    (1)有⽤性損失
    (2)プライバシ損失
    実験評価
    抽出した準識別⼦を𝑘-匿名性を満⾜するまで⼀般化
    ⼀意な固有表現をk-匿名化することで重複を多数作成する
    Ø データセット
    IMDB Dataset [MA11]
    [MA11]Maas, Andrew, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. "Learning word
    vectors for sentiment analysis." In Proceedings of the 49th annual meeting of the association for computational linguistics: Human
    language technologies, pp. 142-150. 2011.
    12/15
    第10期サイボウズ・ラボユース成果発表会
    DP-ED

    View Slide

  15. 実験1: データ有⽤性損失
    プライバシが保護されていたとしても与えられているタスクに
    有⽤なモデルが構築できるとは限らない[OL18]
    変換
    第三者
    提供
    DP-ED
    提案⼿法(DPvG E-D)の⽅が
    F値の精度差が⼩さい
    極性判定の
    精度劣化抑制に貢献
    オリジナルテキストとの精度差
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    diff F-value
    [OL18] Ou, Lu, Zheng Qin, Shaolin Liao, Yuan Hong, and Xiaohua Jia. "Releasing correlated trajectories: Towards high utility
    and optimal differential privacy." IEEE Transactions on Dependable and Secure Computing 17, no. 5 (2018): 1109-1123.
    13/15
    第10期サイボウズ・ラボユース成果発表会

    View Slide

  16. 実験2: 疑似テキストの⾮可逆性
    ⽣成した疑似テキストから元のテキストが可逆関係にある場合
    要求されるプライバシが保護されているとは⾔えない
    ⽣成
    ⽣成モデルから出⼒される
    単語の無作為性はわずかに減少
    ⼀般化後
    付与ラベルの異なるテキスト同⼠の
    コサイン類似度低下
    DP E-D DPvG E-D
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review
    ~~~~~~~~~~~
    ~~~~~~~~~~~
    User Review

    疑似テキスト 元テキスト
    14/15
    第10期サイボウズ・ラボユース成果発表会
    DP-ED

    View Slide

  17. 本研究のまとめ
    1. ラベルごとに⽣成するコンディショナルモデルへの拡張
    今後の課題
    研究⽬的 有⽤性損失の抑制とプライバシ保護の両⽴
    提案
    ナレッジグラフによる⼀般化で
    ノイズ付加量を低減したDP変換
    2. 疑似メンバシップ推論による評価
    15/15
    第10期サイボウズ・ラボユース成果発表会

    View Slide