Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-S...

Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical

2023年上期のメディアAI PJの内部勉強会で発表したデータポイズニングについての資料です。ウェブスケールデータセットに対するポイズニングの実現可能性について調査した論文の紹介を行いました。

NTT Communications

December 14, 2023
Tweet

More Decks by NTT Communications

Other Decks in Research

Transcript

  1. © NTT Communications Corporation All Rights Reserved. メディアAI PJ 勉強会

    論文紹介: Webスケールデータセットに対する 実用的なポイズニング手法 Poisoning Web-Scale Training Datasets is Practical 2023年4月26日 加藤 善夫
  2. © NTT Communications Corporation All Rights Reserved. 2 この論文を読もうと思ったきっかけ Data

    poisoningの実現可能性についてGoogleらが発 表した論文のニュース https://www.itmedia.co.jp/news/articles/2304/05/news050.html 最近の大規模言語モデル(画像生成も)はWebから情報を集 めており、悪いデータを仕込むことは可能のはずだが、実際簡 単にできるらしいという報告 セキュリティ系に興味があるのでこれを読んだ
  3. © NTT Communications Corporation All Rights Reserved. 3 Abstract https://arxiv.org/abs/2302.10149

    二つのdataset poisoning手法の提案 1. Webページのすり替え:クローリングした時とユーザー(学習を回す人)が見るときで内容が異なる • Web検索にもありがちな問題っぽい • ハッシュ値などで改変を検知することで対策 • ただし、re-encodingなど「良性な改変」に対する誤検知が問題になる 2. Snapshotへの注入:Wikipediaのスナップショットのタイミングで誤情報を仕込む(←邪悪!) • スナップショットタイミングを予測困難にすることで対策 60ドルの費用でLAION-400MやCOYO-700Mの0.01%を汚染することができた データセット管理者, Wikipediaに脆弱性を開示した
  4. © NTT Communications Corporation All Rights Reserved. 4 Intro Webから収集するタイプのBillionスケールのデータセットが出てきている

    • Common Crawl dataset : ペタバイト級テキストデータセット • C4[2] dataset : Common Crawlのフィルター版。英語のみのクリーンデータで806GB • GPT-3 [1] dataset : 下図 • Whisper[3] (音声認識) : 680K hours • LAION-5B[4] (text2image) : “5.85 billion image-text pairs” GPT-3の学習データ [1] OpenAI, Language models are few-shot learners. 2020 (https://arxiv.org/abs/2005.14165) [2] Google, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 2020 (https://arxiv.org/abs/1910.10683) [3] OpenAI, Whisper (https://openai.com/research/whisper) [4] LAION, LAION-5B: An open large-scale dataset for training next generation image-text models. 2022 (https://arxiv.org/abs/2210.08402)
  5. © NTT Communications Corporation All Rights Reserved. 5 攻撃的なノイズ 最近のモデルはランダムなノイズには強いものの、悪意を持ったノイズに対しては弱いことが知られている

    Data poisoningと言われている 実際のデータセットにどう仕込むかは議論されていなかった 必ずしも嘘情報を仕込む必要はない: Semi-supervised learningに対する攻撃の例 (https://arxiv.org/abs/2105.01622 Figure 1c) ◦が正例、×が負例、⊗がunlabeled (pseudo label) 既知の正例からunlabeledデータを伸ばすことで決定境界を歪める N. Carlini, Poisoning the Unlabeled Dataset of Semi-Supervised Learning. 2021
  6. © NTT Communications Corporation All Rights Reserved. 6 攻撃者にとって必要な汚染率 N.

    Carlini, A. Terzis. Poisoning and Backdooring Contrastive Learning. ICLR 2022 https://arxiv.org/abs/2106.09667 • CLIPなどのContrastive learningに対する攻撃 • 0.01%のpoisoningでバックドアを設置可能 • 入力の特定の位置に小さなパッチがあるときに誤分類させる • 特定の入力に対する攻撃なら0.0001% (3M samplesに対して3 samples) で十分
  7. © NTT Communications Corporation All Rights Reserved. 7 データセットの種別 •

    Distributed dataset • URLとラベルのみを持ち、スナップショットを取らない • コスト、プライバシー、著作権などの理由で採用される • LAION-5B : 画像URLとキャプションのデータセット → split-view poisoningが有効 • Centralized dataset • スナップショットを定期的に取る • スクレイピングを禁止する代わりに提供したりする • Wikipedia, Common Crawlなど → frontrunning poisoningが有効
  8. © NTT Communications Corporation All Rights Reserved. 8 Split-view poisoning

    • 期限切れのドメインを買い取る(この攻撃自体はよくある;銀行ドメインやJavascriptライブラリなど) • 学習を回す研究者はURLしか持っていない→乗っ取り以降はpoisoned dataで学習させられる • 大規模データセットにおいて期限切れドメインはたっぷりある • 大体 年60$ あればデータセットの0.01%を支配できる Table 1. Expired: 二箇所のデータセンターから2022年5月と8月にnslookupを叩き、毎回NXDOMAINが帰ってきたもの Buyable: 2022/08時点でドメインが売りに出されていたもの
  9. © NTT Communications Corporation All Rights Reserved. 9 実際どれくらい効果があるか 乗っ取る前にダウンロードされたら意味がない

    実際にいくつかドメインを買い取り、その後どれくらい画像がダウンロードされたか監視した → 15million requests / month (6 requests / sec) Webクローラやただ見に来たユーザーと思われるアクセスを排除した結果、6ヶ月で800DLだった 実際にはpoison dataではなく404エラーを返している。 ルート‘/’には本研究の説明と連絡先を書いている。
  10. © NTT Communications Corporation All Rights Reserved. 11 Frontrunning poisoning

    • 言語モデルはWikipediaをかなり頼っている • BERTのtraining dataの75%はwikipedia-en • mBERTは104言語のwikipediaを利用 • Wikipediaの記事を編集することでpoisoningする • すぐ差し戻されるが、ダンプのタイミングに合わせればデータセットに仕込むことができる https://dumps.wikimedia.org
  11. © NTT Communications Corporation All Rights Reserved. 12 ダンプタイミングは予測可能 •

    毎月1日と20日にバックアップが取られるが、それなり(丸一日)に時間がかかる • ダンプの最終編集時刻を見てみると規則性がある(青い点がダンプに入ったコミット) • これを使うと平均27分の誤差で各記事のバックアップ時刻を予測可能 • Wikipedia-enは約35%の記事が差し戻しに30分以上かかることがわかっている → 差し戻しを食らう前にダンプに編集を差し込める確率は最大 6.5% (実際はIP banとかがあるのでもっと難しい) 30min
  12. © NTT Communications Corporation All Rights Reserved. 13 攻撃の対策(Abstract再掲) https://arxiv.org/abs/2302.10149

    二つのdataset poisoning手法の提案 1. Webページのすり替え:クローリングした時とユーザー(学習を回す人)が見るときで内容が異なる • Web検索にもありがちな問題っぽい • ハッシュ値などで改変を検知することで対策 • ただし、re-encodingなど「良性な改変」に対する誤検知が問題になる 2. Snapshotへの注入:Wikipediaのスナップショットのタイミングで誤情報を仕込む(←邪悪!) • スナップショットタイミングを予測困難にすることで対策 60ドルの費用でLAION-400MやCOYO-700Mの0.01%を汚染することができた データセット管理者, Wikipediaに脆弱性を開示した
  13. © NTT Communications Corporation All Rights Reserved. 14 Multilingual dataset

    の脆弱性 多言語対応モデルがよく使うデータセット Wiki-40B が対応する言語のpoisoning rate https://www.tensorflow.org/hub/tutorials/wiki40b_lm?hl=ja 記事の規模が小さいほど、ダンプタイミングの予測が正確になりpoisoning成功率が高くなる Ja
  14. © NTT Communications Corporation All Rights Reserved. 15 参考文献 •

    「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃 Googleなどが脆弱性を発表, ITmedia, https://www.itmedia.co.jp/news/articles/2304/05/news050.html • Carlini et al., Poisoning Web-Scale Training Datasets is Practical. https://arxiv.org/abs/2302.10149 • N. Carlini, Poisoning the Unlabeled Dataset of Semi-Supervised Learning. https://arxiv.org/abs/2105.01622 • N. Carlini & A. Terzis, Poisoning and Backdooring Contrastive Learning. https://arxiv.org/abs/2106.09667 • Wiki40B 言語モデル, TensorFlow, https://www.tensorflow.org/hub/tutorials/wiki40b_lm?hl=ja