Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical

Slide 1

Slide 1 text

Slide 2

Slide 2 text

© NTT Communications Corporation All Rights Reserved. 2 この論文を読もうと思ったきっかけ Data poisoningの実現可能性についてGoogleらが発表した論文のニュース https://www.itmedia.co.jp/news/articles/2304/05/news050.html 最近の大規模言語モデル（画像生成も）はWebから情報を集めており、悪いデータを仕込むことは可能のはずだが、実際簡単にできるらしいという報告セキュリティ系に興味があるのでこれを読んだ

Slide 3

Slide 3 text

© NTT Communications Corporation All Rights Reserved. 3 Abstract https://arxiv.org/abs/2302.10149 二つのdataset poisoning手法の提案 1. Webページのすり替え：クローリングした時とユーザー(学習を回す人)が見るときで内容が異なる • Web検索にもありがちな問題っぽい • ハッシュ値などで改変を検知することで対策 • ただし、re-encodingなど「良性な改変」に対する誤検知が問題になる 2. Snapshotへの注入：Wikipediaのスナップショットのタイミングで誤情報を仕込む（←邪悪！） • スナップショットタイミングを予測困難にすることで対策 60ドルの費用でLAION-400MやCOYO-700Mの0.01%を汚染することができたデータセット管理者, Wikipediaに脆弱性を開示した

Slide 4

Slide 4 text

© NTT Communications Corporation All Rights Reserved. 4 Intro Webから収集するタイプのBillionスケールのデータセットが出てきている • Common Crawl dataset : ペタバイト級テキストデータセット • C4[2] dataset : Common Crawlのフィルター版。英語のみのクリーンデータで806GB • GPT-3 [1] dataset : 下図 • Whisper[3] (音声認識) : 680K hours • LAION-5B[4] (text2image) : “5.85 billion image-text pairs” GPT-3の学習データ [1] OpenAI, Language models are few-shot learners. 2020 (https://arxiv.org/abs/2005.14165) [2] Google, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 2020 (https://arxiv.org/abs/1910.10683) [3] OpenAI, Whisper (https://openai.com/research/whisper) [4] LAION, LAION-5B: An open large-scale dataset for training next generation image-text models. 2022 (https://arxiv.org/abs/2210.08402)

Slide 5

Slide 5 text

© NTT Communications Corporation All Rights Reserved. 5 攻撃的なノイズ最近のモデルはランダムなノイズには強いものの、悪意を持ったノイズに対しては弱いことが知られている Data poisoningと言われている実際のデータセットにどう仕込むかは議論されていなかった必ずしも嘘情報を仕込む必要はない： Semi-supervised learningに対する攻撃の例 (https://arxiv.org/abs/2105.01622 Figure 1c) ○が正例、×が負例、⊗がunlabeled (pseudo label) 既知の正例からunlabeledデータを伸ばすことで決定境界を歪める N. Carlini, Poisoning the Unlabeled Dataset of Semi-Supervised Learning. 2021

Slide 6

Slide 6 text

© NTT Communications Corporation All Rights Reserved. 6 攻撃者にとって必要な汚染率 N. Carlini, A. Terzis. Poisoning and Backdooring Contrastive Learning. ICLR 2022 https://arxiv.org/abs/2106.09667 • CLIPなどのContrastive learningに対する攻撃 • 0.01%のpoisoningでバックドアを設置可能 • 入力の特定の位置に小さなパッチがあるときに誤分類させる • 特定の入力に対する攻撃なら0.0001% (3M samplesに対して3 samples) で十分

Slide 7

Slide 7 text

© NTT Communications Corporation All Rights Reserved. 7 データセットの種別 • Distributed dataset • URLとラベルのみを持ち、スナップショットを取らない • コスト、プライバシー、著作権などの理由で採用される • LAION-5B : 画像URLとキャプションのデータセット → split-view poisoningが有効 • Centralized dataset • スナップショットを定期的に取る • スクレイピングを禁止する代わりに提供したりする • Wikipedia, Common Crawlなど → frontrunning poisoningが有効

Slide 8

Slide 8 text

© NTT Communications Corporation All Rights Reserved. 8 Split-view poisoning • 期限切れのドメインを買い取る（この攻撃自体はよくある；銀行ドメインやJavascriptライブラリなど） • 学習を回す研究者はURLしか持っていない→乗っ取り以降はpoisoned dataで学習させられる • 大規模データセットにおいて期限切れドメインはたっぷりある • 大体年60$ あればデータセットの0.01%を支配できる Table 1. Expired: 二箇所のデータセンターから2022年5月と8月にnslookupを叩き、毎回NXDOMAINが帰ってきたもの Buyable: 2022/08時点でドメインが売りに出されていたもの

Slide 9

Slide 9 text

© NTT Communications Corporation All Rights Reserved. 9 実際どれくらい効果があるか乗っ取る前にダウンロードされたら意味がない実際にいくつかドメインを買い取り、その後どれくらい画像がダウンロードされたか監視した → 15million requests / month (6 requests / sec) Webクローラやただ見に来たユーザーと思われるアクセスを排除した結果、６ヶ月で800DLだった実際にはpoison dataではなく404エラーを返している。ルート‘/’には本研究の説明と連絡先を書いている。

Slide 10

Slide 10 text

Slide 11

Slide 11 text

© NTT Communications Corporation All Rights Reserved. 11 Frontrunning poisoning • 言語モデルはWikipediaをかなり頼っている • BERTのtraining dataの75%はwikipedia-en • mBERTは104言語のwikipediaを利用 • Wikipediaの記事を編集することでpoisoningする • すぐ差し戻されるが、ダンプのタイミングに合わせればデータセットに仕込むことができる https://dumps.wikimedia.org

Slide 12

Slide 12 text

© NTT Communications Corporation All Rights Reserved. 12 ダンプタイミングは予測可能 • 毎月1日と20日にバックアップが取られるが、それなり（丸一日）に時間がかかる • ダンプの最終編集時刻を見てみると規則性がある（青い点がダンプに入ったコミット） • これを使うと平均27分の誤差で各記事のバックアップ時刻を予測可能 • Wikipedia-enは約35%の記事が差し戻しに30分以上かかることがわかっている → 差し戻しを食らう前にダンプに編集を差し込める確率は最大 6.5% (実際はIP banとかがあるのでもっと難しい) 30min

Slide 13

Slide 13 text

© NTT Communications Corporation All Rights Reserved. 13 攻撃の対策（Abstract再掲） https://arxiv.org/abs/2302.10149 二つのdataset poisoning手法の提案 1. Webページのすり替え：クローリングした時とユーザー(学習を回す人)が見るときで内容が異なる • Web検索にもありがちな問題っぽい • ハッシュ値などで改変を検知することで対策 • ただし、re-encodingなど「良性な改変」に対する誤検知が問題になる 2. Snapshotへの注入：Wikipediaのスナップショットのタイミングで誤情報を仕込む（←邪悪！） • スナップショットタイミングを予測困難にすることで対策 60ドルの費用でLAION-400MやCOYO-700Mの0.01%を汚染することができたデータセット管理者, Wikipediaに脆弱性を開示した

Slide 14

Slide 14 text

© NTT Communications Corporation All Rights Reserved. 14 Multilingual dataset の脆弱性多言語対応モデルがよく使うデータセット Wiki-40B が対応する言語のpoisoning rate https://www.tensorflow.org/hub/tutorials/wiki40b_lm?hl=ja 記事の規模が小さいほど、ダンプタイミングの予測が正確になりpoisoning成功率が高くなる Ja

Slide 15

Slide 15 text

© NTT Communications Corporation All Rights Reserved. 15 参考文献 • 「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃 Googleなどが脆弱性を発表, ITmedia, https://www.itmedia.co.jp/news/articles/2304/05/news050.html • Carlini et al., Poisoning Web-Scale Training Datasets is Practical. https://arxiv.org/abs/2302.10149 • N. Carlini, Poisoning the Unlabeled Dataset of Semi-Supervised Learning. https://arxiv.org/abs/2105.01622 • N. Carlini & A. Terzis, Poisoning and Backdooring Contrastive Learning. https://arxiv.org/abs/2106.09667 • Wiki40B 言語モデル, TensorFlow, https://www.tensorflow.org/hub/tutorials/wiki40b_lm?hl=ja