Slide 1

Slide 1 text

© NTT Communications Corporation All Rights Reserved. メディアAI PJ 勉強会 論文紹介: Webスケールデータセットに対する 実用的なポイズニング手法 Poisoning Web-Scale Training Datasets is Practical 2023年4月26日 加藤 善夫

Slide 2

Slide 2 text

© NTT Communications Corporation All Rights Reserved. 2 この論文を読もうと思ったきっかけ Data poisoningの実現可能性についてGoogleらが発 表した論文のニュース https://www.itmedia.co.jp/news/articles/2304/05/news050.html 最近の大規模言語モデル(画像生成も)はWebから情報を集 めており、悪いデータを仕込むことは可能のはずだが、実際簡 単にできるらしいという報告 セキュリティ系に興味があるのでこれを読んだ

Slide 3

Slide 3 text

© NTT Communications Corporation All Rights Reserved. 3 Abstract https://arxiv.org/abs/2302.10149 二つのdataset poisoning手法の提案 1. Webページのすり替え:クローリングした時とユーザー(学習を回す人)が見るときで内容が異なる • Web検索にもありがちな問題っぽい • ハッシュ値などで改変を検知することで対策 • ただし、re-encodingなど「良性な改変」に対する誤検知が問題になる 2. Snapshotへの注入:Wikipediaのスナップショットのタイミングで誤情報を仕込む(←邪悪!) • スナップショットタイミングを予測困難にすることで対策 60ドルの費用でLAION-400MやCOYO-700Mの0.01%を汚染することができた データセット管理者, Wikipediaに脆弱性を開示した

Slide 4

Slide 4 text

© NTT Communications Corporation All Rights Reserved. 4 Intro Webから収集するタイプのBillionスケールのデータセットが出てきている • Common Crawl dataset : ペタバイト級テキストデータセット • C4[2] dataset : Common Crawlのフィルター版。英語のみのクリーンデータで806GB • GPT-3 [1] dataset : 下図 • Whisper[3] (音声認識) : 680K hours • LAION-5B[4] (text2image) : “5.85 billion image-text pairs” GPT-3の学習データ [1] OpenAI, Language models are few-shot learners. 2020 (https://arxiv.org/abs/2005.14165) [2] Google, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 2020 (https://arxiv.org/abs/1910.10683) [3] OpenAI, Whisper (https://openai.com/research/whisper) [4] LAION, LAION-5B: An open large-scale dataset for training next generation image-text models. 2022 (https://arxiv.org/abs/2210.08402)

Slide 5

Slide 5 text

© NTT Communications Corporation All Rights Reserved. 5 攻撃的なノイズ 最近のモデルはランダムなノイズには強いものの、悪意を持ったノイズに対しては弱いことが知られている Data poisoningと言われている 実際のデータセットにどう仕込むかは議論されていなかった 必ずしも嘘情報を仕込む必要はない: Semi-supervised learningに対する攻撃の例 (https://arxiv.org/abs/2105.01622 Figure 1c) ○が正例、×が負例、⊗がunlabeled (pseudo label) 既知の正例からunlabeledデータを伸ばすことで決定境界を歪める N. Carlini, Poisoning the Unlabeled Dataset of Semi-Supervised Learning. 2021

Slide 6

Slide 6 text

© NTT Communications Corporation All Rights Reserved. 6 攻撃者にとって必要な汚染率 N. Carlini, A. Terzis. Poisoning and Backdooring Contrastive Learning. ICLR 2022 https://arxiv.org/abs/2106.09667 • CLIPなどのContrastive learningに対する攻撃 • 0.01%のpoisoningでバックドアを設置可能 • 入力の特定の位置に小さなパッチがあるときに誤分類させる • 特定の入力に対する攻撃なら0.0001% (3M samplesに対して3 samples) で十分

Slide 7

Slide 7 text

© NTT Communications Corporation All Rights Reserved. 7 データセットの種別 • Distributed dataset • URLとラベルのみを持ち、スナップショットを取らない • コスト、プライバシー、著作権などの理由で採用される • LAION-5B : 画像URLとキャプションのデータセット → split-view poisoningが有効 • Centralized dataset • スナップショットを定期的に取る • スクレイピングを禁止する代わりに提供したりする • Wikipedia, Common Crawlなど → frontrunning poisoningが有効

Slide 8

Slide 8 text

© NTT Communications Corporation All Rights Reserved. 8 Split-view poisoning • 期限切れのドメインを買い取る(この攻撃自体はよくある;銀行ドメインやJavascriptライブラリなど) • 学習を回す研究者はURLしか持っていない→乗っ取り以降はpoisoned dataで学習させられる • 大規模データセットにおいて期限切れドメインはたっぷりある • 大体 年60$ あればデータセットの0.01%を支配できる Table 1. Expired: 二箇所のデータセンターから2022年5月と8月にnslookupを叩き、毎回NXDOMAINが帰ってきたもの Buyable: 2022/08時点でドメインが売りに出されていたもの

Slide 9

Slide 9 text

© NTT Communications Corporation All Rights Reserved. 9 実際どれくらい効果があるか 乗っ取る前にダウンロードされたら意味がない 実際にいくつかドメインを買い取り、その後どれくらい画像がダウンロードされたか監視した → 15million requests / month (6 requests / sec) Webクローラやただ見に来たユーザーと思われるアクセスを排除した結果、6ヶ月で800DLだった 実際にはpoison dataではなく404エラーを返している。 ルート‘/’には本研究の説明と連絡先を書いている。

Slide 10

Slide 10 text

© NTT Communications Corporation All Rights Reserved. 10 ダウンローダーの挙動 アクセスを見るとデータセットの利用者かどうかはわかりやすい アノテーションファイルのindex順に画像をダウンロードしている

Slide 11

Slide 11 text

© NTT Communications Corporation All Rights Reserved. 11 Frontrunning poisoning • 言語モデルはWikipediaをかなり頼っている • BERTのtraining dataの75%はwikipedia-en • mBERTは104言語のwikipediaを利用 • Wikipediaの記事を編集することでpoisoningする • すぐ差し戻されるが、ダンプのタイミングに合わせればデータセットに仕込むことができる https://dumps.wikimedia.org

Slide 12

Slide 12 text

© NTT Communications Corporation All Rights Reserved. 12 ダンプタイミングは予測可能 • 毎月1日と20日にバックアップが取られるが、それなり(丸一日)に時間がかかる • ダンプの最終編集時刻を見てみると規則性がある(青い点がダンプに入ったコミット) • これを使うと平均27分の誤差で各記事のバックアップ時刻を予測可能 • Wikipedia-enは約35%の記事が差し戻しに30分以上かかることがわかっている → 差し戻しを食らう前にダンプに編集を差し込める確率は最大 6.5% (実際はIP banとかがあるのでもっと難しい) 30min

Slide 13

Slide 13 text

© NTT Communications Corporation All Rights Reserved. 13 攻撃の対策(Abstract再掲) https://arxiv.org/abs/2302.10149 二つのdataset poisoning手法の提案 1. Webページのすり替え:クローリングした時とユーザー(学習を回す人)が見るときで内容が異なる • Web検索にもありがちな問題っぽい • ハッシュ値などで改変を検知することで対策 • ただし、re-encodingなど「良性な改変」に対する誤検知が問題になる 2. Snapshotへの注入:Wikipediaのスナップショットのタイミングで誤情報を仕込む(←邪悪!) • スナップショットタイミングを予測困難にすることで対策 60ドルの費用でLAION-400MやCOYO-700Mの0.01%を汚染することができた データセット管理者, Wikipediaに脆弱性を開示した

Slide 14

Slide 14 text

© NTT Communications Corporation All Rights Reserved. 14 Multilingual dataset の脆弱性 多言語対応モデルがよく使うデータセット Wiki-40B が対応する言語のpoisoning rate https://www.tensorflow.org/hub/tutorials/wiki40b_lm?hl=ja 記事の規模が小さいほど、ダンプタイミングの予測が正確になりpoisoning成功率が高くなる Ja

Slide 15

Slide 15 text

© NTT Communications Corporation All Rights Reserved. 15 参考文献 • 「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃 Googleなどが脆弱性を発表, ITmedia, https://www.itmedia.co.jp/news/articles/2304/05/news050.html • Carlini et al., Poisoning Web-Scale Training Datasets is Practical. https://arxiv.org/abs/2302.10149 • N. Carlini, Poisoning the Unlabeled Dataset of Semi-Supervised Learning. https://arxiv.org/abs/2105.01622 • N. Carlini & A. Terzis, Poisoning and Backdooring Contrastive Learning. https://arxiv.org/abs/2106.09667 • Wiki40B 言語モデル, TensorFlow, https://www.tensorflow.org/hub/tutorials/wiki40b_lm?hl=ja