Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical

Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical

2023年上期のメディアAI PJの内部勉強会で発表したデータポイズニングについての資料です。ウェブスケールデータセットに対するポイズニングの実現可能性について調査した論文の紹介を行いました。

NTT Communications

December 14, 2023
Tweet

More Decks by NTT Communications

Other Decks in Research

Transcript

  1. © NTT Communications Corporation All Rights Reserved.
    メディアAI PJ 勉強会
    論文紹介: Webスケールデータセットに対する
    実用的なポイズニング手法
    Poisoning Web-Scale Training Datasets is Practical
    2023年4月26日
    加藤 善夫

    View full-size slide

  2. © NTT Communications Corporation All Rights Reserved. 2
    この論文を読もうと思ったきっかけ
    Data poisoningの実現可能性についてGoogleらが発
    表した論文のニュース
    https://www.itmedia.co.jp/news/articles/2304/05/news050.html
    最近の大規模言語モデル(画像生成も)はWebから情報を集
    めており、悪いデータを仕込むことは可能のはずだが、実際簡
    単にできるらしいという報告
    セキュリティ系に興味があるのでこれを読んだ

    View full-size slide

  3. © NTT Communications Corporation All Rights Reserved. 3
    Abstract
    https://arxiv.org/abs/2302.10149
    二つのdataset poisoning手法の提案
    1. Webページのすり替え:クローリングした時とユーザー(学習を回す人)が見るときで内容が異なる
    • Web検索にもありがちな問題っぽい
    • ハッシュ値などで改変を検知することで対策
    • ただし、re-encodingなど「良性な改変」に対する誤検知が問題になる
    2. Snapshotへの注入:Wikipediaのスナップショットのタイミングで誤情報を仕込む(←邪悪!)
    • スナップショットタイミングを予測困難にすることで対策
    60ドルの費用でLAION-400MやCOYO-700Mの0.01%を汚染することができた
    データセット管理者, Wikipediaに脆弱性を開示した

    View full-size slide

  4. © NTT Communications Corporation All Rights Reserved. 4
    Intro
    Webから収集するタイプのBillionスケールのデータセットが出てきている
    • Common Crawl dataset : ペタバイト級テキストデータセット
    • C4[2] dataset : Common Crawlのフィルター版。英語のみのクリーンデータで806GB
    • GPT-3 [1] dataset : 下図
    • Whisper[3] (音声認識) : 680K hours
    • LAION-5B[4] (text2image) : “5.85 billion image-text pairs”
    GPT-3の学習データ
    [1] OpenAI, Language models are few-shot learners. 2020 (https://arxiv.org/abs/2005.14165)
    [2] Google, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 2020 (https://arxiv.org/abs/1910.10683)
    [3] OpenAI, Whisper (https://openai.com/research/whisper)
    [4] LAION, LAION-5B: An open large-scale dataset for training next generation image-text models. 2022 (https://arxiv.org/abs/2210.08402)

    View full-size slide

  5. © NTT Communications Corporation All Rights Reserved. 5
    攻撃的なノイズ
    最近のモデルはランダムなノイズには強いものの、悪意を持ったノイズに対しては弱いことが知られている
    Data poisoningと言われている
    実際のデータセットにどう仕込むかは議論されていなかった
    必ずしも嘘情報を仕込む必要はない:
    Semi-supervised learningに対する攻撃の例
    (https://arxiv.org/abs/2105.01622 Figure 1c)
    ○が正例、×が負例、⊗がunlabeled (pseudo label)
    既知の正例からunlabeledデータを伸ばすことで決定境界を歪める
    N. Carlini, Poisoning the Unlabeled Dataset of Semi-Supervised Learning. 2021

    View full-size slide

  6. © NTT Communications Corporation All Rights Reserved. 6
    攻撃者にとって必要な汚染率
    N. Carlini, A. Terzis. Poisoning and Backdooring Contrastive Learning.
    ICLR 2022
    https://arxiv.org/abs/2106.09667
    • CLIPなどのContrastive learningに対する攻撃
    • 0.01%のpoisoningでバックドアを設置可能
    • 入力の特定の位置に小さなパッチがあるときに誤分類させる
    • 特定の入力に対する攻撃なら0.0001% (3M samplesに対して3
    samples) で十分

    View full-size slide

  7. © NTT Communications Corporation All Rights Reserved. 7
    データセットの種別
    • Distributed dataset
    • URLとラベルのみを持ち、スナップショットを取らない
    • コスト、プライバシー、著作権などの理由で採用される
    • LAION-5B : 画像URLとキャプションのデータセット
    → split-view poisoningが有効
    • Centralized dataset
    • スナップショットを定期的に取る
    • スクレイピングを禁止する代わりに提供したりする
    • Wikipedia, Common Crawlなど
    → frontrunning poisoningが有効

    View full-size slide

  8. © NTT Communications Corporation All Rights Reserved. 8
    Split-view poisoning
    • 期限切れのドメインを買い取る(この攻撃自体はよくある;銀行ドメインやJavascriptライブラリなど)
    • 学習を回す研究者はURLしか持っていない→乗っ取り以降はpoisoned dataで学習させられる
    • 大規模データセットにおいて期限切れドメインはたっぷりある
    • 大体 年60$ あればデータセットの0.01%を支配できる
    Table 1.
    Expired: 二箇所のデータセンターから2022年5月と8月にnslookupを叩き、毎回NXDOMAINが帰ってきたもの
    Buyable: 2022/08時点でドメインが売りに出されていたもの

    View full-size slide

  9. © NTT Communications Corporation All Rights Reserved. 9
    実際どれくらい効果があるか
    乗っ取る前にダウンロードされたら意味がない
    実際にいくつかドメインを買い取り、その後どれくらい画像がダウンロードされたか監視した
    → 15million requests / month (6 requests / sec)
    Webクローラやただ見に来たユーザーと思われるアクセスを排除した結果、6ヶ月で800DLだった
    実際にはpoison dataではなく404エラーを返している。
    ルート‘/’には本研究の説明と連絡先を書いている。

    View full-size slide

  10. © NTT Communications Corporation All Rights Reserved. 10
    ダウンローダーの挙動
    アクセスを見るとデータセットの利用者かどうかはわかりやすい
    アノテーションファイルのindex順に画像をダウンロードしている

    View full-size slide

  11. © NTT Communications Corporation All Rights Reserved. 11
    Frontrunning poisoning
    • 言語モデルはWikipediaをかなり頼っている
    • BERTのtraining dataの75%はwikipedia-en
    • mBERTは104言語のwikipediaを利用
    • Wikipediaの記事を編集することでpoisoningする
    • すぐ差し戻されるが、ダンプのタイミングに合わせればデータセットに仕込むことができる
    https://dumps.wikimedia.org

    View full-size slide

  12. © NTT Communications Corporation All Rights Reserved. 12
    ダンプタイミングは予測可能
    • 毎月1日と20日にバックアップが取られるが、それなり(丸一日)に時間がかかる
    • ダンプの最終編集時刻を見てみると規則性がある(青い点がダンプに入ったコミット)
    • これを使うと平均27分の誤差で各記事のバックアップ時刻を予測可能
    • Wikipedia-enは約35%の記事が差し戻しに30分以上かかることがわかっている
    → 差し戻しを食らう前にダンプに編集を差し込める確率は最大 6.5% (実際はIP banとかがあるのでもっと難しい)
    30min

    View full-size slide

  13. © NTT Communications Corporation All Rights Reserved. 13
    攻撃の対策(Abstract再掲)
    https://arxiv.org/abs/2302.10149
    二つのdataset poisoning手法の提案
    1. Webページのすり替え:クローリングした時とユーザー(学習を回す人)が見るときで内容が異なる
    • Web検索にもありがちな問題っぽい
    • ハッシュ値などで改変を検知することで対策
    • ただし、re-encodingなど「良性な改変」に対する誤検知が問題になる
    2. Snapshotへの注入:Wikipediaのスナップショットのタイミングで誤情報を仕込む(←邪悪!)
    • スナップショットタイミングを予測困難にすることで対策
    60ドルの費用でLAION-400MやCOYO-700Mの0.01%を汚染することができた
    データセット管理者, Wikipediaに脆弱性を開示した

    View full-size slide

  14. © NTT Communications Corporation All Rights Reserved. 14
    Multilingual dataset の脆弱性
    多言語対応モデルがよく使うデータセット Wiki-40B が対応する言語のpoisoning rate
    https://www.tensorflow.org/hub/tutorials/wiki40b_lm?hl=ja
    記事の規模が小さいほど、ダンプタイミングの予測が正確になりpoisoning成功率が高くなる
    Ja

    View full-size slide

  15. © NTT Communications Corporation All Rights Reserved. 15
    参考文献
    • 「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃 Googleなどが脆弱性を発表,
    ITmedia, https://www.itmedia.co.jp/news/articles/2304/05/news050.html
    • Carlini et al., Poisoning Web-Scale Training Datasets is
    Practical. https://arxiv.org/abs/2302.10149
    • N. Carlini, Poisoning the Unlabeled Dataset of Semi-Supervised
    Learning. https://arxiv.org/abs/2105.01622
    • N. Carlini & A. Terzis, Poisoning and Backdooring Contrastive
    Learning. https://arxiv.org/abs/2106.09667
    • Wiki40B 言語モデル, TensorFlow, https://www.tensorflow.org/hub/tutorials/wiki40b_lm?hl=ja

    View full-size slide