論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models

GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models 23/04/14
PaperFriday, Yuki Iwazaki@AI Lab

2 Point: 画像生成モデルのスタイル模倣をミスリードさせるノイズ合成ツールを絵描き向けに公開 arXiv preprint, 2023 Feb Authors: Shawn
Shan, Jenna Cryan, Emily Wenger, Haitao Zheng, Rana Hanocka, Ben Y. Zhao Reason: - Diffusion modelが流行っているのでそのキャッチアップ - 生成モデルの芸術界への影響

Introduction 3

Style Mimicが問題に 4 イラスト生成 AI「mimic」ベータ版の提供を終了 img2imgによるトレパク疑惑絵師のAI学習禁止表明について

Style Mimicが問題に 5 CivitAI: Studio Ghibli Style LoRA Midjourney, Stable
Diffusionが著作権侵害で集団訴訟生成モデルの法整備を働きかけるクラファン法では対処しきれないので Mimicを防ぐ手法を提案

Recent Work 6

Text-to-Image Generation 7 1. 画像・説明文のペアデータを収集 2. 画像・説明文のペアが近くなるように Prompt2Image (Generator)を学習 3.
Generatorに説明文を与えることで画像生成

Style mimicry techniques a. 著名なArtistの場合: 学習データに名前を含んでいるので生成時のTextにArtist名を含めるだけ b. 著名でない場合: 学習済生成モデルを
Target ArtistでFine-tune 学習コストは画像追加 20枚, GPU1枚20分程度 10 OpenAI DALL·E 2 https://zenn.dev/kwashizzz/articles/ml-stable-diffusion-colab-fn

Proposed Method 11

Mimicry attack scenario 13

GLAZE to protect style mimicry 絵をオンラインに投稿する前にスタイル模倣を阻害するノイズを乗せる └指定アーティストとは別のスタイルで学習されてしまうようなノイズ 14

Design Intuition 15 画風の定義は難しいので Style transferに着目模倣されてもいい特徴（ Objectや位置関係）を分離

Computing Style Cloaks 任意のスタイル Tに変換した入力画像 xと視覚的な特徴が同じになるようなノイズδ x を計算 16
2.入力画像 xをスタイル Tに変換した画像汎用な画像特徴抽出器 1. 入力画像 xにノイズを加えた画像

Detailed System Design 0. 入力画像x, 画像特徴抽出器Φ, スタイル転送モデル Ω, ノイズ強度pが与えられる 1.
スタイルTの選択...ゴッホのような公開アーティスト画像を収集、スタイル候補群とする入力画像xの特徴量との距離が遠いスタイル候補を選択 2.スタイル変換...事前学習済スタイル転送モデル Ωを使ってスタイル変換画像Ω(x,T)を生成 3.ノイズの計算... 4.画像のアップロード...全作品を差し替えなくても効果的 17 ノイズの強さを調整ダミースタイルの特徴に近く、ノイズを加えても見た目の近さ（LPIPS）も担保されるような δ_xを計算

Evaluation 18

Experiment Setup ◂ Dataset ◂ 現代アーティスト: 協力者4名×30枚前後 ◂ pHashで既存の公開学習データに当画像が含まれていないことを確認 ◂
歴史的アーティスト: WikiArtの195名×30枚 ◂ これらは逆に公開学習データに含まれているので画風阻害が難しいシナリオ ◂ 模倣シナリオ ◂ 1. キャプション生成モデルを使ってオリジナル画像から説明文を生成 ◂ 説明文にアーティスト名も追記 ◂ 2. 説明文と画像のペアから該当アーティストの生成モデルを学習 ◂ 3. 生成した説明文から模倣画像を生成、オリジナル画像と比較 ◂ 生成モデル ◂ Stable Diffusion…拡散ベースの画像生成モデル ◂ DALL-E-mega…VAEベースの画像生成モデル 19

Evaluation Metrics ◂ CLIP-based genre shift↑: ◂ CLIPで生成画像の芸術ジャンルを推定、上位3ジャンルが正解ジャンルを含まない生成画像率 ->
高い程ジャンルをシフトできている ◂ Human evaluation↑: ◂ 本手法を適用したオリジナル画像と模倣画像を見せ、対策成功率を5段階評価 -> 高い程成功 20

Protection Performance 21

Protection Performance 22 模倣性能は DALL.E-m < Stable Diffusion ユーザ評価 /ジャンルシフト共に提案手法が有効

Protection Performance 23 現代アーティストの方が本手法が有効 . -> 歴史的アーティストは汎用モデルに含まれている影響があるので、　同じように汎化されている著名な現代アーティストが課題に

How large of perturbations will artists tolerate? 24

Protection Robustness 25 特徴抽出器 Φのベースモデルによる比較（ ΦA:ΦA: > ΦA:ΦB）対策/生成モデルで特徴抽出器のベースモデル
や学習データが異なっていても本手法は有効特徴抽出器 Φの学習データセットによる比較（ΦB:ΦA: > ΦC:ΦA）

Protection Robustness 26 全作品の 25%のノイズ対応でも 9割近い効果がある 75%対応すると見た目でもダミースタイルが効いていることがわかる

Real-World Performance scenario.comという画像一式をアップロードしたらそのスタイルの画像が生成できるWeb Service上での評価 27 実サービスでも本手法が有効

Countermeasures 本手法への生成モデル側の対策への対策 28 対策への対策にも頑健

Limitations ◂ この手法をかけていない割合の高いアーティストには効果が薄い ◂ 絵が出回るほど既に有名だったり歴の長いアーティスト ◂ 対策の対策の対策の... ◂ 運用を続けていくことやツールとして公開しているのでまずは広く使ってもらうことが大切
◂ ユーザの計算リソースに依存 ◂ エッジ（ユーザーPC）側で処理を完結する都合上 ◂ 4GBのモデルのダウンロードの後 , GTX 1080 GPUで画像1枚あたり20分 29

Comment • いたちごっこ ◦ これが流行ることでのデータ汚染もありえそう ▪ このノイズにも強いモデルが出るだけ説 ◦ 生成/対策モデルの性能向上によるリアル GAN
• エッジ推論の良い実例 ◦ デスクトップアプリも使いやすい • 一般ユーザ的にはノイズが気になるのでは ◦ ノイズ強度（弱→強）を変えて回してみた結果 ↓ 30

論文読み会 / GLAZE: Protecting Artists from Style Mi...

論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models

chck

More Decks by chck

Other Decks in Research

Featured

Transcript

GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models 23/04/14

2 Point: 画像生成モデルのスタイル模倣をミスリードさせるノイズ合成ツールを絵描き向けに公開 arXiv preprint, 2023 Feb Authors: Shawn

Introduction 3

Style Mimicが問題に 4 イラスト生成 AI「mimic」ベータ版の提供を終了 img2imgによるトレパク疑惑絵師のAI学習禁止表明について

Style Mimicが問題に 5 CivitAI: Studio Ghibli Style LoRA Midjourney, Stable

Recent Work 6

Text-to-Image Generation 7 1. 画像・説明文のペアデータを収集 2. 画像・説明文のペアが近くなるように Prompt2Image (Generator)を学習 3.

Style mimicry techniques a. 著名なArtistの場合: 学習データに名前を含んでいるので生成時のTextにArtist名を含めるだけ b. 著名でない場合: 学習済生成モデルを

Proposed Method 11

Mimicry attack scenario 13

GLAZE to protect style mimicry 絵をオンラインに投稿する前にスタイル模倣を阻害するノイズを乗せる └指定アーティストとは別のスタイルで学習されてしまうようなノイズ 14

Design Intuition 15 画風の定義は難しいので Style transferに着目模倣されてもいい特徴（ Objectや位置関係）を分離

Computing Style Cloaks 任意のスタイル Tに変換した入力画像 xと視覚的な特徴が同じになるようなノイズδ x を計算 16

Detailed System Design 0. 入力画像x, 画像特徴抽出器Φ, スタイル転送モデル Ω, ノイズ強度pが与えられる 1.

Evaluation 18

Experiment Setup ◂ Dataset ◂ 現代アーティスト: 協力者4名×30枚前後 ◂ pHashで既存の公開学習データに当画像が含まれていないことを確認 ◂

Evaluation Metrics ◂ CLIP-based genre shift↑: ◂ CLIPで生成画像の芸術ジャンルを推定、上位3ジャンルが正解ジャンルを含まない生成画像率 ->