Light-weight GANの論文を読んでみた

XX University Light-weight GAN 2020.02.28 Abeta

2 概要 n 512×512以上の⾼解像度画像でも少ないリソースで学習できるGAN。 n 教師画像100枚程度、RTX-2080 GPU 1枚を使⽤して数時間で学習できる。 n Skip-Layer
channel-wise Excitation (SLE) module がより⾼速な学習のためにモデル重み全体でよりロバストな勾配の流れを可能にする。 n Discriminator を feature-encoder として⾃⼰教師学習させる。

3 Generator Skip-Layer channel-wise Excitation (SLE) module がより⾼速な学習のためにモデル重み全体でよりロバストな勾配の流れを可能にする。

4 Generatorの特徴 256, 1x1 ConvTranspose, etc. 256, 4x4 Nearest Upsample,
etc. 512, 8x8 512, 16x16 256, 32x32 128, 64x64 64, 128x128 32, 256x256 3 , 512x512 3 , 1024x0124 Skip-layer excitation Skip-layer excitation 64, 128x128 32, 256x256 Skip-layer excitation 3 , 512x512 8C, HxW C, 16Hx16W Adaptive pooling 8C, 4x4 Conv 4×4, s=1, p=0 8C, 1x1 C, 1x1 Conv 1×1, s=1, p=0 SIgmoid C, 1x1 C, 16Hx16W 空間⽅向を削減することでパラメータ数を減らす SEブロックとResブロックを異なる特徴マップ間で適⽤したような構造低解像度領域の特徴(＝画像の全体的なスタイル)が⾼解像度のスタイルに影響する →スタイルとコンテンツが分離？

5 Discriminatorの特徴 ℒrecons = 𝔼!∼#!"#$%! $ , $∼&&!'( ∥ 𝒢
𝑓 − 𝒯(𝑥) ∥ 𝒯(𝑥) 𝒢 𝑓 Cropが詳細なテクスチャを学習する Discriminator を feature-encoder として⾃⼰教師学習させる。

6 損失関数 GANの損失関数には様々なものがあるが、損失関数を変えても学習にあまり影響がなかったため、学習速度が早いHinge型の損失関数を使⽤した。 Adversarial lossに加えて、実画像のときは⾃⼰教師学習の損失関数を加える。 ℒ# = −𝔼$∼&&!'( min
0, −1 + 𝐷 𝑥 − 𝔼' $∼( ) min 0, −1 − 𝐷 9 𝑥 + ℒrecons ℒ( = −𝔼)∼𝒩 𝐷(𝐺 𝑧 )

7 実験データセット Size 項⽬説明 256 × 256 Animal-Face Dog
and Cat 100-Shot-Obama Panda Grumpy-cat 1024 × 1024 Flickr-Face-HQ (FFHQ) https://github.com/NVlabs/ffhq-dataset Oxford-flowers https://www.robots.ox.ac.uk/~vgg/data/flowers/ art paintings from WikiArt https://en.wikipedia.org/wiki/Wikipedia:Featured_pictures/Artwork/Paintings photographs on natural landscape from Unsplash https://unsplash.com/ Pokemon anime face skull shell

8 Metric 1. Frechet Distance 𝑑+ = 𝝁, − 𝝁+
+ + tr Σ, + Σ+ − 2 Σ, Σ+ , + 実装 https://github.com/bioinf-jku/TTUR/blob/master/fid.py 2. Learned perceptual similarity 評価⽤ニューラルネットを⽤意し、２つの⼊⼒画像に対する各特徴マップの残差の和を誤差として使⽤？実装 https://github.com/richzhang/PerceptualSimilarity

9 ⽐較対象パラメータ少ないVer DCGANをベースにし、 1) spectral-normalization 2) exponential- moving-average optimization
on G 3) differentiable-augmentation 4) GLU instead of ReLU in G Baseline +SLE +⾃⼰教師学習

10 結果：FID ⽤意した12個のデータセット中、10個でベストとなった。また、SLEと⾃⼰教師学習は独⽴して精度に寄与し、特に⾃⼰教師学習が⼤きく寄与。⾃⼰教師学習をすると⻑時間学習させてもモード崩壊も⽣じなかった。 Finetuneが勝っているところは、学習データに類似した系統の画像が含まれている場合と考えられる

11 データ量の依存性データを増やすとStyleGAN2が勝つ。

12 品質同じバッチサイズと学習時間では、StyleGAN2 は収束が遅いか、モード崩壊を起こす（ベストエポックに到達しているのに）。対照的に、提案モデルは⼀貫して満⾜のいく画像を⽣成。花、⾙殻、ポケモンについての提案モデルのベストエポックは、わずか3時間の学習。残りのデータセットも8時間でベストエポックに到達。

13 back-tracking 実画像間のback-tracking を求め、LPIPSを計算。

14 ⾃⼰教師学習⾃⼰教師学習にはauto-encodingがベスト。画像全体の特徴を捉えられるからと考えられる。それぞれの実画像をユニーククラスとした分類正⽅形へReshape前のアスペクト⽐を予測

15 Style mixing SLEがStyleの情報を運んでいる証拠としてStyle変換が可能。

16 参考⽂献 • Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed
Elgammal, “Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis”, 2021, International Conference on Learning Representations

Light-weight GANの論文を読んでみた

Light-weight GANの論文を読んでみた

Masafumi Abeta

More Decks by Masafumi Abeta

Other Decks in Science

Featured

Transcript

XX University Light-weight GAN 2020.02.28 Abeta

2 概要 n 512×512以上の⾼解像度画像でも少ないリソースで学習できるGAN。 n 教師画像100枚程度、RTX-2080 GPU 1枚を使⽤して数時間で学習できる。 n Skip-Layer

3 Generator Skip-Layer channel-wise Excitation (SLE) module がより⾼速な学習のためにモデル重み全体でよりロバストな勾配の流れを可能にする。

4 Generatorの特徴 256, 1x1 ConvTranspose, etc. 256, 4x4 Nearest Upsample,

5 Discriminatorの特徴 ℒrecons = 𝔼!∼#!"#$%! $ , $∼&&!'( ∥ 𝒢

7 実験データセット Size 項⽬説明 256 × 256 Animal-Face Dog

8 Metric 1. Frechet Distance 𝑑+ = 𝝁, − 𝝁+

9 ⽐較対象パラメータ少ないVer DCGANをベースにし、 1) spectral-normalization 2) exponential- moving-average optimization

11 データ量の依存性データを増やすとStyleGAN2が勝つ。

13 back-tracking 実画像間のback-tracking を求め、LPIPSを計算。

14 ⾃⼰教師学習⾃⼰教師学習にはauto-encodingがベスト。画像全体の特徴を捉えられるからと考えられる。それぞれの実画像をユニーククラスとした分類正⽅形へReshape前のアスペクト⽐を予測

15 Style mixing SLEがStyleの情報を運んでいる証拠としてStyle変換が可能。

16 参考⽂献 • Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed