Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Light-weight GANの論文を読んでみた

D731ae44245b80c37b59d588287aacd7?s=47 Masafumi Abeta
February 28, 2021

Light-weight GANの論文を読んでみた

D731ae44245b80c37b59d588287aacd7?s=128

Masafumi Abeta

February 28, 2021
Tweet

Transcript

  1. XX University Light-weight GAN 2020.02.28 Abeta

  2. 2 概要 n 512×512以上の⾼解像度画像でも少ないリソースで学習できるGAN。 n 教師画像100枚程度、RTX-2080 GPU 1枚を使⽤して数時間で学習できる。 n Skip-Layer

    channel-wise Excitation (SLE) module がより⾼速な学習のためにモデル重み全体でよりロバ ストな勾配の流れを可能にする。 n Discriminator を feature-encoder として⾃⼰教師学習させる。
  3. 3 Generator Skip-Layer channel-wise Excitation (SLE) module がより⾼速な学習のためにモデル重み全体でよりロバス トな勾配の流れを可能にする。

  4. 4 Generatorの特徴 256, 1x1 ConvTranspose, etc. 256, 4x4 Nearest Upsample,

    etc. 512, 8x8 512, 16x16 256, 32x32 128, 64x64 64, 128x128 32, 256x256 3 , 512x512 3 , 1024x0124 Skip-layer excitation Skip-layer excitation 64, 128x128 32, 256x256 Skip-layer excitation 3 , 512x512 8C, HxW C, 16Hx16W Adaptive pooling 8C, 4x4 Conv 4×4, s=1, p=0 8C, 1x1 C, 1x1 Conv 1×1, s=1, p=0 SIgmoid C, 1x1 C, 16Hx16W 空間⽅向を削減することで パラメータ数を減らす SEブロックとResブロック を異なる特徴マップ間で適 ⽤したような構造 低解像度領域の特徴(=画像 の全体的なスタイル)が⾼解 像度のスタイルに影響する →スタイルとコンテンツが 分離?
  5. 5 Discriminatorの特徴 ℒrecons = 𝔼!∼#!"#$%! $ , $∼&&!'( ∥ 𝒢

    𝑓 − 𝒯(𝑥) ∥ 𝒯(𝑥) 𝒢 𝑓 Cropが詳細なテク スチャを学習する Discriminator を feature-encoder として⾃⼰教師学習させる。
  6. 6 損失関数 GANの損失関数には様々なものがあるが、損失関数を変えても学習にあまり影響がなかったため、学習速度が 早いHinge型の損失関数を使⽤した。 Adversarial lossに加えて、実画像のときは⾃⼰教師学習の損失関数を加える。 ℒ# = −𝔼$∼&&!'( min

    0, −1 + 𝐷 𝑥 − 𝔼' $∼( ) min 0, −1 − 𝐷 9 𝑥 + ℒrecons ℒ( = −𝔼)∼𝒩 𝐷(𝐺 𝑧 )
  7. 7 実験データセット Size 項⽬ 説明 256 × 256 Animal-Face Dog

    and Cat 100-Shot-Obama Panda Grumpy-cat 1024 × 1024 Flickr-Face-HQ (FFHQ) https://github.com/NVlabs/ffhq-dataset Oxford-flowers https://www.robots.ox.ac.uk/~vgg/data/flowers/ art paintings from WikiArt https://en.wikipedia.org/wiki/Wikipedia:Featured_pictures/Artwork/Paintings photographs on natural landscape from Unsplash https://unsplash.com/ Pokemon anime face skull shell
  8. 8 Metric 1. Frechet Distance 𝑑+ = 𝝁, − 𝝁+

    + + tr Σ, + Σ+ − 2 Σ, Σ+ , + 実装 https://github.com/bioinf-jku/TTUR/blob/master/fid.py 2. Learned perceptual similarity 評価⽤ニューラルネットを⽤意し、2つの⼊⼒画像に対する各特徴マップの残差の和を誤差として使⽤? 実装 https://github.com/richzhang/PerceptualSimilarity
  9. 9 ⽐較対象 パラメータ少ないVer DCGANをベースにし、 1) spectral-normalization 2) exponential- moving-average optimization

    on G 3) differentiable-augmentation 4) GLU instead of ReLU in G Baseline +SLE +⾃⼰教師学習
  10. 10 結果:FID ⽤意した12個のデータセット中、10個でベストとなった。 また、SLEと⾃⼰教師学習は独⽴して精度に寄与し、特に⾃⼰教師学習が⼤きく寄与。⾃⼰教師学習をすると ⻑時間学習させてもモード崩壊も⽣じなかった。 Finetuneが勝っているところは、 学習データに類似した系統の画像 が含まれている場合と考えられる

  11. 11 データ量の依存性 データを増やすとStyleGAN2が勝つ。

  12. 12 品質 同じバッチサイズと学習時間では、StyleGAN2 は収束が遅いか、モード崩壊を起こす(ベストエポックに到 達しているのに)。対照的に、提案モデルは⼀貫して満⾜のいく画像を⽣成。花、⾙殻、ポケモンについての 提案モデルのベストエポックは、わずか3時間の学習。残りのデータセットも8時間でベストエポックに到達。

  13. 13 back-tracking 実画像間のback-tracking を求め、LPIPSを計算。

  14. 14 ⾃⼰教師学習 ⾃⼰教師学習にはauto-encodingがベスト。画像全体の特徴を捉えられるからと考えられる。 それぞれの実画像をユニーククラスとした分類 正⽅形へReshape前のアスペクト⽐を予測

  15. 15 Style mixing SLEがStyleの情報を運んでいる証拠としてStyle変換が可能。

  16. 16 参考⽂献 • Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed

    Elgammal, “Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis”, 2021, International Conference on Learning Representations