photo-realistic-single-image-super-resolution-using-a-generative-adversarial-network

 photo-realistic-single-image-super-resolution-using-a-generative-adversarial-network

画像の超解像度化に対して、GANをつかったモデルSRGANを提案した論文 photo-realistic-single-image-super-resolution-using-a-generative-adversarial-network の紹介です。

C4c6c7b4fdf9285bcf12c5caa58c8d53?s=128

Yamaguchi Takahiro

January 15, 2020
Tweet

Transcript

  1. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network 2020/01/14

    nyker_goto
  2. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network https://ieeexplore.ieee.org/document/8099502

    • Twitterの人 • 2017年の論文 Image Super-Resolution (画像の超解像度化) を Photo-Realistic にするやつ
  3. Q. 超解像度化って なに?

  4. A. 小さい画像を きれいに拡大する

  5. これを *小さい画像を引き伸ばしているので汚い

  6. これを こうする

  7. 画像の超解像度化 汚い画像(低解像度画像: Low-Resolution) を 綺麗な画像(高解像度画像: High-Resolution)に変換するタスク • 学習時には画像を1回小さく縮小してそれを元に戻すようにする場合が多い • 大きくする度合い:

    upsample factor upsample factor = 4
  8. 既存手法 • 作成した超解像度画像と元画像のRMSEを最小化する ◦ 低解像度から元画像を pixel レベルで一致させる狙い • 超解像度化の文脈では PSNR

    (peak signal-to-noise ration) で図られることが 多い。こちらの最大化は RMSE の最小化と同値
  9. RMSE 最小化ってほんとにいいの? RMSEの最小化は決して写真ぽい (Photo-Realistic な) 画像ではない • RMSE=pixel-wiseなロス • 全体の傾向(texture)は無視されがち

    • upsample factor が大きい(大体4ぐらい)で既存手法では細かいテクスチャが消 されてしまう ex: fig2) • 左から二番目が loss=RMSE のとき。のっぺりしている感じ。
  10. RMSE 最小化ってほんとにいいの? • 左から二番目が loss=RMSE のとき。のっぺりしている感じ。

  11. pixel-wiseなロスがのっぺりしちゃう理由 • テクスチャのような高周波情報を復元す るのが苦手 • 現実の画像が位置する多様体上では なく pixel での平均を取ろうとする

  12. この論文の提案内容 1. より深いモデル(resnet)を使ったモデルを使う • 当時のState-of-the-art (PSNRに関して) 2. GAN を使ったリアルな画像生成モデルの提案 •

    VGGを使った Content Loss を使う • pixel-wise ではなくて feature-wise に差分を見る
  13. ネットワークのアーキテクチャ 基本的には DCGANと同じ • Discriminator: 判別機 • Generator: 画像作成機 それぞれ以下のポリシーで最適化していく

    • D: 超解像度化で生成した画像と元の画像を判定できる • G: Dにバレないように超解像度画像を生成する
  14. Generator のロス関数 Generatorのロス関数を content Loss と adversarial loss の足しあわせで表現 •

    adversarial loss: Dにバレていないかどうか(いつもどおり) • content loss: 元の画像に近いかどうか ◦ 通常だと content loss は RMSE・がこれは写真ぽくない ◦ この部分をVGGを使った特徴空間で作り直す
  15. VGGを使った特徴空間: VGG Loss 特定のモデルφの出力上で RMSE を取る (具体的には学習済み VGG) 中間レイヤ: 画像の抽象的な特徴をとっている

    → 画像上の多様体上で最小化できる, リアルな画像っぽいかどうかを測れる
  16. 実験条件 • タスク: 元画像を1/4に縮小した画像をもとに戻す (upsample scale = 4) • モデル

    ◦ SRResNet: RMSE + ResNet ◦ SRGAN-VGG_ij: ContentLoss + GAN. VGGで使う層で添字がついてる (大きいほど深い層でRMSEを取る) • 評価指標: RMSE と MOS (Mean Opinion Score) ◦ MOS: 26の人間にそれぞれのモデルの画像を見てもらってクオリティを5段 階評価したもの
  17. 結果 • 指標ごとに異なる傾向 ◦ PSNR: SRResNet > SRGAN ◦ MOS:

    SRGAN > SRResNet • SET14では層が深いほどMOSが良い 結果に
  18. 結果: モデルごとの人の評価 histgram • HR (元画像) の次は SRGAN • RMSE

    で良い画像を人がいい (きれい)と 思うわけではない
  19. 結果: Summary • PSNR: SRResNet / MOS: SRGAN なことがわかる •

    どちらも良くすることは難しい。trade-off な関係 [参考文献1]
  20. まとめ • RMSEでの最適化での欠点であったのっぺり具合をGANを使って解消する手法を 提案 • 人間が見たときのクオリティを実際に投票してもらって評価 ◦ GAN > RMSEでの最適化

    ◦ RMSE が必ずしも人の目で見たときのクオリティに直結しない
  21. 参考文献など 1. The Perception-Distortion Tradeoff ◦ MOSとPSNRのトレードオフについてより詳しく述べた論文 ◦ https://arxiv.org/abs/1711.06077