photo-realistic-single-image-super-resolution-using-a-generative-adversarial-network

Slide 1

Slide 1 text

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network 2020/01/14 nyker_goto

Slide 2

Slide 2 text

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network https://ieeexplore.ieee.org/document/8099502 ● Twitterの人 ● 2017年の論文 Image Super-Resolution (画像の超解像度化) を Photo-Realistic にするやつ

Slide 3

Slide 3 text

Q. 超解像度化ってなに?

Slide 4

Slide 4 text

A. 小さい画像をきれいに拡大する

Slide 5

Slide 5 text

これを *小さい画像を引き伸ばしているので汚い

Slide 6

Slide 6 text

これをこうする

Slide 7

Slide 7 text

画像の超解像度化汚い画像(低解像度画像: Low-Resolution) を綺麗な画像(高解像度画像: High-Resolution)に変換するタスク ● 学習時には画像を1回小さく縮小してそれを元に戻すようにする場合が多い ● 大きくする度合い: upsample factor upsample factor = 4

Slide 8

Slide 8 text

既存手法 ● 作成した超解像度画像と元画像のRMSEを最小化する ○ 低解像度から元画像を pixel レベルで一致させる狙い ● 超解像度化の文脈では PSNR (peak signal-to-noise ration) で図られることが多い。こちらの最大化は RMSE の最小化と同値

Slide 9

Slide 9 text

RMSE 最小化ってほんとにいいの? RMSEの最小化は決して写真ぽい (Photo-Realistic な) 画像ではない ● RMSE=pixel-wiseなロス ● 全体の傾向(texture)は無視されがち ● upsample factor が大きい(大体4ぐらい)で既存手法では細かいテクスチャが消されてしまう ex: ﬁg2) ● 左から二番目が loss=RMSE のとき。のっぺりしている感じ。

Slide 10

Slide 10 text

RMSE 最小化ってほんとにいいの? ● 左から二番目が loss=RMSE のとき。のっぺりしている感じ。

Slide 11

Slide 11 text

pixel-wiseなロスがのっぺりしちゃう理由 ● テクスチャのような高周波情報を復元するのが苦手 ● 現実の画像が位置する多様体上ではなく pixel での平均を取ろうとする

Slide 12

Slide 12 text

この論文の提案内容 1. より深いモデル(resnet)を使ったモデルを使う ● 当時のState-of-the-art (PSNRに関して) 2. GAN を使ったリアルな画像生成モデルの提案 ● VGGを使った Content Loss を使う ● pixel-wise ではなくて feature-wise に差分を見る

Slide 13

Slide 13 text

ネットワークのアーキテクチャ基本的には DCGANと同じ ● Discriminator: 判別機 ● Generator: 画像作成機それぞれ以下のポリシーで最適化していく ● D: 超解像度化で生成した画像と元の画像を判定できる ● G: Dにバレないように超解像度画像を生成する

Slide 14

Slide 14 text

Generator のロス関数 Generatorのロス関数を content Loss と adversarial loss の足しあわせで表現 ● adversarial loss: Dにバレていないかどうか(いつもどおり) ● content loss: 元の画像に近いかどうか ○ 通常だと content loss は RMSE・がこれは写真ぽくない ○ この部分をVGGを使った特徴空間で作り直す

Slide 15

Slide 15 text

VGGを使った特徴空間: VGG Loss 特定のモデルφの出力上で RMSE を取る (具体的には学習済み VGG) 中間レイヤ: 画像の抽象的な特徴をとっている → 画像上の多様体上で最小化できる, リアルな画像っぽいかどうかを測れる

Slide 16

Slide 16 text

実験条件 ● タスク: 元画像を1/4に縮小した画像をもとに戻す (upsample scale = 4) ● モデル ○ SRResNet: RMSE + ResNet ○ SRGAN-VGG_ij: ContentLoss + GAN. VGGで使う層で添字がついてる (大きいほど深い層でRMSEを取る) ● 評価指標: RMSE と MOS (Mean Opinion Score) ○ MOS: 26の人間にそれぞれのモデルの画像を見てもらってクオリティを5段階評価したもの

Slide 17

Slide 17 text

結果 ● 指標ごとに異なる傾向 ○ PSNR: SRResNet > SRGAN ○ MOS: SRGAN > SRResNet ● SET14では層が深いほどMOSが良い結果に

Slide 18

Slide 18 text

結果: モデルごとの人の評価 histgram ● HR (元画像) の次は SRGAN ● RMSE で良い画像を人がいい (きれい)と思うわけではない

Slide 19

Slide 19 text

結果: Summary ● PSNR: SRResNet / MOS: SRGAN なことがわかる ● どちらも良くすることは難しい。trade-oﬀ な関係 [参考文献1]

Slide 20

Slide 20 text

まとめ ● RMSEでの最適化での欠点であったのっぺり具合をGANを使って解消する手法を提案 ● 人間が見たときのクオリティを実際に投票してもらって評価 ○ GAN > RMSEでの最適化 ○ RMSE が必ずしも人の目で見たときのクオリティに直結しない

Slide 21

Slide 21 text

参考文献など 1. The Perception-Distortion Tradeoﬀ ○ MOSとPSNRのトレードオフについてより詳しく述べた論文 ○ https://arxiv.org/abs/1711.06077