photo-realistic-single-image-super-resolution-using-a-generative-adversarial-network

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network 2020/01/14
nyker_goto

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network https://ieeexplore.ieee.org/document/8099502
• Twitterの人 • 2017年の論文 Image Super-Resolution (画像の超解像度化) を Photo-Realistic にするやつ

Q. 超解像度化ってなに?

A. 小さい画像をきれいに拡大する

これを *小さい画像を引き伸ばしているので汚い

これをこうする

画像の超解像度化汚い画像(低解像度画像: Low-Resolution) を綺麗な画像(高解像度画像: High-Resolution)に変換するタスク • 学習時には画像を1回小さく縮小してそれを元に戻すようにする場合が多い • 大きくする度合い:
upsample factor upsample factor = 4

既存手法 • 作成した超解像度画像と元画像のRMSEを最小化する ◦ 低解像度から元画像を pixel レベルで一致させる狙い • 超解像度化の文脈では PSNR
(peak signal-to-noise ration) で図られることが多い。こちらの最大化は RMSE の最小化と同値

RMSE 最小化ってほんとにいいの? RMSEの最小化は決して写真ぽい (Photo-Realistic な) 画像ではない • RMSE=pixel-wiseなロス • 全体の傾向(texture)は無視されがち
• upsample factor が大きい(大体4ぐらい)で既存手法では細かいテクスチャが消されてしまう ex: ﬁg2) • 左から二番目が loss=RMSE のとき。のっぺりしている感じ。

RMSE 最小化ってほんとにいいの? • 左から二番目が loss=RMSE のとき。のっぺりしている感じ。

pixel-wiseなロスがのっぺりしちゃう理由 • テクスチャのような高周波情報を復元するのが苦手 • 現実の画像が位置する多様体上ではなく pixel での平均を取ろうとする

この論文の提案内容 1. より深いモデル(resnet)を使ったモデルを使う • 当時のState-of-the-art (PSNRに関して) 2. GAN を使ったリアルな画像生成モデルの提案 •
VGGを使った Content Loss を使う • pixel-wise ではなくて feature-wise に差分を見る

ネットワークのアーキテクチャ基本的には DCGANと同じ • Discriminator: 判別機 • Generator: 画像作成機それぞれ以下のポリシーで最適化していく
• D: 超解像度化で生成した画像と元の画像を判定できる • G: Dにバレないように超解像度画像を生成する

Generator のロス関数 Generatorのロス関数を content Loss と adversarial loss の足しあわせで表現 •
adversarial loss: Dにバレていないかどうか(いつもどおり) • content loss: 元の画像に近いかどうか ◦ 通常だと content loss は RMSE・がこれは写真ぽくない ◦ この部分をVGGを使った特徴空間で作り直す

VGGを使った特徴空間: VGG Loss 特定のモデルφの出力上で RMSE を取る (具体的には学習済み VGG) 中間レイヤ: 画像の抽象的な特徴をとっている
→ 画像上の多様体上で最小化できる, リアルな画像っぽいかどうかを測れる

実験条件 • タスク: 元画像を1/4に縮小した画像をもとに戻す (upsample scale = 4) • モデル
◦ SRResNet: RMSE + ResNet ◦ SRGAN-VGG_ij: ContentLoss + GAN. VGGで使う層で添字がついてる (大きいほど深い層でRMSEを取る) • 評価指標: RMSE と MOS (Mean Opinion Score) ◦ MOS: 26の人間にそれぞれのモデルの画像を見てもらってクオリティを5段階評価したもの

結果 • 指標ごとに異なる傾向 ◦ PSNR: SRResNet > SRGAN ◦ MOS:
SRGAN > SRResNet • SET14では層が深いほどMOSが良い結果に

結果: モデルごとの人の評価 histgram • HR (元画像) の次は SRGAN • RMSE
で良い画像を人がいい (きれい)と思うわけではない

結果: Summary • PSNR: SRResNet / MOS: SRGAN なことがわかる •
どちらも良くすることは難しい。trade-oﬀ な関係 [参考文献1]

まとめ • RMSEでの最適化での欠点であったのっぺり具合をGANを使って解消する手法を提案 • 人間が見たときのクオリティを実際に投票してもらって評価 ◦ GAN > RMSEでの最適化
◦ RMSE が必ずしも人の目で見たときのクオリティに直結しない

参考文献など 1. The Perception-Distortion Tradeoﬀ ◦ MOSとPSNRのトレードオフについてより詳しく述べた論文 ◦ https://arxiv.org/abs/1711.06077

photo-realistic-single-image-super-resolution-u...

photo-realistic-single-image-super-resolution-using-a-generative-adversarial-network

Yamaguchi Takahiro

More Decks by Yamaguchi Takahiro

Other Decks in Technology

Featured

Transcript