30分で見るここ6年くらいの単一画像超解像

本資料の位置付け Computer Vision / Deep Learning に詳しくない人向けの資料です • 単一画像超解像って？ •
最近の単一画像超解像についての共有 ◦ 2015-2019くらいのトレンド ◦ 2019-現在くらいのトレンド • 単一画像超解像を実社会応用するにあたって気を付けるべきことの共有 ◦ 使えるの？ ◦ 使っていいの？

単一画像超解像ってなに？超解像とは一言で言うと「画像を拡大する」というタスクです単一画像超解像は「1枚の低解像度画像を入力に、対応する高解像度画像を生成する」を意味します単一画像以外の超解像だと↓らへんもよく出てきます • センサーデータをもとに超解像 • 微妙に位置をずらした複数の低解像度画像から超解像
• 動画から超解像

古典的な単一画像超解像ヒューリスティック • ヒューリスティックに決めた補間方法で拡大する • バイリニア/バイキュービック/Lanczos補間等 • シンプル高速化しやすい手軽
• 高解像度画像の見栄えはそこそこ https://www.cs.toronto.edu/~guerzhoy/320/lec/upsam pling.pdf bicubic GT

古典的な単一画像超解像辞書式低 - 高パッチペア辞書を用いて拡大する 1. 学習用高画質データを小領域（パッチ）に分割しそれぞれ縮小する 2. 低画質パッチ -
高画質パッチのペア辞書を大量に得る ------ ここまでが下準備 ------ 1. 拡大したい画像をパッチに分割する 2. ペア辞書から最も似ている低画質パッチを探し、対応する高画質パッチをつなぎ合わせることで高画質画像を生成

現代の超解像手法畳み込みニューラルネットワーク学習時 … 高解像度画像低解像度画像推論時 … 大量のペアから変換を学習 6

超解像 + ニューラルネットワークの最初の手法 3層の畳み込みニューラルネットワークを超解像に用いたSRCNNが登場 • コンセプトは完全に辞書式と同じ ◦ 1層目で画像を小領域（パッチ）に切り出し ◦ 2層目でパッチをなんらかの特徴にエンコード
◦ 3層目でエンコードした特徴から高画質パッチを生成 • 35万枚の高画質画像をバイキュービックで縮小して学習用データに ◦ 教師データの用意がとても簡単 ◦ DIV2Kだと800枚だがこれでも同等かそれ以上の精度が出せる • シンプルな実装ながらも既存手法を上回る精度

超解像 + ニューラルネットワークの最初の手法

2015-2019の流れ: PSNR追求手法たち SRCNNの成功をうけ、畳み込みニューラルネットワークで超解像する手法が台頭してくる Set / BSD100 / Urban100 といった特定の評価用データセットに対して、
正解画像と推定画像のPSNRを大きくする方法が探られる（評価データは正解画像をバイキュービックで縮小して作られた）この時期の論文はとにかくPSNRの大小を競い合っていた

2015-2019の流れ: PSNR追求手法たち

2019-現在の流れ: PSNR以外の要素が注目（既存の評価データセット・評価方法での）精度は限界に近づいてきた RCANが実装コスト・学習コスト・精度で最もコスパが良いので困ったら RCANを使うのがおすすめ

2019-現在の流れ: PSNR以外の要素が注目（既存の評価データセット・評価方法での）精度は限界に近づいてきた • 見た目重視！PSNRより画像としての綺麗さを追求しよう！ ◦ GAN を用いてとにかくもっともらしく見える画像を生成 • 速度重視！リアルタイムでも動作するようにもっと高速化しよう！
◦ 軽量化・量子化 ◦ PSNRも評価するが、実行時間やFLOPsを重視する • 実用性重視！縮小方法が不明の際も綺麗に拡大できるようにしよう！ ◦ 従来は評価データをバイキュービック縮小で作っていた ◦ 異なる縮小方法やノイズ・ブラーに頑健な手法が考案され始める ◦ Blind Image Super-Resolution と呼ばれる。個人的に最もアツい

※ 超解像論文を読むときの注意 • PSNR追求手法なのか、見た目追求手法なのか、速度追求手法なのか、実用性追求手法なのかを見極める ◦ たいては論文のContributionにちゃんと記述がある ◦ PSNR追求を騙っておいて見た目追求手法とPSNRを比較している論文もある
• 評価の計算方法を把握する ◦ PSNRのための輝度計算は画像ライブラリによって異なる ◦ ライブラリAで計算した既存手法の値と、ライブラリBで計算した提案手法の値を比較している論文もある

単一画像超解像の限界ある低解像度画像に対応する高解像度画像は複数あり得るのでそもそも超解像は不良決定問題になります https://hoya012.github.io/blog/SIngle-Image-Super-Resolution-Overview/

単一画像超解像の実社会応用に対する個人的な思い • 畳み込みニューラルネットワークを用いた単一画像超解像は強い • 強い故に、よく「正解画像を出力している」と思われがちですが、縮小したらこうなりそうな、それっぽい高画質画像のうちの1枚を出力しているだけ • 特にニューラルネットワークは自然な画像の生成力が強すぎて「本来は存在しない細部の生成」や「本当はあった異常の除去」を
やってしまう可能性がある

単一画像超解像の実社会応用に対する個人的な思い • 多少は元と違ってもいいから、それらしい画像になってほしい時に使用すべき ◦ 過去に配信したコンテンツを今の端末でも綺麗に見たい！ ◦ 小物体に対する前処理（詳細は重要ではなく、その物体らしさを強調したい、と言う時に向いている） •
医療診断や犯罪捜査のための超解像は慎重にすべき（個人的な思い） ◦ 異常系を消してしまう/作り出してしまう可能性がある ◦ 限定的なケースには有効かもしれない（ナンバープレート等）

まとめ • 単一画像超解像は画像を拡大するよ • ニューラルネットワークを用いた単一画像超解像は強いよ ◦ 2015-2019は特定データでPSNRを追求する流れがあった ◦ 2019あたりからは他の指標も注目されている ◦
強いからと言って正しい答えは出せない

30分で見るここ6年くらいの単一画像超解像 - CADDi STUDDi

30分で見るここ6年くらいの単一画像超解像 - CADDi STUDDi

[email protected]

More Decks by [email protected]

Featured

Transcript