$30 off During Our Annual Pro Sale. View Details »

30分で見るここ6年くらいの単一画像超解像 - CADDi STUDDi

[email protected]
December 10, 2021
2.7k

30分で見るここ6年くらいの単一画像超解像 - CADDi STUDDi

[email protected]

December 10, 2021
Tweet

Transcript

  1. 30分で見るここ6年くらいの
    単一画像超解像

    View Slide

  2. 本資料の位置付け
    Computer Vision / Deep Learning に詳しくない人向けの資料です
    ● 単一画像超解像って?
    ● 最近の単一画像超解像についての共有
    ○ 2015-2019くらいのトレンド
    ○ 2019-現在くらいのトレンド
    ● 単一画像超解像を実社会応用するにあたって気を付けるべきことの共有
    ○ 使えるの?
    ○ 使っていいの?

    View Slide

  3. 単一画像超解像ってなに?
    超解像とは一言で言うと「画像を拡大する」というタスクです
    単一画像超解像は
    「1枚の低解像度画像を入力に、対応する高解像度画像を生成する」
    を意味します
    単一画像以外の超解像だと↓らへんもよく出てきます
    ● センサーデータをもとに超解像
    ● 微妙に位置をずらした複数の低解像度画像から超解像
    ● 動画から超解像

    View Slide

  4. 古典的な単一画像超解像 ヒューリスティック
    ● ヒューリスティックに決めた補間方法で拡大する
    ● バイリニア/バイキュービック/Lanczos補間等
    ● シンプル 高速化しやすい 手軽
    ● 高解像度画像の見栄えはそこそこ
    https://www.cs.toronto.edu/~guerzhoy/320/lec/upsam
    pling.pdf
    bicubic GT

    View Slide

  5. 古典的な単一画像超解像 辞書式
    低 - 高パッチペア辞書を用いて拡大する
    1. 学習用高画質データを小領域(パッチ)に分割しそれぞれ縮小する
    2. 低画質パッチ - 高画質パッチのペア辞書を大量に得る
    ------ ここまでが下準備 ------
    1. 拡大したい画像をパッチに分割する
    2. ペア辞書から最も似ている低画質パッチを探し、
    対応する高画質パッチをつなぎ合わせることで高画質画像を生成

    View Slide

  6. 現代の超解像手法 畳み込みニューラルネットワーク
    学習時

    高解像度画像
    低解像度画像
    推論時

    大量のペアから変換を学習
    6

    View Slide

  7. 超解像 + ニューラルネットワークの最初の手法
    3層の畳み込みニューラルネットワークを超解像に用いたSRCNNが登場
    ● コンセプトは完全に辞書式と同じ
    ○ 1層目で画像を小領域(パッチ)に切り出し
    ○ 2層目でパッチをなんらかの特徴にエンコード
    ○ 3層目でエンコードした特徴から高画質パッチを生成
    ● 35万枚の高画質画像をバイキュービックで縮小して学習用データに
    ○ 教師データの用意がとても簡単
    ○ DIV2Kだと800枚だがこれでも同等かそれ以上の精度が出せる
    ● シンプルな実装ながらも既存手法を上回る精度

    View Slide

  8. 超解像 + ニューラルネットワークの最初の手法

    View Slide

  9. 2015-2019の流れ: PSNR追求手法たち
    SRCNNの成功をうけ、畳み込みニューラルネットワークで超解像する手法
    が台頭してくる
    Set / BSD100 / Urban100 といった特定の評価用データセットに対して、
    正解画像と推定画像のPSNRを大きくする方法が探られる
    (評価データは正解画像をバイキュービックで縮小して作られた)
    この時期の論文はとにかくPSNRの大小を競い合っていた

    View Slide

  10. 2015-2019の流れ: PSNR追求手法たち

    View Slide

  11. 2019-現在の流れ: PSNR以外の要素が注目
    (既存の評価データセット・評価方法での)精度は限界に近づいてきた
    RCANが実装コスト・学習コスト・精度で最もコスパが良いので困ったら
    RCANを使うのがおすすめ

    View Slide

  12. 2019-現在の流れ: PSNR以外の要素が注目
    (既存の評価データセット・評価方法での)精度は限界に近づいてきた
    ● 見た目重視!PSNRより画像としての綺麗さを追求しよう!
    ○ GAN を用いてとにかくもっともらしく見える画像を生成
    ● 速度重視!リアルタイムでも動作するようにもっと高速化しよう!
    ○ 軽量化・量子化
    ○ PSNRも評価するが、実行時間やFLOPsを重視する
    ● 実用性重視!縮小方法が不明の際も綺麗に拡大できるようにしよう!
    ○ 従来は評価データをバイキュービック縮小で作っていた
    ○ 異なる縮小方法やノイズ・ブラーに頑健な手法が考案され始める
    ○ Blind Image Super-Resolution と呼ばれる。個人的に最もアツい

    View Slide

  13. ※ 超解像論文を読むときの注意
    ● PSNR追求手法なのか、見た目追求手法なのか、速度追求手法なのか、
    実用性追求手法なのかを見極める
    ○ たいては論文のContributionにちゃんと記述がある
    ○ PSNR追求を騙っておいて見た目追求手法とPSNRを比較している
    論文もある
    ● 評価の計算方法を把握する
    ○ PSNRのための輝度計算は画像ライブラリによって異なる
    ○ ライブラリAで計算した既存手法の値と、
    ライブラリBで計算した提案手法の値を比較している論文もある

    View Slide

  14. 単一画像超解像の限界
    ある低解像度画像に対応する高解像度画像は複数あり得るので
    そもそも超解像は不良決定問題になります
    https://hoya012.github.io/blog/SIngle-Image-Super-Resolution-Overview/

    View Slide

  15. 単一画像超解像の実社会応用に対する個人的な思い
    ● 畳み込みニューラルネットワークを用いた単一画像超解像は強い
    ● 強い故に、よく「正解画像を出力している」と思われがちですが、
    縮小したらこうなりそうな、それっぽい高画質画像のうちの1枚を出力
    しているだけ
    ● 特にニューラルネットワークは自然な画像の生成力が強すぎて
    「本来は存在しない細部の生成」や「本当はあった異常の除去」を
    やってしまう可能性がある

    View Slide

  16. 単一画像超解像の実社会応用に対する個人的な思い
    ● 多少は元と違ってもいいから、それらしい画像になってほしい時に
    使用すべき
    ○ 過去に配信したコンテンツを今の端末でも綺麗に見たい!
    ○ 小物体に対する前処理(詳細は重要ではなく、その物体らしさを
    強調したい、と言う時に向いている)
    ● 医療診断や犯罪捜査のための超解像は慎重にすべき(個人的な思い)
    ○ 異常系を消してしまう/作り出してしまう可能性がある
    ○ 限定的なケースには有効かもしれない(ナンバープレート等)

    View Slide

  17. まとめ
    ● 単一画像超解像は画像を拡大するよ
    ● ニューラルネットワークを用いた単一画像超解像は強いよ
    ○ 2015-2019は特定データでPSNRを追求する流れがあった
    ○ 2019あたりからは他の指標も注目されている
    ○ 強いからと言って正しい答えは出せない

    View Slide