Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRCNN: Image Super Resolution Using CNN

SRCNN: Image Super Resolution Using CNN

論文輪読会で作成したSRCNN論文の説明資料です。

Masanori YANO

June 05, 2019
Tweet

More Decks by Masanori YANO

Other Decks in Science

Transcript

  1. 論文輪読会 #25
    SRCNN: Image Super-Resolution Using CNN
    2019年6月5日(水)
    矢農 正紀 (Masanori YANO)

    View Slide

  2. 論文の位置付け
    2
    CNNによる超解像(Super-Resolution)の始祖
    ・超解像とは
    入力画像の解像度を高めて出力する技術
    ⇒ 画像のサイズを拡大し、不足分の情報は補完して出力
    ・SRCNN以前は
    [1] 出力する座標の、周辺の画素から重み付けして計算
    [2] 機械学習で、重み付けする「辞書」を事前に作成
    [3] MLP(多層パーセプトロン)を使用した研究はあった
    (・SRCNN以後は
    - SRGAN: GANとCNNを使用した超解像の始祖
    - GANを使用した手法と、GANを使用しない手法が混在
    - Image Inpainting: マスクされた欠落部分の補完
    - 入力が一枚の画像ではなく、動画に対する超解像)

    View Slide

  3. 論文の所在
    3
    ・arXivの論文
    https://arxiv.org/abs/1501.00092
    https://arxiv.org/pdf/1501.00092.pdf
    ・オフィシャル実装
    Matlabの推論コード及びCaffeの学習コード
    http://mmlab.ie.cuhk.edu.hk/projects/SRCNN.html

    View Slide

  4. 論文の構成
    4
    Abstract
    1 INTRODUCTION
    2 RELATED WORK
    2.1 Image Super-Resolution
    2.2 Convolutional Neural Networks
    2.3 Deep Learning for Image Restoration
    3 CONVOLUTIONAL NEURAL NETWORKS
    FOR SUPER-RESOLUTION
    3.1 Formulation
    3.2 Relationship to Sparse-Coding-Based Methods
    3.3 Training
    4 EXPERIMENTS
    4.1 Training Data
    4.2 Learned Filters for Super-Resolution
    4.3 Model and Performance Trade-offs
    4.4 Comparisons to State-of-the-Arts
    4.5 Experiments on Color Channels
    5 CONCLUSION
    REFERENCES

    View Slide

  5. Abstract (1/3)
    5
    We propose a deep learning method for single image
    super-resolution (SR). Our method directly learns an
    end-to-end mapping between the low/high-resolution
    images. The mapping is represented as a deep
    convolutional neural network (CNN) that takes the low-
    resolution image as the input and outputs the high-
    resolution one.
    ・単一イメージの超解像の、深層学習による手法を提案
    ・提案手法はend-to-endで高/低解像度の画像の対応を学習
    ・その対応は、深い畳み込みニューラルネットワークで表現
    ・低解像度の画像を入力とし、高解像度の画像を出力する

    View Slide

  6. Abstract (2/3)
    6
    We further show that traditional sparse-coding-based
    SR methods can also be viewed as a deep convolutional
    network. But unlike traditional methods that handle
    each component separately, our method jointly
    optimizes all layers. Our deep CNN has a lightweight
    structure, yet demonstrates state-of-the-art restoration
    quality, and achieves fast speed for practical on-line
    usage.
    ・従来の超解像も、深いCNNの一種と捉えられることを示す
    ・ただ、従来の手法では構成要素ごと個別に扱っていたが、
    提案手法は全ての階層をまとめて最適化する
    ・我々のCNNは軽量な構造だが、修復の品質はSOTAで高速

    View Slide

  7. Abstract (3/3)
    7
    We explore different network structures and parameter
    settings to achieve tradeoffs between performance and
    speed. Moreover, we extend our network to cope with
    three color channels simultaneously, and show better
    overall reconstruction quality.
    ・異なるネットワーク構造やパラメータ設定でも評価
    ・それらは、性能と実行速度とのトレードオフ
    ・さらに、ネットワークをカラー3チャネル同時処理に拡張
    ・かつ(入力画像の)再構成については、全体として高品質

    View Slide

  8. 1 INTRODUCTION
    8
    提案手法のSRCNNは、BicubicやSCよりも高品質
    ・超解像はCVの古典的な問題
    ・既存手法は深いCNNと等価
    ・提案手法は高速で、CPUでも可

    View Slide

  9. 2 RELATED WORK
    9
    2.1 Image Super-Resolution
    ・NN: Nearest Neighbour(最近傍)
    ・既存の超解像は、グレイスケールや単一チャネルが多数派
    2.2 Convolutional Neural Networks
    ・CNNは、LeCun先生の1989年の論文までさかのぼる
    ・近代の高性能なGPUと、ReLU
    2.3 Deep Learning for Image Restoration
    ・深層学習の技術による画像の修復は、少数の研究があった
    ・end-to-endではなかった(SRCNNはend-to-endで可能)

    View Slide

  10. 3 CONVOLUTIONAL NEURAL NETWORKS FOR
    SUPER-RESOLUTION(1/2)
    10
    入力画像は、最初にBicubicで拡大しておく
    ・3回の畳み込みと2回のReLUで、非線形の変換と再構成
    ・基本のフィルタサイズは「9×9 → 1×1 →5×5」
    ・基本のチャネルサイズは「64 → 32 → 3」

    View Slide

  11. 3 CONVOLUTIONAL NEURAL NETWORKS FOR
    SUPER-RESOLUTION(2/2)
    11
    Sparse-coding-basedな手法も、CNNとみなせる
    ・損失関数は、平均二乗誤差(MSE)
    ・標準的な誤差逆伝播法(Momentum SGD)
    ・訓練のときは、もとの画像からランダムに切り抜き
    ・境界の影響を避けるため、訓練のときはパディングなし

    View Slide

  12. 4 EXPERIMENTS
    12
    異なるデータセットで、モデルの性能を評価
    ・デフォルトの訓練データには、ImageNetを採用
    ・チャネル数を増やすと性能は上がるが、高速が望ましい
    ・フィルタサイズを大きくすると良くなるが、遅くなる
    ・CNNを深くしたからといって、良くなるわけではない
    ・既存手法と比較して高品質で、速度についても優位
    ・カラーチャネルはRGBを直接がベストで、Yのみが次に

    View Slide

  13. 5 CONCLUSION
    13
    ・Abstractと同様の記述
    ・提案構造は、ぼけやノイズの除去に適用され得る
    ・異なる拡大要因に対処するCNNも研究の余地あり

    View Slide

  14. waifu2x
    14
    CNNによる超解像システム
    http://waifu2x.udp.jp/
    ⇒ SRCNNに触発されて開発とのこと
    ・SRCNNとの違い(C++実装版から)
    [1] CNN前の拡大はNearest Neighbour
    [2] 畳み込みのフィルタが全て3×3
    [3] 畳み込みの層の数が6層
    [4] ReLUではなくLeaky ReLU
    [5] RGBではなくYのみCNNで超解像

    View Slide

  15. 参考: 自分のデータで試してみたい場合
    15
    ・DCSCNのTensorFlow実装
    https://github.com/jiny2001/dcscn-super-resolution

    View Slide

  16. 参考: 超解像まとめの情報
    16
    [1] トップ学会採択論文にみる、
    超解像ディープラーニング技術のまとめ
    https://qiita.com/jiny2001/items/e2175b52013bf655d617
    2018年までの超解像モデルのQiitaまとめ記事
    [2] 超解像メタサーベイ
    https://www.slideshare.net/S_aiueo32/cvpaperchallenge-metastudygroup
    cvpaper.challengeの勉強会のSlideShare資料
    「メタ」は、誰が強いのか、なぜ強いのかといった分析

    View Slide

  17. 参考: 超解像の評価
    17
    ・SRGAN
    https://arxiv.org/abs/1609.04802
    https://arxiv.org/pdf/1609.04802.pdf
    SRGAN論文に掲載の、PSNR(dB)とSSIMの評価結果
    ⇒ 「人間から見た自然さ」の評価指標も研究されるように

    View Slide