Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Attention+超解像の論文紹介 / An Introduction of Super-Resolution with Attention Mechanism

Attention+超解像の論文紹介 / An Introduction of Super-Resolution with Attention Mechanism

■イベント
【京都開催】SIL勉強会 機械学習編
https://sansan.connpass.com/event/129358/

■登壇概要
タイトル:Attention+超解像の論文紹介

登壇者:DSOC R&Dグループ インターン 内田奏

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

May 28, 2019
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. Attention+超解像の論⽂紹介
    Sansan 株式会社 DSOC(Data Strategy & Operation Center)
    R&D Group インターン⽣ 内⽥ 奏
    第2回SIL勉強会 機械学習編

    View Slide

  2. ⾃⼰紹介
    内⽥ 奏 (So Uchida)
    所属:東京電機⼤学⼤学院 (M2)
    専⾨:画像処理
    Sansan株式会社にてインターンシップ (2018/10-)
    @S-aiueo32
    インターンにおける取り組み
    名刺画像の超解像
    その他名刺画像の品質改善
    1

    View Slide

  3. 今⽇お話しすること
    超解像
    超解像とは何か, 難しさ
    Attention
    NLPにおけるAttention
    CVにおけるAttention (主にSENet, Non-local NN)
    論⽂紹介
    Second-order Attention Network for Single Image Super-Resolution
    ※図は論⽂より引⽤しています
    2

    View Slide

  4. 超解像

    View Slide

  5. 超解像とは
    ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化
    画像以外にも⾳声,電波,センシングの分野でも登場
    ⾼周波成分の復元を指す場合もある
    超解像画像
    低解像度画像
    アルゴリズム
    4

    View Slide

  6. 問題設定
    Image Restoration問題に帰着
    低解像度画像は⾼解像度画像が劣化して⽣成されたと仮定
    劣化の逆変換ℱを求めることが⽬標
    超解像画像 $%
    低解像度画像 &%
    復元
    劣化
    ⾼解像度画像 '%
    '% ℱ &%
    5

    View Slide

  7. 超解像の難しさ
    不良設定問題
    1つの⼊⼒に対し,妥当な出⼒が無数に存在
    倍率が⼤きくなるほど,不良設定の度合いもきつくなる
    ①縮⼩
    ②超解像
    6
    同じ画像が
    ⽣成される
    どの画像に
    復元すべきか?

    View Slide

  8. 深層学習を⽤いた超解像
    SRCNN [C. Dong et al. ECCV 2014]
    超解像に深層学習を⽤いた初めての⼿法
    3層のCNNで構成
    SRGAN [C. Ledig et al. CVPR 2017]
    ResNet+GANを⽤いた⾃然な超解像
    「評価指標(RMSE etc.) ≠ 知覚品質」という問題提起
    [Y. Blau et al. CVPR 2018] でトレードオフの存在が検証
    7

    View Slide

  9. Attention

    View Slide

  10. NLPにおけるAttention
    単語の関係性を学習 & 重み付け
    翻訳タスク等の系列⽣成モデルにおける⻑距離特徴の伝播に利⽤
    重みの可視化によりモデルの解釈性向上にも寄与
    Attentionによる重み付けの流れ
    (出典: [M. Luong et al. EMNLP 2015])
    Attentionの可視化
    (出典: [C. OLAH et al. Distill])
    9
    対訳語間の重みが⼤きくなっている
    Decoder側に到達せず
    消失しがち
    重みをつけて強調

    View Slide

  11. CVにおけるAttention
    時系列を持つAttention
    Vision & Languageでよく⽤いられる(Captioning, VQA etc.)
    Show , Attend and Tell [K. Xu et al. ICML 2015]
    時系列を持たないAttention
    あらゆるタスクに応⽤(画像分類, 検出 etc.)
    Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018]
    どちらにも⽤いられるAttention
    Non-local Neural Network [X. Wang et al. CVPR 2018]
    紹介する論⽂のベース
    10

    View Slide

  12. Show, Attend and Tell [K. Xu et al. ICML 2015]
    画像キャプショニングタスクにAttentionを利⽤
    抽出した画像特徴にAttentionをかけてLSTMに⼊⼒
    Attentionが単語が指す領域を強調
    出⼒単語に対するSoft Attentionの可視化
    処理の流れ
    11

    View Slide

  13. Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018]
    SEBlock: チャネル⽅向にAttentionを導⼊
    Squeeze process: Global poolingを⽤いて⼊⼒マップの統計量を抽出
    Excitation process: 抽出した統計量を全結合層に通して重みを計算
    わずかなパラメータ数の増加で精度向上 (ILSVRC2017優勝)
    12

    View Slide

  14. Non-local Neural Network [X. Wang et al. CVPR 2018]
    CNNで⾮局所的な情報を扱えるようにする
    Non-local演算: 位置と任意の位置との類似度を重みとした荷重和を計算
    「類似する点が多い=重要な情報」という発想
    Non-local meanフィルタから着想を得る
    13
    +
    =
    1
    ()
    2
    ∀4
    +
    , 7
    (7
    )
    位置における出⼒値
    位置, の類似度 位置の応答値
    正規化係数
    Non-local演算のイメージ

    View Slide

  15. Non-local Neural Network [X. Wang et al. CVPR 2018]
    Non-local module
    既存のネットワークに組み込み可能
    類似度計算の種類
    Gaussian: +, 7
    の内積をガウス関数にかける
    Embedded Gaussian (著者オススメ):
    +, 7
    の埋め込みを内積をガウス関数にかける
    Dot product: +, 7
    の内積
    Concatenation:
    +, 7
    を連結して全結合層に⼊⼒し類似度計算
    14
    +
    =
    1
    ()
    2
    ∀4
    +
    , 7
    (7
    )
    位置における出⼒値
    位置, の類似度 位置の応答値
    正規化係数
    (+
    , 7
    )
    類似度計算
    (7
    )
    Non-local module (Embedded Gaussian)
    Residual connection
    Attention branch
    Attentionとみなせる

    View Slide

  16. 論⽂紹介
    15

    View Slide

  17. 論⽂情報
    Second-order Attention Network for Single Image Super-Resolution
    著者: Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang
    所属: 清華⼤学, Peng Chen Laboratory, ⾹港理⼯⼤学, DAMO Academy
    採択会議: CVPR 2019 (oral)
    まとめると…
    Attentionを多く盛り込むことでstate-of-the-artを達成
    ⼆次統計量によるAttentionを⽤いる
    16

    View Slide

  18. 提案ネットワーク (SAN; Second-order Attention Network)
    17

    View Slide

  19. 提案ネットワーク (SAN; Second-order Attention Network)
    18

    View Slide

  20. Region-level non-local module (RL-NL)
    従来のNon-local moduleの問題点
    特徴マップのサイズが⼤きい場合に計算量が現実的でない
    Low-level visionでは適切な近傍への演算が効果的 (⼊出⼒の相関が⾼いから?)
    Region-level non-local module (RL-NL)
    特徴マップを × 個のグリッドに分割し,⾼速化と効率化を図る
    19

    View Slide

  21. 提案ネットワーク (SAN; Second-order Attention Network)
    20

    View Slide

  22. Second-order Channel Attention (SOCA)
    従来のChannel Attention
    ⼀次統計量(平均, 分散 etc.)を⽤いてGlobal Pooling
    NNの識別能⼒を活かしきれていなかった
    Second-order Channel Attention (SOCA)
    ⼆次統計量(共分散⾏列)を⽤いたGlobal Pooling
    特徴の相互依存性を捉えられ,識別的な特徴の学習が可能
    21

    View Slide

  23. Covariance Normalization
    22
    ①共分散⾏列を計算 ②固有値分解 ③正規化
    = ̅
    ? = ? B
    = D = D?
    • ∈ ℝGH×Iは特徴マップ
    ∈ ℝG×H×Iを変形した⾏列
    • ̅
    = K
    GH
    ( − K
    GH
    )
    • は直⾏⾏列
    • = diag(K
    , ⋯ , I
    )は
    固有値を成分に持つ
    対⾓⾏列
    (対⾓成分は降順に並ぶ)
    • = diag(K
    D, ⋯ , I
    D)
    • = 1 ⇔ 正規化なし
    • 経験的に = K
    V
    を⽤いる
    固有値分解が重たいため学習時間がかかる

    View Slide

  24. Covariance Normalization Acceleration
    Newton-Schulz Iterationによる固有値分解の⾼速化
    W
    = , W
    = として次式を回反復 (提案⼿法では5回以下で⼗分)
    Z
    =
    1
    2
    Z\K
    3 − Z\K
    Z\K
    , Z
    =
    1
    2
    3 − Z\K
    Z\K
    Z\K
    収束性を保証するためにを事前正規化
    B
    =
    1
    tr()

    事前正規化によりスケールが変わるため後処理
    B
    = tr()`
    23

    View Slide

  25. Channel Attention
    共分散⾏列をチャネル⽅向に集約
    正規化共分散⾏列 B
    = [K
    , ⋯ , I
    ] をチャネル⽅向に平均をとる
    d
    = fIg
    d
    =
    1

    2
    +
    I
    d
    ()
    Attentionの計算・適⽤
    ボトルネック構造( = 16)をもった全結合層に通す
    24
    出典: [Y. Zhang et al. ECCV 2018]

    View Slide

  26. 提案ネットワーク (SAN; Second-order Attention Network)
    25
    Share-source skip connection (SSC) → 低周波成分をバイパス
    ここをスタックする

    View Slide

  27. 実験設定
    データセット
    trainデータ: DIV2Kから800枚サンプル
    testデータ: Set5, Set14, BSD100, Urban100, Manga109
    低解像度画像の作成⽅法
    Bicubic Interpolation (BI) / Gaussian-blur Downsampling (BD)
    評価⽅法
    YCbCrに変換し,YチャネルでPSNR/SSIMを⽤いて評価
    PSNR [dB] : 信号の最⼤パワーと誤差の⽐, MSEをlogスケールにしたもの
    SSIM: 構造類似度, 局所的な輝度・コントラスト・構造変化に過敏に反応
    26

    View Slide

  28. Ablation Study
    ベースライン
    RL-NL, SSC, SOCAをいずれも含まないモデル
    LSRAG (10 Residual blocks)を20個スタック i.e. 約400層のCNN
    27
    モジュール単体での効果確認 ⼀次 vs ⼆次

    View Slide

  29. 定量評価 (BI)
    ほぼすべてのデータセット&倍率でSAN+が最⾼精度
    28
    26
    23.14
    28.36
    25.79
    28.86
    26.82
    28.92
    26.79
    29.05
    27.23
    23
    24
    25
    26
    27
    28
    29
    30
    Set14 Urban100
    PSNR [dB]
    定量評価結果(抜粋)
    Bicubic NLRN RCAN SAN (提案法) SAN+ (提案法 + Self-Ensemble)
    テクスチャの多いデータセット エッジの多いデータセット
    SOCAはテクスチャの復元に強い?

    View Slide

  30. 視覚的評価 (BI)
    29
    提案法がテクスチャをよく表している

    View Slide

  31. おわりに
    Attention
    特徴マップへの重み付けによる特徴抽出の効率化
    既存ネットワークに組み込み可能なモジュール(SEBlock, Non-local module)
    Second-order Attention Network (SAN)
    ⼆次統計量(共分散⾏列)を⽤いたAttentionを超解像に応⽤
    ⼆次統計量がテクスチャの復元に強いという主張
    個⼈的な希望
    結果の検証が物⾜りない気がするので追試してみたい
    コード公開が待たれる…! - https://github.com/daitao/SAN
    30

    View Slide

  32. 参考⽂献
    1. Tao Dai, Jianrui Cai, et al. "Second-order Attention Network for Single Image Super-resolution," in CVPR 2019 .
    2. Dong, Chao, et al. "Image super-resolution using deep convolutional networks." IEEE transactions on pattern analysis and
    machine intelligence 38.2 (2015): 295-307.
    3. Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of
    the IEEE conference on computer vision and pattern recognition. 2017.
    4. Luong, Thang, Hieu Pham, and Christopher D. Manning. "Effective Approaches to Attention-based Neural Machine
    Translation." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
    5. Olah, Chris, and Shan Carter. "Attention and augmented recurrent neural networks." Distill 1.9 (2016): e1.
    6. Xu, Kelvin, et al. "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention." International Conference on
    Machine Learning. 2015.
    7. Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision
    and pattern recognition. 2018.
    8. Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern
    Recognition. 2018.
    9. Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the
    European Conference on Computer Vision (ECCV). 2018.
    31

    View Slide

  33. 32

    View Slide