Attention+超解像の論文紹介 / An Introduction of Super-Resolution with Attention Mechanism

Attention+超解像の論文紹介 / An Introduction of Super-Resolution with Attention Mechanism

■イベント
【京都開催】SIL勉強会 機械学習編
https://sansan.connpass.com/event/129358/

■登壇概要
タイトル:Attention+超解像の論文紹介

登壇者:DSOC R&Dグループ インターン 内田奏

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

13d936e697fe0f4fa96f926d0a712f6c?s=128

Sansan

May 28, 2019
Tweet

Transcript

  1. Attention+超解像の論⽂紹介 Sansan 株式会社 DSOC(Data Strategy & Operation Center) R&D Group

    インターン⽣ 内⽥ 奏 第2回SIL勉強会 機械学習編
  2. ⾃⼰紹介 内⽥ 奏 (So Uchida) 所属:東京電機⼤学⼤学院 (M2) 専⾨:画像処理 Sansan株式会社にてインターンシップ (2018/10-)

    @S-aiueo32 インターンにおける取り組み 名刺画像の超解像 その他名刺画像の品質改善 1
  3. 今⽇お話しすること 超解像 超解像とは何か, 難しさ Attention NLPにおけるAttention CVにおけるAttention (主にSENet, Non-local NN)

    論⽂紹介 Second-order Attention Network for Single Image Super-Resolution ※図は論⽂より引⽤しています 2
  4. 超解像

  5. 超解像とは ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化 画像以外にも⾳声,電波,センシングの分野でも登場 ⾼周波成分の復元を指す場合もある 超解像画像 低解像度画像 アルゴリズム 4

  6. 問題設定 Image Restoration問題に帰着 低解像度画像は⾼解像度画像が劣化して⽣成されたと仮定 劣化の逆変換ℱを求めることが⽬標 超解像画像 $% 低解像度画像 &% 復元

    劣化 ⾼解像度画像 '% '% ℱ &% 5
  7. 超解像の難しさ 不良設定問題 1つの⼊⼒に対し,妥当な出⼒が無数に存在 倍率が⼤きくなるほど,不良設定の度合いもきつくなる ①縮⼩ ②超解像 6 同じ画像が ⽣成される どの画像に

    復元すべきか?
  8. 深層学習を⽤いた超解像 SRCNN [C. Dong et al. ECCV 2014] 超解像に深層学習を⽤いた初めての⼿法 3層のCNNで構成

    SRGAN [C. Ledig et al. CVPR 2017] ResNet+GANを⽤いた⾃然な超解像 「評価指標(RMSE etc.) ≠ 知覚品質」という問題提起 [Y. Blau et al. CVPR 2018] でトレードオフの存在が検証 7
  9. Attention

  10. NLPにおけるAttention 単語の関係性を学習 & 重み付け 翻訳タスク等の系列⽣成モデルにおける⻑距離特徴の伝播に利⽤ 重みの可視化によりモデルの解釈性向上にも寄与 Attentionによる重み付けの流れ (出典: [M. Luong

    et al. EMNLP 2015]) Attentionの可視化 (出典: [C. OLAH et al. Distill]) 9 対訳語間の重みが⼤きくなっている Decoder側に到達せず 消失しがち 重みをつけて強調
  11. CVにおけるAttention 時系列を持つAttention Vision & Languageでよく⽤いられる(Captioning, VQA etc.) Show , Attend

    and Tell [K. Xu et al. ICML 2015] 時系列を持たないAttention あらゆるタスクに応⽤(画像分類, 検出 etc.) Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] どちらにも⽤いられるAttention Non-local Neural Network [X. Wang et al. CVPR 2018] 紹介する論⽂のベース 10
  12. Show, Attend and Tell [K. Xu et al. ICML 2015]

    画像キャプショニングタスクにAttentionを利⽤ 抽出した画像特徴にAttentionをかけてLSTMに⼊⼒ Attentionが単語が指す領域を強調 出⼒単語に対するSoft Attentionの可視化 処理の流れ 11
  13. Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] SEBlock: チャネル⽅向にAttentionを導⼊

    Squeeze process: Global poolingを⽤いて⼊⼒マップの統計量を抽出 Excitation process: 抽出した統計量を全結合層に通して重みを計算 わずかなパラメータ数の増加で精度向上 (ILSVRC2017優勝) 12
  14. Non-local Neural Network [X. Wang et al. CVPR 2018] CNNで⾮局所的な情報を扱えるようにする

    Non-local演算: 位置と任意の位置との類似度を重みとした荷重和を計算 「類似する点が多い=重要な情報」という発想 Non-local meanフィルタから着想を得る 13 + = 1 () 2 ∀4 + , 7 (7 ) 位置における出⼒値 位置, の類似度 位置の応答値 正規化係数 Non-local演算のイメージ
  15. Non-local Neural Network [X. Wang et al. CVPR 2018] Non-local

    module 既存のネットワークに組み込み可能 類似度計算の種類 Gaussian: +, 7 の内積をガウス関数にかける Embedded Gaussian (著者オススメ): +, 7 の埋め込みを内積をガウス関数にかける Dot product: +, 7 の内積 Concatenation: +, 7 を連結して全結合層に⼊⼒し類似度計算 14 + = 1 () 2 ∀4 + , 7 (7 ) 位置における出⼒値 位置, の類似度 位置の応答値 正規化係数 (+ , 7 ) 類似度計算 (7 ) Non-local module (Embedded Gaussian) Residual connection Attention branch Attentionとみなせる
  16. 論⽂紹介 15

  17. 論⽂情報 Second-order Attention Network for Single Image Super-Resolution 著者: Tao

    Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang 所属: 清華⼤学, Peng Chen Laboratory, ⾹港理⼯⼤学, DAMO Academy 採択会議: CVPR 2019 (oral) まとめると… Attentionを多く盛り込むことでstate-of-the-artを達成 ⼆次統計量によるAttentionを⽤いる 16
  18. 提案ネットワーク (SAN; Second-order Attention Network) 17

  19. 提案ネットワーク (SAN; Second-order Attention Network) 18

  20. Region-level non-local module (RL-NL) 従来のNon-local moduleの問題点 特徴マップのサイズが⼤きい場合に計算量が現実的でない Low-level visionでは適切な近傍への演算が効果的 (⼊出⼒の相関が⾼いから?)

    Region-level non-local module (RL-NL) 特徴マップを × 個のグリッドに分割し,⾼速化と効率化を図る 19
  21. 提案ネットワーク (SAN; Second-order Attention Network) 20

  22. Second-order Channel Attention (SOCA) 従来のChannel Attention ⼀次統計量(平均, 分散 etc.)を⽤いてGlobal Pooling

    NNの識別能⼒を活かしきれていなかった Second-order Channel Attention (SOCA) ⼆次統計量(共分散⾏列)を⽤いたGlobal Pooling 特徴の相互依存性を捉えられ,識別的な特徴の学習が可能 21
  23. Covariance Normalization 22 ①共分散⾏列を計算 ②固有値分解 ③正規化 = ̅ ? =

    ? B = D = D? • ∈ ℝGH×Iは特徴マップ ∈ ℝG×H×Iを変形した⾏列 • ̅ = K GH ( − K GH ) • は直⾏⾏列 • = diag(K , ⋯ , I )は 固有値を成分に持つ 対⾓⾏列 (対⾓成分は降順に並ぶ) • = diag(K D, ⋯ , I D) • = 1 ⇔ 正規化なし • 経験的に = K V を⽤いる 固有値分解が重たいため学習時間がかかる
  24. Covariance Normalization Acceleration Newton-Schulz Iterationによる固有値分解の⾼速化 W = , W =

    として次式を回反復 (提案⼿法では5回以下で⼗分) Z = 1 2 Z\K 3 − Z\K Z\K , Z = 1 2 3 − Z\K Z\K Z\K 収束性を保証するためにを事前正規化 B = 1 tr() 事前正規化によりスケールが変わるため後処理 B = tr()` 23
  25. Channel Attention 共分散⾏列をチャネル⽅向に集約 正規化共分散⾏列 B = [K , ⋯ ,

    I ] をチャネル⽅向に平均をとる d = fIg d = 1 2 + I d () Attentionの計算・適⽤ ボトルネック構造( = 16)をもった全結合層に通す 24 出典: [Y. Zhang et al. ECCV 2018]
  26. 提案ネットワーク (SAN; Second-order Attention Network) 25 Share-source skip connection (SSC)

    → 低周波成分をバイパス ここをスタックする
  27. 実験設定 データセット trainデータ: DIV2Kから800枚サンプル testデータ: Set5, Set14, BSD100, Urban100, Manga109

    低解像度画像の作成⽅法 Bicubic Interpolation (BI) / Gaussian-blur Downsampling (BD) 評価⽅法 YCbCrに変換し,YチャネルでPSNR/SSIMを⽤いて評価 PSNR [dB] : 信号の最⼤パワーと誤差の⽐, MSEをlogスケールにしたもの SSIM: 構造類似度, 局所的な輝度・コントラスト・構造変化に過敏に反応 26
  28. Ablation Study ベースライン RL-NL, SSC, SOCAをいずれも含まないモデル LSRAG (10 Residual blocks)を20個スタック

    i.e. 約400層のCNN 27 モジュール単体での効果確認 ⼀次 vs ⼆次
  29. 定量評価 (BI) ほぼすべてのデータセット&倍率でSAN+が最⾼精度 28 26 23.14 28.36 25.79 28.86 26.82

    28.92 26.79 29.05 27.23 23 24 25 26 27 28 29 30 Set14 Urban100 PSNR [dB] 定量評価結果(抜粋) Bicubic NLRN RCAN SAN (提案法) SAN+ (提案法 + Self-Ensemble) テクスチャの多いデータセット エッジの多いデータセット SOCAはテクスチャの復元に強い?
  30. 視覚的評価 (BI) 29 提案法がテクスチャをよく表している

  31. おわりに Attention 特徴マップへの重み付けによる特徴抽出の効率化 既存ネットワークに組み込み可能なモジュール(SEBlock, Non-local module) Second-order Attention Network (SAN)

    ⼆次統計量(共分散⾏列)を⽤いたAttentionを超解像に応⽤ ⼆次統計量がテクスチャの復元に強いという主張 個⼈的な希望 結果の検証が物⾜りない気がするので追試してみたい コード公開が待たれる…! - https://github.com/daitao/SAN 30
  32. 参考⽂献 1. Tao Dai, Jianrui Cai, et al. "Second-order Attention

    Network for Single Image Super-resolution," in CVPR 2019 . 2. Dong, Chao, et al. "Image super-resolution using deep convolutional networks." IEEE transactions on pattern analysis and machine intelligence 38.2 (2015): 295-307. 3. Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. 4. Luong, Thang, Hieu Pham, and Christopher D. Manning. "Effective Approaches to Attention-based Neural Machine Translation." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. 5. Olah, Chris, and Shan Carter. "Attention and augmented recurrent neural networks." Distill 1.9 (2016): e1. 6. Xu, Kelvin, et al. "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention." International Conference on Machine Learning. 2015. 7. Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 8. Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. 9. Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018. 31
  33. 32