[cvpaper.challenge] Second-order Attention Network for Single Image Super-Resolution

Second-order Attention Network for Single Image Super-Resolution Tao Dai, Jianrui
Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang Presenter: 内田奏

論文情報 ➔ タイトル: Second-order Attention Network for Single Image Super-resolution
➔ 著者: Tao Dai1,2,*, Jianrui Cai3,*, Yongbing Zhang1, Shu-Tao Xia1,2, Lei Zhang3,4 ◆ 1) Tsinghua University ◆ 2) Peng Cheng Laboratory ◆ 3) The Hong Kong Polytechnic University ◆ 4) DAMO Academy (Alibaba) ➔ 発表形式: Oral Session (3-2C: Low-level & Optimization) Links: Paper / Implementation / Persentation

概要 ➔ Second-order Channel Attentionを用いた超解像手法を提案 ➔ Spatial Attention / Channel
Attentionを組み込んでSOTA ➔ 高次統計量を用いることでテクスチャをうまく表現できる

研究背景 (1) ➔ Single Image Super-Resolution (SISR) ◆ 1枚の画像を入力して，解像度を高めた画像を推定 ◆
ill-posed問題として知られる • 妥当な解が無限に存在する ◆ 周囲の特徴からコンテキストを捉える必要がある ➔ 学習ベースの手法が成功を収めている ◆ SRCNN [C. Dong et al. ECCV 2014] ◆ SRGAN [C. Ledig et al. CVPR 2017] ◆ RDN [Y. Zhuang et al. CVPR 2018] ◆ Deeper/Widerなネットワークにフォーカスが当てられてきた ◆ 特徴の相互関係が無視されていないか？

研究背景 (2) ➔ Attention機構: 特徴間の関係を学習&重み付け ◆ Spatial Attention : 空間的な特徴の相互関係を捉える
• Non-local Network [X. Wang et al. CVRP 2018] • NLRN [D. Liu et al. NeurIPS 2018] ◆ Channel Attention : チャネルごとの特徴の相互関係を捉える • SENet [X. Hu et al. CVPR 2018] • RCAN [Y. Zhang et al. ECCV 2018] ➔ SENet, RCAN etc. は一次統計量しか用いていない ◆ Global Average Poolingを用いて集約 ◆ 二次統計量を用いると識別的な特徴を学習可能 [Q. Wang et al. ICCV 2017]

研究目的「特徴の相互関係を意識した超解像」 ➔ コントリビューション ◆ Spatial/Channel Attentionを両方組み込んだ Second-order Attention Network
(SAN) を提案 ◆ for Spatial Attention • Non-local Moduleを改良した Non-Local enhaced Residual Group (NLRG)を提案 ◆ for Channel Attention • 二次統計量を用いた Second-order Channel Attention (SOCA)を提案

ちょっと振り返って - Non-local Network - ➔ CNNで非局所的な情報を扱う ◆ Non-local演算: 注目点とその他の点との重み付き和を計算
• 重みには類似度(e.g. 内積のガウシアン)を用いる ◆ Self-Attentionと等価といわれている • ☞ 『最近の深層学習における Attention機構 - CVとNLPを中心に -』 (by NEC 福井さん) Non-local演算のイメージ計算式

ちょっと振り返って - SENet - ➔ SE Block: チャネル間の関係を学習&強調 ◆ Squeeze
process: Global Poolingを用いてマップごとに統計量を抽出 ◆ Excitation process: 抽出した統計量をFC層に通して励起 ➔ わずかなパラメータ増加でILSVRC2017で優勝

Second-order Attention Network (SAN)

Region-level non-local Module (RL-NL) ➔ 従来のNon-local moduleの問題点 ◆ 特徴マップのサイズが大きいと計算量が爆発 ◆
Low-level visionではそこまで大域的である必要がない ➔ Region-level none-local module (RL-NL) ◆ 特徴マップをk × k個のグリッドに分割し，高速化&効率化

Second-order Channel Attention ➔ 従来のChannel Attention ◆ 一次統計量(e.g. 平均，分散)を用いたGlobal Pooling
◆ NNの識別能力を活かしきれていないのでは？ ➔ Second-order Channel Attention Module (SOCA) ◆ 二次統計量 (i.e. 共分散行列)を用いたGlobal Pooling • 直接用いるのではなく，正規化およびチャネル毎に集約 (後述) ◆ 特徴の相互依存性を捉えて，より識別的な特徴を学習

Covariance Normalization ➔ 固有値をα乗することで共分散行列を正規化 ① 共分散行列を計算 ② 固有値分解 ③ 正規化
固有値分解が重いので学習に不向き...

Covariance Normalization Acceleration ➔ Newton-Schultz Iterationによる固有値分解の高速化 ◆ Y 0 =Σ，Z
0 =Iとして次式をN 回反復 ◆ 収束性の保証するため Σを事前正規化 ◆ 事前正規化によりスケールが変わるため後処理

Channel Attention ➔ 正規化した共分散行列をチャネル方向に集約 ➔ Attentionの計算・適用 ◆ SENet, RCANなどと同じようにボトルネックに通す [Y.
Zhang et al. ECCV 2018]より引用

実験設定 ➔ データセット ◆ trainデータ: DIV2K ◆ testデータ: Set5, Set14,
BSD100, Urban100, Manga109 ➔ 低解像度画像の作り方 ◆ Bicubic Interpolation (BI) ◆ Gaussian-Blur Downsampling (BD) ➔ 評価方法 ◆ YCbCrに変換し，Yチャネルで評価 ➔ 評価指標 ◆ PSNR [dB]: 信号の最大パワーと誤差の比． MSEをlogスケールにしたもの ◆ SSIM: 構造類似度．局所的な輝度・コントラスト・構造変化に敏感．

Ablation Study ➔ ベースライン ◆ RL-NL, SSC, SOCAを含まないモデル ◆ 10
(Residual Block) x 20 (Residual Group) の計400層のCNN モジュール単体での効果一次 vs 二次

定量評価 ➔ テクスチャ情報の多いデータセットに強い傾向が見られた

品質評価テクスチャがくっきり (?)

まとめ ➔ Second-order Attention Network (SAN)の提案 ◆ Non-local moduleによるSpatial Attention
(NLRG) ◆ 二次統計量を用いた Channel Attention (SOCA) • 共分散行列を正規化して用いる ◆ 特徴の相互依存性を意識した超解像 ➔ 結果 ◆ SOTA！ ◆ テクスチャ情報の復元に強い (?) • 付録がもっと欲しい印象 • 内部特徴表現の可視化とかやってほしかった

[cvpaper.challenge] Second-order Attention Netw...

[cvpaper.challenge] Second-order Attention Network for Single Image Super-Resolution

Sou Uchida

More Decks by Sou Uchida

Other Decks in Research

Featured

Transcript

Second-order Attention Network for Single Image Super-Resolution Tao Dai, Jianrui

論文情報 ➔ タイトル: Second-order Attention Network for Single Image Super-resolution

概要 ➔ Second-order Channel Attentionを用いた超解像手法を提案 ➔ Spatial Attention / Channel

研究背景 (1) ➔ Single Image Super-Resolution (SISR) ◆ 1枚の画像を入力して，解像度を高めた画像を推定 ◆

研究背景 (2) ➔ Attention機構: 特徴間の関係を学習&重み付け ◆ Spatial Attention : 空間的な特徴の相互関係を捉える

研究目的「特徴の相互関係を意識した超解像」 ➔ コントリビューション ◆ Spatial/Channel Attentionを両方組み込んだ Second-order Attention Network

ちょっと振り返って - Non-local Network - ➔ CNNで非局所的な情報を扱う ◆ Non-local演算: 注目点とその他の点との重み付き和を計算

ちょっと振り返って - SENet - ➔ SE Block: チャネル間の関係を学習&強調 ◆ Squeeze

Second-order Attention Network (SAN)

Region-level non-local Module (RL-NL) ➔ 従来のNon-local moduleの問題点 ◆ 特徴マップのサイズが大きいと計算量が爆発 ◆

Second-order Channel Attention ➔ 従来のChannel Attention ◆ 一次統計量(e.g. 平均，分散)を用いたGlobal Pooling

Covariance Normalization ➔ 固有値をα乗することで共分散行列を正規化 ① 共分散行列を計算 ② 固有値分解 ③ 正規化

Covariance Normalization Acceleration ➔ Newton-Schultz Iterationによる固有値分解の高速化 ◆ Y 0 =Σ，Z

Channel Attention ➔ 正規化した共分散行列をチャネル方向に集約 ➔ Attentionの計算・適用 ◆ SENet, RCANなどと同じようにボトルネックに通す [Y.

実験設定 ➔ データセット ◆ trainデータ: DIV2K ◆ testデータ: Set5, Set14,

Ablation Study ➔ ベースライン ◆ RL-NL, SSC, SOCAを含まないモデル ◆ 10

定量評価 ➔ テクスチャ情報の多いデータセットに強い傾向が見られた

品質評価テクスチャがくっきり (?)

まとめ ➔ Second-order Attention Network (SAN)の提案 ◆ Non-local moduleによるSpatial Attention