Attention＋超解像の論文紹介 / An Introduction of Super-Resolution with Attention Mechanism

Attention+超解像の論⽂紹介 Sansan 株式会社 DSOC（Data Strategy & Operation Center） R&D Group
インターン⽣内⽥奏第2回SIL勉強会機械学習編

⾃⼰紹介内⽥奏（So Uchida）所属：東京電機⼤学⼤学院（M2）専⾨：画像処理 Sansan株式会社にてインターンシップ（2018/10-）
@S-aiueo32 インターンにおける取り組み名刺画像の超解像その他名刺画像の品質改善 1

今⽇お話しすること超解像超解像とは何か, 難しさ Attention NLPにおけるAttention CVにおけるAttention (主にSENet, Non-local NN)
論⽂紹介 Second-order Attention Network for Single Image Super-Resolution ※図は論⽂より引⽤しています 2

超解像

超解像とは⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化画像以外にも⾳声，電波，センシングの分野でも登場⾼周波成分の復元を指す場合もある超解像画像低解像度画像アルゴリズム 4

問題設定 Image Restoration問題に帰着低解像度画像は⾼解像度画像が劣化して⽣成されたと仮定劣化の逆変換ℱを求めることが⽬標超解像画像 $% 低解像度画像 &% 復元
劣化⾼解像度画像 '% '% ℱ &% 5

超解像の難しさ不良設定問題 1つの⼊⼒に対し，妥当な出⼒が無数に存在倍率が⼤きくなるほど，不良設定の度合いもきつくなる ①縮⼩ ②超解像 6 同じ画像が⽣成されるどの画像に
復元すべきか?

深層学習を⽤いた超解像 SRCNN [C. Dong et al. ECCV 2014] 超解像に深層学習を⽤いた初めての⼿法 3層のCNNで構成
SRGAN [C. Ledig et al. CVPR 2017] ResNet+GANを⽤いた⾃然な超解像「評価指標(RMSE etc.) ≠ 知覚品質」という問題提起 [Y. Blau et al. CVPR 2018] でトレードオフの存在が検証 7

Attention

NLPにおけるAttention 単語の関係性を学習 & 重み付け翻訳タスク等の系列⽣成モデルにおける⻑距離特徴の伝播に利⽤重みの可視化によりモデルの解釈性向上にも寄与 Attentionによる重み付けの流れ (出典: [M. Luong
et al. EMNLP 2015]) Attentionの可視化 (出典: [C. OLAH et al. Distill]) 9 対訳語間の重みが⼤きくなっている Decoder側に到達せず消失しがち重みをつけて強調

CVにおけるAttention 時系列を持つAttention Vision & Languageでよく⽤いられる(Captioning, VQA etc.) Show , Attend
and Tell [K. Xu et al. ICML 2015] 時系列を持たないAttention あらゆるタスクに応⽤(画像分類, 検出 etc.) Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] どちらにも⽤いられるAttention Non-local Neural Network [X. Wang et al. CVPR 2018] 紹介する論⽂のベース 10

Show, Attend and Tell [K. Xu et al. ICML 2015]
画像キャプショニングタスクにAttentionを利⽤抽出した画像特徴にAttentionをかけてLSTMに⼊⼒ Attentionが単語が指す領域を強調出⼒単語に対するSoft Attentionの可視化処理の流れ 11

Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] SEBlock: チャネル⽅向にAttentionを導⼊
Squeeze process: Global poolingを⽤いて⼊⼒マップの統計量を抽出 Excitation process: 抽出した統計量を全結合層に通して重みを計算わずかなパラメータ数の増加で精度向上 (ILSVRC2017優勝) 12

Non-local Neural Network [X. Wang et al. CVPR 2018] CNNで⾮局所的な情報を扱えるようにする
Non-local演算: 位置と任意の位置との類似度を重みとした荷重和を計算「類似する点が多い＝重要な情報」という発想 Non-local meanフィルタから着想を得る 13 + = 1 () 2 ∀4 + , 7 (7 ) 位置における出⼒値位置, の類似度位置の応答値正規化係数 Non-local演算のイメージ

Non-local Neural Network [X. Wang et al. CVPR 2018] Non-local
module 既存のネットワークに組み込み可能類似度計算の種類 Gaussian: +, 7 の内積をガウス関数にかける Embedded Gaussian (著者オススメ): +, 7 の埋め込みを内積をガウス関数にかける Dot product: +, 7 の内積 Concatenation: +, 7 を連結して全結合層に⼊⼒し類似度計算 14 + = 1 () 2 ∀4 + , 7 (7 ) 位置における出⼒値位置, の類似度位置の応答値正規化係数 (+ , 7 ) 類似度計算 (7 ) Non-local module (Embedded Gaussian) Residual connection Attention branch Attentionとみなせる

論⽂紹介 15

論⽂情報 Second-order Attention Network for Single Image Super-Resolution 著者: Tao
Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang 所属: 清華⼤学, Peng Chen Laboratory, ⾹港理⼯⼤学, DAMO Academy 採択会議: CVPR 2019 (oral) まとめると… Attentionを多く盛り込むことでstate-of-the-artを達成⼆次統計量によるAttentionを⽤いる 16

提案ネットワーク (SAN; Second-order Attention Network) 17

Region-level non-local module (RL-NL) 従来のNon-local moduleの問題点特徴マップのサイズが⼤きい場合に計算量が現実的でない Low-level visionでは適切な近傍への演算が効果的 (⼊出⼒の相関が⾼いから?)
Region-level non-local module (RL-NL) 特徴マップを × 個のグリッドに分割し，⾼速化と効率化を図る 19

Second-order Channel Attention (SOCA) 従来のChannel Attention ⼀次統計量(平均, 分散 etc.)を⽤いてGlobal Pooling
NNの識別能⼒を活かしきれていなかった Second-order Channel Attention (SOCA) ⼆次統計量(共分散⾏列)を⽤いたGlobal Pooling 特徴の相互依存性を捉えられ，識別的な特徴の学習が可能 21

Covariance Normalization 22 ①共分散⾏列を計算 ②固有値分解 ③正規化 = ̅ ? =
? B = D = D? • ∈ ℝGH×Iは特徴マップ ∈ ℝG×H×Iを変形した⾏列 • ̅ = K GH ( − K GH ) • は直⾏⾏列 • = diag(K , ⋯ , I )は固有値を成分に持つ対⾓⾏列 (対⾓成分は降順に並ぶ) • = diag(K D, ⋯ , I D) • = 1 ⇔ 正規化なし • 経験的に = K V を⽤いる固有値分解が重たいため学習時間がかかる

Covariance Normalization Acceleration Newton-Schulz Iterationによる固有値分解の⾼速化 W = , W =
として次式を回反復 (提案⼿法では5回以下で⼗分) Z = 1 2 Z\K 3 − Z\K Z\K , Z = 1 2 3 − Z\K Z\K Z\K 収束性を保証するためにを事前正規化 B = 1 tr() 事前正規化によりスケールが変わるため後処理 B = tr()` 23

Channel Attention 共分散⾏列をチャネル⽅向に集約正規化共分散⾏列 B = [K , ⋯ ,
I ] をチャネル⽅向に平均をとる d = fIg d = 1 2 + I d () Attentionの計算・適⽤ボトルネック構造( = 16)をもった全結合層に通す 24 出典: [Y. Zhang et al. ECCV 2018]

提案ネットワーク (SAN; Second-order Attention Network) 25 Share-source skip connection (SSC)
→ 低周波成分をバイパスここをスタックする

実験設定データセット trainデータ: DIV2Kから800枚サンプル testデータ: Set5, Set14, BSD100, Urban100, Manga109
低解像度画像の作成⽅法 Bicubic Interpolation (BI) / Gaussian-blur Downsampling (BD) 評価⽅法 YCbCrに変換し，YチャネルでPSNR/SSIMを⽤いて評価 PSNR [dB] : 信号の最⼤パワーと誤差の⽐, MSEをlogスケールにしたもの SSIM: 構造類似度, 局所的な輝度・コントラスト・構造変化に過敏に反応 26

Ablation Study ベースライン RL-NL, SSC, SOCAをいずれも含まないモデル LSRAG (10 Residual blocks)を20個スタック
i.e. 約400層のCNN 27 モジュール単体での効果確認⼀次 vs ⼆次

定量評価 (BI) ほぼすべてのデータセット&倍率でSAN+が最⾼精度 28 26 23.14 28.36 25.79 28.86 26.82
28.92 26.79 29.05 27.23 23 24 25 26 27 28 29 30 Set14 Urban100 PSNR [dB] 定量評価結果(抜粋) Bicubic NLRN RCAN SAN (提案法) SAN+ (提案法 + Self-Ensemble) テクスチャの多いデータセットエッジの多いデータセット SOCAはテクスチャの復元に強い?

視覚的評価 (BI) 29 提案法がテクスチャをよく表している

おわりに Attention 特徴マップへの重み付けによる特徴抽出の効率化既存ネットワークに組み込み可能なモジュール(SEBlock, Non-local module) Second-order Attention Network (SAN)
⼆次統計量(共分散⾏列)を⽤いたAttentionを超解像に応⽤⼆次統計量がテクスチャの復元に強いという主張個⼈的な希望結果の検証が物⾜りない気がするので追試してみたいコード公開が待たれる…！ - https://github.com/daitao/SAN 30

参考⽂献 1. Tao Dai, Jianrui Cai, et al. "Second-order Attention
Network for Single Image Super-resolution," in CVPR 2019 . 2. Dong, Chao, et al. "Image super-resolution using deep convolutional networks." IEEE transactions on pattern analysis and machine intelligence 38.2 (2015): 295-307. 3. Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. 4. Luong, Thang, Hieu Pham, and Christopher D. Manning. "Effective Approaches to Attention-based Neural Machine Translation." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. 5. Olah, Chris, and Shan Carter. "Attention and augmented recurrent neural networks." Distill 1.9 (2016): e1. 6. Xu, Kelvin, et al. "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention." International Conference on Machine Learning. 2015. 7. Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 8. Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. 9. Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018. 31

Attention＋超解像の論文紹介 / An Introduction of Super-R...

Attention＋超解像の論文紹介 / An Introduction of Super-Resolution with Attention Mechanism

Sansan

More Decks by Sansan

Other Decks in Technology

Featured

Transcript

Attention+超解像の論⽂紹介 Sansan 株式会社 DSOC（Data Strategy & Operation Center） R&D Group

⾃⼰紹介内⽥奏（So Uchida）所属：東京電機⼤学⼤学院（M2）専⾨：画像処理 Sansan株式会社にてインターンシップ（2018/10-）

今⽇お話しすること超解像超解像とは何か, 難しさ Attention NLPにおけるAttention CVにおけるAttention (主にSENet, Non-local NN)

超解像

超解像とは⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化画像以外にも⾳声，電波，センシングの分野でも登場⾼周波成分の復元を指す場合もある超解像画像低解像度画像アルゴリズム 4

問題設定 Image Restoration問題に帰着低解像度画像は⾼解像度画像が劣化して⽣成されたと仮定劣化の逆変換ℱを求めることが⽬標超解像画像 $% 低解像度画像 &% 復元

超解像の難しさ不良設定問題 1つの⼊⼒に対し，妥当な出⼒が無数に存在倍率が⼤きくなるほど，不良設定の度合いもきつくなる ①縮⼩ ②超解像 6 同じ画像が⽣成されるどの画像に

深層学習を⽤いた超解像 SRCNN [C. Dong et al. ECCV 2014] 超解像に深層学習を⽤いた初めての⼿法 3層のCNNで構成

Attention

NLPにおけるAttention 単語の関係性を学習 & 重み付け翻訳タスク等の系列⽣成モデルにおける⻑距離特徴の伝播に利⽤重みの可視化によりモデルの解釈性向上にも寄与 Attentionによる重み付けの流れ (出典: [M. Luong

CVにおけるAttention 時系列を持つAttention Vision & Languageでよく⽤いられる(Captioning, VQA etc.) Show , Attend

Show, Attend and Tell [K. Xu et al. ICML 2015]

Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] SEBlock: チャネル⽅向にAttentionを導⼊

Non-local Neural Network [X. Wang et al. CVPR 2018] CNNで⾮局所的な情報を扱えるようにする

Non-local Neural Network [X. Wang et al. CVPR 2018] Non-local

論⽂紹介 15

論⽂情報 Second-order Attention Network for Single Image Super-Resolution 著者: Tao

提案ネットワーク (SAN; Second-order Attention Network) 17

提案ネットワーク (SAN; Second-order Attention Network) 18

Region-level non-local module (RL-NL) 従来のNon-local moduleの問題点特徴マップのサイズが⼤きい場合に計算量が現実的でない Low-level visionでは適切な近傍への演算が効果的 (⼊出⼒の相関が⾼いから?)

提案ネットワーク (SAN; Second-order Attention Network) 20

Second-order Channel Attention (SOCA) 従来のChannel Attention ⼀次統計量(平均, 分散 etc.)を⽤いてGlobal Pooling

Covariance Normalization 22 ①共分散⾏列を計算 ②固有値分解 ③正規化 = ̅ ? =

Covariance Normalization Acceleration Newton-Schulz Iterationによる固有値分解の⾼速化 W = , W =

Channel Attention 共分散⾏列をチャネル⽅向に集約正規化共分散⾏列 B = [K , ⋯ ,

提案ネットワーク (SAN; Second-order Attention Network) 25 Share-source skip connection (SSC)

実験設定データセット trainデータ: DIV2Kから800枚サンプル testデータ: Set5, Set14, BSD100, Urban100, Manga109

Ablation Study ベースライン RL-NL, SSC, SOCAをいずれも含まないモデル LSRAG (10 Residual blocks)を20個スタック

定量評価 (BI) ほぼすべてのデータセット&倍率でSAN+が最⾼精度 28 26 23.14 28.36 25.79 28.86 26.82

視覚的評価 (BI) 29 提案法がテクスチャをよく表している

おわりに Attention 特徴マップへの重み付けによる特徴抽出の効率化既存ネットワークに組み込み可能なモジュール(SEBlock, Non-local module) Second-order Attention Network (SAN)

参考⽂献 1. Tao Dai, Jianrui Cai, et al. "Second-order Attention

32