Slide 1

Slide 1 text

Attention+超解像の論⽂紹介 Sansan 株式会社 DSOC(Data Strategy & Operation Center) R&D Group インターン⽣ 内⽥ 奏 第2回SIL勉強会 機械学習編

Slide 2

Slide 2 text

⾃⼰紹介 内⽥ 奏 (So Uchida) 所属:東京電機⼤学⼤学院 (M2) 専⾨:画像処理 Sansan株式会社にてインターンシップ (2018/10-) @S-aiueo32 インターンにおける取り組み 名刺画像の超解像 その他名刺画像の品質改善 1

Slide 3

Slide 3 text

今⽇お話しすること 超解像 超解像とは何か, 難しさ Attention NLPにおけるAttention CVにおけるAttention (主にSENet, Non-local NN) 論⽂紹介 Second-order Attention Network for Single Image Super-Resolution ※図は論⽂より引⽤しています 2

Slide 4

Slide 4 text

超解像

Slide 5

Slide 5 text

超解像とは ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化 画像以外にも⾳声,電波,センシングの分野でも登場 ⾼周波成分の復元を指す場合もある 超解像画像 低解像度画像 アルゴリズム 4

Slide 6

Slide 6 text

問題設定 Image Restoration問題に帰着 低解像度画像は⾼解像度画像が劣化して⽣成されたと仮定 劣化の逆変換ℱを求めることが⽬標 超解像画像 $% 低解像度画像 &% 復元 劣化 ⾼解像度画像 '% '% ℱ &% 5

Slide 7

Slide 7 text

超解像の難しさ 不良設定問題 1つの⼊⼒に対し,妥当な出⼒が無数に存在 倍率が⼤きくなるほど,不良設定の度合いもきつくなる ①縮⼩ ②超解像 6 同じ画像が ⽣成される どの画像に 復元すべきか?

Slide 8

Slide 8 text

深層学習を⽤いた超解像 SRCNN [C. Dong et al. ECCV 2014] 超解像に深層学習を⽤いた初めての⼿法 3層のCNNで構成 SRGAN [C. Ledig et al. CVPR 2017] ResNet+GANを⽤いた⾃然な超解像 「評価指標(RMSE etc.) ≠ 知覚品質」という問題提起 [Y. Blau et al. CVPR 2018] でトレードオフの存在が検証 7

Slide 9

Slide 9 text

Attention

Slide 10

Slide 10 text

NLPにおけるAttention 単語の関係性を学習 & 重み付け 翻訳タスク等の系列⽣成モデルにおける⻑距離特徴の伝播に利⽤ 重みの可視化によりモデルの解釈性向上にも寄与 Attentionによる重み付けの流れ (出典: [M. Luong et al. EMNLP 2015]) Attentionの可視化 (出典: [C. OLAH et al. Distill]) 9 対訳語間の重みが⼤きくなっている Decoder側に到達せず 消失しがち 重みをつけて強調

Slide 11

Slide 11 text

CVにおけるAttention 時系列を持つAttention Vision & Languageでよく⽤いられる(Captioning, VQA etc.) Show , Attend and Tell [K. Xu et al. ICML 2015] 時系列を持たないAttention あらゆるタスクに応⽤(画像分類, 検出 etc.) Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] どちらにも⽤いられるAttention Non-local Neural Network [X. Wang et al. CVPR 2018] 紹介する論⽂のベース 10

Slide 12

Slide 12 text

Show, Attend and Tell [K. Xu et al. ICML 2015] 画像キャプショニングタスクにAttentionを利⽤ 抽出した画像特徴にAttentionをかけてLSTMに⼊⼒ Attentionが単語が指す領域を強調 出⼒単語に対するSoft Attentionの可視化 処理の流れ 11

Slide 13

Slide 13 text

Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] SEBlock: チャネル⽅向にAttentionを導⼊ Squeeze process: Global poolingを⽤いて⼊⼒マップの統計量を抽出 Excitation process: 抽出した統計量を全結合層に通して重みを計算 わずかなパラメータ数の増加で精度向上 (ILSVRC2017優勝) 12

Slide 14

Slide 14 text

Non-local Neural Network [X. Wang et al. CVPR 2018] CNNで⾮局所的な情報を扱えるようにする Non-local演算: 位置と任意の位置との類似度を重みとした荷重和を計算 「類似する点が多い=重要な情報」という発想 Non-local meanフィルタから着想を得る 13 + = 1 () 2 ∀4 + , 7 (7 ) 位置における出⼒値 位置, の類似度 位置の応答値 正規化係数 Non-local演算のイメージ

Slide 15

Slide 15 text

Non-local Neural Network [X. Wang et al. CVPR 2018] Non-local module 既存のネットワークに組み込み可能 類似度計算の種類 Gaussian: +, 7 の内積をガウス関数にかける Embedded Gaussian (著者オススメ): +, 7 の埋め込みを内積をガウス関数にかける Dot product: +, 7 の内積 Concatenation: +, 7 を連結して全結合層に⼊⼒し類似度計算 14 + = 1 () 2 ∀4 + , 7 (7 ) 位置における出⼒値 位置, の類似度 位置の応答値 正規化係数 (+ , 7 ) 類似度計算 (7 ) Non-local module (Embedded Gaussian) Residual connection Attention branch Attentionとみなせる

Slide 16

Slide 16 text

論⽂紹介 15

Slide 17

Slide 17 text

論⽂情報 Second-order Attention Network for Single Image Super-Resolution 著者: Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang 所属: 清華⼤学, Peng Chen Laboratory, ⾹港理⼯⼤学, DAMO Academy 採択会議: CVPR 2019 (oral) まとめると… Attentionを多く盛り込むことでstate-of-the-artを達成 ⼆次統計量によるAttentionを⽤いる 16

Slide 18

Slide 18 text

提案ネットワーク (SAN; Second-order Attention Network) 17

Slide 19

Slide 19 text

提案ネットワーク (SAN; Second-order Attention Network) 18

Slide 20

Slide 20 text

Region-level non-local module (RL-NL) 従来のNon-local moduleの問題点 特徴マップのサイズが⼤きい場合に計算量が現実的でない Low-level visionでは適切な近傍への演算が効果的 (⼊出⼒の相関が⾼いから?) Region-level non-local module (RL-NL) 特徴マップを × 個のグリッドに分割し,⾼速化と効率化を図る 19

Slide 21

Slide 21 text

提案ネットワーク (SAN; Second-order Attention Network) 20

Slide 22

Slide 22 text

Second-order Channel Attention (SOCA) 従来のChannel Attention ⼀次統計量(平均, 分散 etc.)を⽤いてGlobal Pooling NNの識別能⼒を活かしきれていなかった Second-order Channel Attention (SOCA) ⼆次統計量(共分散⾏列)を⽤いたGlobal Pooling 特徴の相互依存性を捉えられ,識別的な特徴の学習が可能 21

Slide 23

Slide 23 text

Covariance Normalization 22 ①共分散⾏列を計算 ②固有値分解 ③正規化 = ̅ ? = ? B = D = D? • ∈ ℝGH×Iは特徴マップ ∈ ℝG×H×Iを変形した⾏列 • ̅ = K GH ( − K GH ) • は直⾏⾏列 • = diag(K , ⋯ , I )は 固有値を成分に持つ 対⾓⾏列 (対⾓成分は降順に並ぶ) • = diag(K D, ⋯ , I D) • = 1 ⇔ 正規化なし • 経験的に = K V を⽤いる 固有値分解が重たいため学習時間がかかる

Slide 24

Slide 24 text

Covariance Normalization Acceleration Newton-Schulz Iterationによる固有値分解の⾼速化 W = , W = として次式を回反復 (提案⼿法では5回以下で⼗分) Z = 1 2 Z\K 3 − Z\K Z\K , Z = 1 2 3 − Z\K Z\K Z\K 収束性を保証するためにを事前正規化 B = 1 tr() 事前正規化によりスケールが変わるため後処理 B = tr()` 23

Slide 25

Slide 25 text

Channel Attention 共分散⾏列をチャネル⽅向に集約 正規化共分散⾏列 B = [K , ⋯ , I ] をチャネル⽅向に平均をとる d = fIg d = 1 2 + I d () Attentionの計算・適⽤ ボトルネック構造( = 16)をもった全結合層に通す 24 出典: [Y. Zhang et al. ECCV 2018]

Slide 26

Slide 26 text

提案ネットワーク (SAN; Second-order Attention Network) 25 Share-source skip connection (SSC) → 低周波成分をバイパス ここをスタックする

Slide 27

Slide 27 text

実験設定 データセット trainデータ: DIV2Kから800枚サンプル testデータ: Set5, Set14, BSD100, Urban100, Manga109 低解像度画像の作成⽅法 Bicubic Interpolation (BI) / Gaussian-blur Downsampling (BD) 評価⽅法 YCbCrに変換し,YチャネルでPSNR/SSIMを⽤いて評価 PSNR [dB] : 信号の最⼤パワーと誤差の⽐, MSEをlogスケールにしたもの SSIM: 構造類似度, 局所的な輝度・コントラスト・構造変化に過敏に反応 26

Slide 28

Slide 28 text

Ablation Study ベースライン RL-NL, SSC, SOCAをいずれも含まないモデル LSRAG (10 Residual blocks)を20個スタック i.e. 約400層のCNN 27 モジュール単体での効果確認 ⼀次 vs ⼆次

Slide 29

Slide 29 text

定量評価 (BI) ほぼすべてのデータセット&倍率でSAN+が最⾼精度 28 26 23.14 28.36 25.79 28.86 26.82 28.92 26.79 29.05 27.23 23 24 25 26 27 28 29 30 Set14 Urban100 PSNR [dB] 定量評価結果(抜粋) Bicubic NLRN RCAN SAN (提案法) SAN+ (提案法 + Self-Ensemble) テクスチャの多いデータセット エッジの多いデータセット SOCAはテクスチャの復元に強い?

Slide 30

Slide 30 text

視覚的評価 (BI) 29 提案法がテクスチャをよく表している

Slide 31

Slide 31 text

おわりに Attention 特徴マップへの重み付けによる特徴抽出の効率化 既存ネットワークに組み込み可能なモジュール(SEBlock, Non-local module) Second-order Attention Network (SAN) ⼆次統計量(共分散⾏列)を⽤いたAttentionを超解像に応⽤ ⼆次統計量がテクスチャの復元に強いという主張 個⼈的な希望 結果の検証が物⾜りない気がするので追試してみたい コード公開が待たれる…! - https://github.com/daitao/SAN 30

Slide 32

Slide 32 text

参考⽂献 1. Tao Dai, Jianrui Cai, et al. "Second-order Attention Network for Single Image Super-resolution," in CVPR 2019 . 2. Dong, Chao, et al. "Image super-resolution using deep convolutional networks." IEEE transactions on pattern analysis and machine intelligence 38.2 (2015): 295-307. 3. Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. 4. Luong, Thang, Hieu Pham, and Christopher D. Manning. "Effective Approaches to Attention-based Neural Machine Translation." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. 5. Olah, Chris, and Shan Carter. "Attention and augmented recurrent neural networks." Distill 1.9 (2016): e1. 6. Xu, Kelvin, et al. "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention." International Conference on Machine Learning. 2015. 7. Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 8. Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. 9. Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018. 31

Slide 33

Slide 33 text

32