Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Attention+超解像の論文紹介 / An Introduction of Super-R...

Sansan
May 28, 2019

Attention+超解像の論文紹介 / An Introduction of Super-Resolution with Attention Mechanism

■イベント
【京都開催】SIL勉強会 機械学習編
https://sansan.connpass.com/event/129358/

■登壇概要
タイトル:Attention+超解像の論文紹介

登壇者:DSOC R&Dグループ インターン 内田奏

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

May 28, 2019
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 内⽥ 奏 (So Uchida) 所属:東京電機⼤学⼤学院 (M2) 専⾨:画像処理 Sansan株式会社にてインターンシップ (2018/10-)

    @S-aiueo32 インターンにおける取り組み 名刺画像の超解像 その他名刺画像の品質改善 1
  2. 今⽇お話しすること 超解像 超解像とは何か, 難しさ Attention NLPにおけるAttention CVにおけるAttention (主にSENet, Non-local NN)

    論⽂紹介 Second-order Attention Network for Single Image Super-Resolution ※図は論⽂より引⽤しています 2
  3. 深層学習を⽤いた超解像 SRCNN [C. Dong et al. ECCV 2014] 超解像に深層学習を⽤いた初めての⼿法 3層のCNNで構成

    SRGAN [C. Ledig et al. CVPR 2017] ResNet+GANを⽤いた⾃然な超解像 「評価指標(RMSE etc.) ≠ 知覚品質」という問題提起 [Y. Blau et al. CVPR 2018] でトレードオフの存在が検証 7
  4. NLPにおけるAttention 単語の関係性を学習 & 重み付け 翻訳タスク等の系列⽣成モデルにおける⻑距離特徴の伝播に利⽤ 重みの可視化によりモデルの解釈性向上にも寄与 Attentionによる重み付けの流れ (出典: [M. Luong

    et al. EMNLP 2015]) Attentionの可視化 (出典: [C. OLAH et al. Distill]) 9 対訳語間の重みが⼤きくなっている Decoder側に到達せず 消失しがち 重みをつけて強調
  5. CVにおけるAttention 時系列を持つAttention Vision & Languageでよく⽤いられる(Captioning, VQA etc.) Show , Attend

    and Tell [K. Xu et al. ICML 2015] 時系列を持たないAttention あらゆるタスクに応⽤(画像分類, 検出 etc.) Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] どちらにも⽤いられるAttention Non-local Neural Network [X. Wang et al. CVPR 2018] 紹介する論⽂のベース 10
  6. Show, Attend and Tell [K. Xu et al. ICML 2015]

    画像キャプショニングタスクにAttentionを利⽤ 抽出した画像特徴にAttentionをかけてLSTMに⼊⼒ Attentionが単語が指す領域を強調 出⼒単語に対するSoft Attentionの可視化 処理の流れ 11
  7. Squeeze-and-Excitation Network [J. Hu et al. CVPR 2018] SEBlock: チャネル⽅向にAttentionを導⼊

    Squeeze process: Global poolingを⽤いて⼊⼒マップの統計量を抽出 Excitation process: 抽出した統計量を全結合層に通して重みを計算 わずかなパラメータ数の増加で精度向上 (ILSVRC2017優勝) 12
  8. Non-local Neural Network [X. Wang et al. CVPR 2018] CNNで⾮局所的な情報を扱えるようにする

    Non-local演算: 位置と任意の位置との類似度を重みとした荷重和を計算 「類似する点が多い=重要な情報」という発想 Non-local meanフィルタから着想を得る 13 + = 1 () 2 ∀4 + , 7 (7 ) 位置における出⼒値 位置, の類似度 位置の応答値 正規化係数 Non-local演算のイメージ
  9. Non-local Neural Network [X. Wang et al. CVPR 2018] Non-local

    module 既存のネットワークに組み込み可能 類似度計算の種類 Gaussian: +, 7 の内積をガウス関数にかける Embedded Gaussian (著者オススメ): +, 7 の埋め込みを内積をガウス関数にかける Dot product: +, 7 の内積 Concatenation: +, 7 を連結して全結合層に⼊⼒し類似度計算 14 + = 1 () 2 ∀4 + , 7 (7 ) 位置における出⼒値 位置, の類似度 位置の応答値 正規化係数 (+ , 7 ) 類似度計算 (7 ) Non-local module (Embedded Gaussian) Residual connection Attention branch Attentionとみなせる
  10. 論⽂情報 Second-order Attention Network for Single Image Super-Resolution 著者: Tao

    Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang 所属: 清華⼤学, Peng Chen Laboratory, ⾹港理⼯⼤学, DAMO Academy 採択会議: CVPR 2019 (oral) まとめると… Attentionを多く盛り込むことでstate-of-the-artを達成 ⼆次統計量によるAttentionを⽤いる 16
  11. Second-order Channel Attention (SOCA) 従来のChannel Attention ⼀次統計量(平均, 分散 etc.)を⽤いてGlobal Pooling

    NNの識別能⼒を活かしきれていなかった Second-order Channel Attention (SOCA) ⼆次統計量(共分散⾏列)を⽤いたGlobal Pooling 特徴の相互依存性を捉えられ,識別的な特徴の学習が可能 21
  12. Covariance Normalization 22 ①共分散⾏列を計算 ②固有値分解 ③正規化 = ̅ ? =

    ? B = D = D? • ∈ ℝGH×Iは特徴マップ ∈ ℝG×H×Iを変形した⾏列 • ̅ = K GH ( − K GH ) • は直⾏⾏列 • = diag(K , ⋯ , I )は 固有値を成分に持つ 対⾓⾏列 (対⾓成分は降順に並ぶ) • = diag(K D, ⋯ , I D) • = 1 ⇔ 正規化なし • 経験的に = K V を⽤いる 固有値分解が重たいため学習時間がかかる
  13. Covariance Normalization Acceleration Newton-Schulz Iterationによる固有値分解の⾼速化 W = , W =

    として次式を回反復 (提案⼿法では5回以下で⼗分) Z = 1 2 Z\K 3 − Z\K Z\K , Z = 1 2 3 − Z\K Z\K Z\K 収束性を保証するためにを事前正規化 B = 1 tr() 事前正規化によりスケールが変わるため後処理 B = tr()` 23
  14. Channel Attention 共分散⾏列をチャネル⽅向に集約 正規化共分散⾏列 B = [K , ⋯ ,

    I ] をチャネル⽅向に平均をとる d = fIg d = 1 2 + I d () Attentionの計算・適⽤ ボトルネック構造( = 16)をもった全結合層に通す 24 出典: [Y. Zhang et al. ECCV 2018]
  15. 実験設定 データセット trainデータ: DIV2Kから800枚サンプル testデータ: Set5, Set14, BSD100, Urban100, Manga109

    低解像度画像の作成⽅法 Bicubic Interpolation (BI) / Gaussian-blur Downsampling (BD) 評価⽅法 YCbCrに変換し,YチャネルでPSNR/SSIMを⽤いて評価 PSNR [dB] : 信号の最⼤パワーと誤差の⽐, MSEをlogスケールにしたもの SSIM: 構造類似度, 局所的な輝度・コントラスト・構造変化に過敏に反応 26
  16. 定量評価 (BI) ほぼすべてのデータセット&倍率でSAN+が最⾼精度 28 26 23.14 28.36 25.79 28.86 26.82

    28.92 26.79 29.05 27.23 23 24 25 26 27 28 29 30 Set14 Urban100 PSNR [dB] 定量評価結果(抜粋) Bicubic NLRN RCAN SAN (提案法) SAN+ (提案法 + Self-Ensemble) テクスチャの多いデータセット エッジの多いデータセット SOCAはテクスチャの復元に強い?
  17. おわりに Attention 特徴マップへの重み付けによる特徴抽出の効率化 既存ネットワークに組み込み可能なモジュール(SEBlock, Non-local module) Second-order Attention Network (SAN)

    ⼆次統計量(共分散⾏列)を⽤いたAttentionを超解像に応⽤ ⼆次統計量がテクスチャの復元に強いという主張 個⼈的な希望 結果の検証が物⾜りない気がするので追試してみたい コード公開が待たれる…! - https://github.com/daitao/SAN 30
  18. 参考⽂献 1. Tao Dai, Jianrui Cai, et al. "Second-order Attention

    Network for Single Image Super-resolution," in CVPR 2019 . 2. Dong, Chao, et al. "Image super-resolution using deep convolutional networks." IEEE transactions on pattern analysis and machine intelligence 38.2 (2015): 295-307. 3. Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. 4. Luong, Thang, Hieu Pham, and Christopher D. Manning. "Effective Approaches to Attention-based Neural Machine Translation." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. 5. Olah, Chris, and Shan Carter. "Attention and augmented recurrent neural networks." Distill 1.9 (2016): e1. 6. Xu, Kelvin, et al. "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention." International Conference on Machine Learning. 2015. 7. Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 8. Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. 9. Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018. 31
  19. 32