Slide 1

Slide 1 text

Image Processing GNN: Breaking Rigidity in Super- Resolution Sansan株式会社 技術本部 研究開発部 内⽥ 奏 第61回 コンピュータビジョン勉強会@関東

Slide 2

Slide 2 text

写真が⼊ります 内⽥ 奏 Sansan株式会社 技術本部 研究開発部 シニアリサーチャー 東京電機⼤学⼤学院⼯学研究科修⼠課程修了。 深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年、Sansan株式会社に新卒⼊社。 名刺画像の品質およびOCR精度の改善に関する研究開発に従事。

Slide 3

Slide 3 text

1. 論⽂概要 2. 超解像 1. 問題設定 2. 主要なモデルアーキテクチャと硬直性 (rigidity) 3. 提案⼿法: Image Processing GNN (IPG) 4. 実験 5. まとめ ⽬次

Slide 4

Slide 4 text

書誌情報 - タイトル: “Image Processing GNN: Breaking Rigidity in Super-Resolution” - 著者: Yuchuan Tian1, Hanting Chen2, Chao Xu1, Yunhe Wang2 - 所属: Peking University1, Huawei2 概要 - ノードの次数が可変なグラフベース超解像⼿法の提案 選定理由 - 知ってる分野が Best Student Paper Honorable Mention だったため 論⽂情報

Slide 5

Slide 5 text

超解像

Slide 6

Slide 6 text

超解像 (super-resolution; SR) - 劣化モデルによって低解像度画像から⾼解像度画像を復元する問題 - 劣化モデルはコントロールできないため、逆変換を近似的に求める 問題設定 𝐼!" 𝐼#" 𝐼$" ℱ ≈ 𝒟"𝟏 𝒟

Slide 7

Slide 7 text

CNN ベース - 例: SRGAN [Ledig+ 2017] > ResNet [He+ 2016] をベースとした超解像モデル > GAN [Goodfellow+ 2014] との組み合わせで photo-realistic な画像を⽣成 - ⼤域特徴を活⽤する⼿法も存在するが、基本は 3x3 のカーネルを利⽤ 超解像で主要なモデルアーキテクチャ ① SRGAN の構造

Slide 8

Slide 8 text

Window-attention ベース - 例: SwinIR [Liang+ 2021] > Swin Transformer [Liu+ 2021] をベースとした超解像モデル - Self-attention を介して local window 内の特徴を集約していく 超解像で主要なモデルアーキテクチャ ② Shifted window アプローチ SwinIR の構造

Slide 9

Slide 9 text

硬直性 (rigidity) とは? - 集約する特徴の範囲が限定されてしまう性質、またはその度合い 具体例※ - CNN ベース: 3x3 カーネルに含まれる 9 ピクセル - Window-attention ベース: 8x8 ウィンドウに含まれる 64ピクセル 仮説 - 性能向上に重要な⾼周波数成分が注⽬画素の近傍にあるとは限らないため、 空間的な硬直性が低いアーキテクチャを提案すると良さそう。 アーキテクチャの硬直性 ※ SRGAN, SwinIR のデフォルト設定に従う

Slide 10

Slide 10 text

IGNN [Zhou+ 2020] - 注⽬パッチと類似低解像度パッチをノードとするグラフを構築 > 低解像度パッチに対応する位置の特徴をノード特徴とする > Residual block の間で GNN を⽤いて特徴を集約 - 空間的な制約がなく、硬直性が低い > KNN でグラフを構築するため、 全てのノードの次数 (degree) が⼀定 > ⾼周波数成分を持つノードは、 より多くの情報にアクセスした⽅が良い グラフベースモデルの導⼊ IGNN の構造

Slide 11

Slide 11 text

提案⼿法

Slide 12

Slide 12 text

MetaFormer [Yu+ 2022] の token mixer に GNN を導⼊ - 硬直性の低いグラフを構築するため、3つの観点で⼯夫 1. 次数: ⾼周波数領域のノードに⾼い次数を割り当て 2. ノード単位: パッチ単位からピクセル単位に変更 3. サンプリング戦略: ⼤域的 & 局所的にノードをサンプリング 提案⼿法: Image Processing GNN (IPG) IPG の構造 構築するグラフの⽐較

Slide 13

Slide 13 text

次数 - 重要なノードに⾼い次数を割り当てるため、重要度のマップを算出 𝐷! ≔ # " 𝐹 − 𝐹↓$↑$ > 𝐹 ∈ ℝ!×#×$ は特徴マップ > 𝐹↓&↑& は F に対して縮⼩→拡⼤を適⽤したマップ - ノード 𝑣 ∈ 𝐹 の次数は次の関係を満たす deg 𝑣 ∝ 𝐷((𝑣) > レイヤごとに 𝐷( の分散をスケールして次数を決定 - 最初の層は std=10, その他は std=1.5 にスケール グラフ構築 ① 𝐷% の可視化 shallow deep

Slide 14

Slide 14 text

ノード単位 - パッチ単位のノードの弱点 > パッチを1つのベクトルに集約するため、物体のシフトが無視される > パッチを格⼦状に配置するため、物体の回転を適切に取り扱えない - ピクセル単位のノードとすることで、幾何的な弱点を克服 サンプリング戦略 - 全ノードから隣接ノードを決めるのは⾼コスト > 従来⼿法は strided sampling でコスト削減 > → 局所領域は無視される - Global / local sampling を採⽤して良いとこ取り グラフ構築 ② サンプリング戦略

Slide 15

Slide 15 text

集約⼿法の選択 - 従来⼿法は max-pooling or edge-constrained aggregation を採⽤ - Max-pooling は近傍情報を落とす傾向にあるため edge-constrained を採⽤ 定式化 h& ' = 1 𝐶' # (∈𝒩(&) exp 𝑓' 𝑢, 𝑣 h( '-. - 注⽬ノード 𝑣 と隣接ノード 𝑢 ∈ 𝒩(𝑣) との類似度による加重和によって集約 - ノード特徴に relative position encoding を付与して位置情報を考慮 グラフ集約

Slide 16

Slide 16 text

実験

Slide 17

Slide 17 text

学習設定 - 学習データ: DIV2K [Agustsson+ 2017], Flickr2K [Lim+ 2017] 評価設定 - 評価データ: Set5 [Bevilacqua+ 2012], Set14 [Zeyde+ 2012], BSD100 [Martin+ 2001], Urban100 [Huang+ 2015], Manga109 [Matsui+ 2017] - 評価指標: PSNR (peak signal-to-noise ratio), SSIM (structural similarity) [Wang+ 2004] 実験設定

Slide 18

Slide 18 text

SOTA!!! (...なのか?) - 単体では負けている部分もある (IPG+ は self-ensemble を実⾏) - 倍率が⾼い⽅が従来⼿法に対して優位性がありそう 定量評価 定量評価結果

Slide 19

Slide 19 text

定性評価

Slide 20

Slide 20 text

SOTA, 軽量な⼿法との⽐較 - 同程度の FLOPs を持つ従来モデルより⾼性能 - グラフ構築等がハードウェア上で⾼速化されないため、実際は低速 速度の⽐較 SOTA ⼿法との⽐較 軽量な⼿法との⽐較

Slide 21

Slide 21 text

2x2 のパッチをノードとする IPG と性能を定量的に⽐較 - ピクセル単位がより⾼性能 IGNN との定性的な⽐較 - IGNN はテクスチャのオリエンテーションを正しく捉えていない - 疑問: モアレ縞にも⾒える、 patched IPG で同様の事象がないのはなぜ? Ablation study: パッチ単位 vs ピクセル単位 パッチサイズごとの定性⽐較 パッチ vs ピクセルの定量⽐較

Slide 22

Slide 22 text

次数の決め⽅を変えて性能を⽐較 - 可変次数の⽅が性能が⾼い > 重要度の⾼いノードが エッジ付近のノードと接続されていることを確認 - 完全グラフや類似度ベースの構築法とも⽐較 > 計算量が増加するが IPG より低性能だった Ablation study: 固定次数 vs 可変次数 固定次数 vs 可変次数の定量⽐較 隣接ノードの可視化

Slide 23

Slide 23 text

Global / local sampling 単体との⽐較 - 組み合わせた⽅が良い - 疑問: Local only の⽅が性能が良い、前提となる硬直性はそんなに問題なのか? Ablation study: サンプリング戦略 サンプリング戦略の定量評価

Slide 24

Slide 24 text

超解像 - 問題設定 - 硬直性 (rigidity) について Image Processing GNN (IPG) - 空間的な硬直性を解決するためグラフベースのモデルを導⼊ - ⾼周波成分を持つノードが多くの情報にアクセス可能なグラフを構築 - 従来⼿法以上の性能を出せることを確認 まとめ

Slide 25

Slide 25 text

[紹介論⽂] Y. Tian, H. Chen, C. Xu, and Y. Wang, “Image Processing GNN: Breaking Rigidity in Super-Resolution,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 24108–24117. [Martin+ 2002] D. Martin, C. Fowlkes, D. Tal, and J. Malik, “A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics,” in Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001, IEEE Comput. Soc, 2002. doi: 10.1109/iccv.2001.937655. [Wang+ 2004] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE Trans. Image Process., vol. 13, no. 4, pp. 600–612, Apr. 2004. [Bevilacqua+ 2012] M. Bevilacqua, A. Roumy, C. Guillemot, and M. L. Alberi-Morel, “Low-complexity single-image super-resolution based on nonnegative neighbor embedding,” in Proceedings of the 23rd British Machine Vision Conference (BMVC), BMVA Press, 2012, p. 135.1-135.10. [Zeyde+ 2012] R. Zeyde, M. Elad, and M. Protter, “On single image scale-up using sparse-representations,” in Curves and Surfaces, in Lecture notes in computer science. , Berlin, Heidelberg: Springer Berlin Heidelberg, 2012, pp. 711–730. [Goodfellow+ 2014] I. Goodfellow et al., “Generative Adversarial Nets,” in Advances in Neural Information Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, Eds., Curran Associates, Inc., 2014. [Online]. Available: https://proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf 参考⽂献

Slide 26

Slide 26 text

[Huang+ 2015] J.-B. Huang, A. Singh, and N. Ahuja, “Single image super-resolution from transformed self-exemplars,” in 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2015. doi: 10.1109/cvpr.2015.7299156. [He+ 2016] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 770–778. [Lim+ 2017] B. Lim, S. Son, H. Kim, S. Nah, and K. Mu Lee, “Enhanced deep residual networks for single image super-resolution,” in Proceedings of the IEEE conference on computer vision and pattern recognition workshops, 2017, pp. 136–144. [Ledig+ 2017] C. Ledig et al., “Photo-realistic single image super-resolution using a generative adversarial network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4681–4690. [Agustsson+ 2017] E. Agustsson and R. Timofte, “NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE, Jul. 2017, pp. 126–135. [Matsui + 2017] Y. Matsui et al., “Sketch-based manga retrieval using manga109 dataset,” Multimed. Tools Appl., vol. 76, no. 20, pp. 21811–21838, Oct. 2017. [Zhou+ 2020] S. Zhou, J. Zhang, W. Zuo, and C. C. Loy, “Cross-scale internal graph neural network for image super-resolution,” Neural Inf Process Syst, vol. abs/2006.16673, Jun. 2020, doi: 10.5555/3495724.3496019. 参考⽂献

Slide 27

Slide 27 text

[Liang+ 2021] J. Liang, J. Cao, G. Sun, K. Zhang, L. Van Gool, and R. Timofte, “SwinIR: Image Restoration Using Swin Transformer,” in 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), IEEE, Oct. 2021. doi: 10.1109/iccvw54120.2021.00210. [Liu+ 2021] Z. Liu et al., “Swin transformer: Hierarchical vision transformer using shifted windows,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, Oct. 2021. doi: 10.1109/iccv48922.2021.00986. [Yu+ 2021] W. Yu et al., “MetaFormer is actually what you need for vision,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit., pp. 10809–10819, Nov. 2021. 参考⽂献

Slide 28

Slide 28 text

No content