Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 今井悠人 Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot Segmentation Sunghwan Hong1, Seokju Cho1, Jisu Nam1, Stephen Lin2, Seungryong Kim1 (1.Korea University, 2.Microsoft Research Asia) Sunghwan Hong, Seokju Cho, Jisu Nam, Stephen Lin, Seungryong Kim, "Cost Aggregation with 4d Convolutional Swin Transformer for Few-Shot Segmentation.“, in ECCV(2022)

Slide 2

Slide 2 text

背景 • few-shot segmentationとsemantic correspondenceの問題設定に関する類似性 • semantic correspondenceのコスト集約に注意機構を導入する試み 提案 • S-Q間のvolumetricなcorrelation mapを特徴空間で扱うVCM、VTM • Swin Transformer [Liu+, ICCV'21] を用いた4次元特徴に対するattention計算 結果 • few-shot semantic segmentation、semantic correspondingの 両タスクともに特定ドメインでSoTAを達成 2 概要

Slide 3

Slide 3 text

• semantic correspondence • 外観が大きく異なるものから、 意味的に類似した対応点を見つける [Min+, IEEE TPAMI’23] 3 • few-shot segmentation • 大きなクラス内変動を持つ同一クラ スのオブジェクトのマスク生成 [Johnander+, ECCV’22] 背景:semantic correspondenceとfew-shot segmentationとの類似性

Slide 4

Slide 4 text

4 関連研究:類似タスクではAttentionによるコスト集約が可能 既存手法 概要 CATs [Cho+, NeurIPS’21] • semantic correspondenceタスクを扱うモデルの一つ • 4次元の相関マップを2次元に縮小して扱うため、 情報量が減少 HSNet [Min+, ICCV'21] • 4次元の畳み込みによってスコアを集計する few-shot segmentationモデル • 畳み込みによる特徴抽出のため、受容野が限定的 Swin Transformer [Liu+, ICCV'21] • attentionの計算範囲をwindow分割とshiftによって削減 • 画像のサイズに対して線形にattentionを計算可能 CATs [Cho+, NeurIPS’21] HSNet [Min+, ICCV'21]

Slide 5

Slide 5 text

• 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 5 提案手法:Volumetric Aggregation with Transformers(VAT)

Slide 6

Slide 6 text

• 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 6 提案手法:Volumetric Aggregation with Transformers(VAT)

Slide 7

Slide 7 text

• 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 7 提案手法:Volumetric Aggregation with Transformers(VAT)

Slide 8

Slide 8 text

• 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 8 提案手法:Volumetric Aggregation with Transformers(VAT)

Slide 9

Slide 9 text

• 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 9 提案手法:Volumetric Aggregation with Transformers(VAT)

Slide 10

Slide 10 text

• queryとsupportとの4次元の相関マップを畳み込み→Attentionで処理 • 4次元:supportのℎ𝑠𝑠 , 𝑤𝑤𝑠𝑠 とqueryのℎ𝑞𝑞 , 𝑤𝑤𝑞𝑞 で計4次元 • Convで特徴空間に写像してからSwin Transformerに入力 10 VCM:畳み込み演算を用いて相関マップを処理

Slide 11

Slide 11 text

• 4次元の畳み込みによって、相関マップをシーケンスにして入力 • パッチ埋め込みは、小さなカーネルをoverlapさせて作成 • 位置に関する連続的な帰納的バイアスを与えるのが目的 11 VTM:Swin Transformer [Liu+, ICCV'21] によるQ-S間の注意計算

Slide 12

Slide 12 text

• CATsと同様に、query画像の線形変換(projection)をチャネル方向に結合 • VTMと重みを共有するTransformerによってattentionを計算 12 Affinity-aware Transformer Decoder(ATD)

Slide 13

Slide 13 text

• Dataset:PASCAL-5i [Shaban+, ’17]、COCO-20i [Lin+, ECCV’14]、 FSS-1000 [Li+, CVPR’20] • Indexは4-foldに分解したときのindexに対応 • 評価指標:mIoU、FB-IoU、mBA • FB-IoUは前景と背景でそれぞれIoUを計算し、平均したもの(クラスは無視) • mBAは [Cheng+, CVPR’20] で提案、マスクの境界に関する評価尺度 • 学習環境:学習時間の記載なし、複数枚のRTX-3090で学習とのみ記述 13 実験設定(Semantic Segmentation)

Slide 14

Slide 14 text

• 1-shot、5-shotともに既存手法を上回る性能 • FB-IoUは省略 • 特に、1shotにおけるmIoUで大きな性能の向上 • PASCAL-5i、COCO-20iに関してはAppendixに記載 14 定量的結果 (FSS-1000 ) Backbone feature Methods mIoU [%] mBA [%] 1-shot 5-shot 1-shot 5-shot ResNet50 HSNet 85.5 83.8 62.1 63.3 VAT 90.1 87.8 68.3 68.4 ResNet101 HSNet 86.5 88.5 62.4 63.6 VAT 90.3 90.8 68.0 68.6

Slide 15

Slide 15 text

• 1-shot、5-shotともに既存手法を上回る性能 • FB-IoUは省略 • 特に、1shotにおけるmIoUで大きな性能の向上 • PASCAL-5i、COCO-20iに関してはAppendixに記載 15 定量的結果 (FSS-1000 ) Backbone feature Methods mIoU [%] mBA [%] 1-shot 5-shot 1-shot 5-shot ResNet50 HSNet 85.5 83.8 62.1 63.3 VAT 90.1 87.8 68.3 68.4 ResNet101 HSNet 86.5 88.5 62.4 63.6 VAT 90.3 90.8 68.0 68.6 +4.6 pt +3.8 pt

Slide 16

Slide 16 text

16 定性的結果 (PASCAL-5i ) : 1-shotでも特徴を抽出 supportに遮蔽があっても オブジェクト単位で可能 supportのマスクが僅かであっても 概形をマスクできている 対応する部分が画像に含まれてい なくてもマスクが生成

Slide 17

Slide 17 text

• 実験設定 • Backbone:ResNet101 • Dataset:FSS-1000 2400サンプルに対し実験 • 左列から、support、prediction、ground-truthに対応 17 追実験:1-shotでの定性的結果

Slide 18

Slide 18 text

Support Query+Pred GT 18 エラー分析:過剰あるいは過少なマスク生成 query画像の一部のみマスク 周囲の四角形領域もマスク 他の物体も予測してしまっている 改善案:色調境界の失敗が目立つため、 VCMの寄与を大きくする

Slide 19

Slide 19 text

背景 • few-shot segmentationとsemantic correspondenceの問題設定に関する類似性 • semantic correspondenceのコスト集約に注意機構を導入する試み 提案 • S-Q間のvolumetricなcorrelation mapを特徴空間で扱うVCM、VTM • Swin Transformer [Liu+, ICCV'21] を用いた4次元特徴に対するattention計算 結果 • few-shot semantic segmentation、semantic correspondingの 両タスクともに特定ドメインでSoTAを達成 19 まとめ

Slide 20

Slide 20 text

• 実験的に、VATの各要素が全て重要であると主張 • Swin Transformerの導入によって+5.4ポイント • (VII)ATDの導入によって、mBAが 大きく上昇((VI)から+7.3ポイント) 20 Appendix : VATの各要素の妥当性に関するAblation study Components FSS-1000 1shot mIoU (%) mBA (%) (i) HSNet + Positional Encoding (Baseline) 80.0 56.7 (ii) (i)+ Swin Transformer 85.4 58.8 (iii) (ii) + VCM 87.0 60.1 (iv) VAT w/o ATD ((iii) + GPP) 87.3 60.7 (v) VAT 90.3 68.0

Slide 21

Slide 21 text

Components FSS-1000 1shot mIoU (%) mBA (%) (i) HSNet + Positional Encoding (Baseline) 80.0 56.7 (ii) (i)+ Swin Transformer 85.4 58.8 (iii) (ii) + VCM 87.0 60.1 (iv) VAT w/o ATD ((iii) + GPP) 87.3 60.7 (v) VAT 90.3 68.0 • 実験的に、VATの各要素が全て重要であると主張 • Swin Transformerの導入によって+5.4ポイント • (VII)ATDの導入によって、mBAが 大きく上昇((VI)から+7.3ポイント) 21 Appendix : VATの各要素の妥当性に関するAblation study +5.4 pt

Slide 22

Slide 22 text

Components FSS-1000 1shot mIoU (%) mBA (%) (i) HSNet + Positional Encoding (Baseline) 80.0 56.7 (ii) (i)+ Swin Transformer 85.4 58.8 (iii) (ii) + VCM 87.0 60.1 (iv) VAT w/o ATD ((iii) + GPP) 87.3 60.7 (v) VAT 90.3 68.0 • 実験的に、VATの各要素が全て重要であると主張 • Swin Transformerの導入によって+5.4ポイント • (VII)ATDの導入によって、mBAが 大きく上昇((VI)から+7.3ポイント) 22 Appendix : VATの各要素の妥当性に関するAblation study +7.3 pt

Slide 23

Slide 23 text

• Dataset:SPair-71k [Min+, ’19] 、PF-PASCAL [Ham+, IEEE TPAMI’17]、 PF-WILLOW [Ham+, CVPR16] • 評価指標:PCK(percentage of correct keypoints) • 全てのキーポイントのうち、GTからの距離が閾値以内の割合 • 𝑑𝑑(𝑘𝑘pred , 𝑘𝑘GT ) ≤ 𝛼𝛼 ⋅ max 𝐻𝐻, 𝑊𝑊 , 𝑑𝑑: Euclidean distanceを満たす𝑘𝑘pred を数える • bboxに対する予測の場合は、𝐻𝐻, 𝑊𝑊はbboxの大きさに対応する 23 Appendix:実験設定・結果(semantic corresponding)

Slide 24

Slide 24 text

• Transformerを単純に適用してもそもそも動かない • 空間計算量面での工夫はマスト • OOM: Out of Memory、実験できなかった項目 • 実行可能な中で、最もmIoU、mBAが高かったのが提案手法 • この部分は将来研究 24 Appendix:VTMに関するablation study

Slide 25

Slide 25 text

• VCM • Ablation条件:Conv→ViT [Dosovitskiy+, ICLR’20]のpatch embedding (VEM) • VEM、VCM間には1pt以下の差 • Swin Transformerは、他手法と 比較して2,5pt程度良い • ATD • ablation条件 • Transformer→Convolution • Transformerを用いると、mIoU、 FB-IoUともに1,2~2pt程度向上 25 Appendix:VCM・ATDに関するablation study

Slide 26

Slide 26 text

26 Appendix:COCO-20i、PASCAL-5iでの定量的結果 PASCAL-5i COCO-20i

Slide 27

Slide 27 text

• モデルが物体を詳細まで捉えられる能力を評価する指標 • 物体の輪郭のみに着目した評価指標 1. [3, 𝑤𝑤+ℎ 300 ] から等間隔で5つの半径の値をサンプリング 2. 画像中心を中心とする円形領域のみを切り出す 3. 生成マスクとGTマスクの境界のみのaccuracyを比較 • 境界はモルフォロジー変換で作成 4. 5回のサンプリングの平均を取る 27 Appendix: mean Boundary Accuracy (mBA) の計算

Slide 28

Slide 28 text

左:2クラス 右:多クラス 28 Appendix:mBAの[Cheng+,CVPR20]での実装

Slide 29

Slide 29 text

29 Appendix : Personalize SAM [Zhang+. ’23] との比較実験 Support Query+Pred GT Personalize SAM Personalize SAMの特徴 マスク輪郭は比較的明確 多体・細かい領域 予測可能な領域は異なる

Slide 30

Slide 30 text

• Johnander, Joakim, et al, "Dense gaussian processes for few-shot segmentation," European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2022, • Dosovitskiy, Alexey, et al, "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," International Conference on Learning Representations, 2020, • Cho, S,, Hong, S,, Jeon, S,, Lee, Y,, Sohn, K,, Kim, S,: Cats: Cost aggregation transformers for visual correspondence, In: Thirty-Fifth Conference on Neural Information Processing Systems (2021) • Cheng, H,K,, Chung, J,, Tai, Y,W,, Tang, C,K,: CascadePSP: Toward classagnostic and very high- resolution segmentation via global and local refinement,In: CVPR (2020) • Shaban, Amirreza, et al, "One-shot learning for semantic segmentation," arXiv preprint arXiv:1709,03410 (2017), • Wu, Chuhan, et al, "Fastformer: Additive attention can be all you need," arXiv preprint arXiv:2108,09084 (2021), • Katharopoulos, Angelos, et al, "Transformers are rnns: Fast autoregressive transformers with linear attention," International conference on machine learning, PMLR, 2020, 30 参考文献 (1/2)

Slide 31

Slide 31 text

• Lin, Tsung-Yi, et al. "Microsoft coco: Common objects in context." ECCV 2014, • Li, Xiang, et al. "Fss-1000: A 1000-class dataset for few-shot segmentation.“CVPR. 2020. • Min, Juhong, et al. "Spair-71k: A large-scale benchmark for semantic correspondence." arXiv preprint arXiv:1908.10543 (2019). • Zhang, Renrui, et al. "Personalize segment anything model with one shot." arXiv preprint arXiv:2305.03048 (2023). • Ham, Bumsub, et al. "Proposal flow: Semantic correspondences from object proposals." IEEE transactions on pattern analysis and machine intelligence 40.7 (2017): 1711-1725. • Ham, Bumsub, et al. "Proposal flow." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. 31 参考文献 (2/2)