Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club] Cost Aggregation with 4D Convolu...

[Journal Club] Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot Segmentation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 今井悠人 Cost Aggregation with 4D Convolutional Swin Transformer

    for Few-Shot Segmentation Sunghwan Hong1, Seokju Cho1, Jisu Nam1, Stephen Lin2, Seungryong Kim1 (1.Korea University, 2.Microsoft Research Asia) Sunghwan Hong, Seokju Cho, Jisu Nam, Stephen Lin, Seungryong Kim, "Cost Aggregation with 4d Convolutional Swin Transformer for Few-Shot Segmentation.“, in ECCV(2022)
  2. 背景 • few-shot segmentationとsemantic correspondenceの問題設定に関する類似性 • semantic correspondenceのコスト集約に注意機構を導入する試み 提案 •

    S-Q間のvolumetricなcorrelation mapを特徴空間で扱うVCM、VTM • Swin Transformer [Liu+, ICCV'21] を用いた4次元特徴に対するattention計算 結果 • few-shot semantic segmentation、semantic correspondingの 両タスクともに特定ドメインでSoTAを達成 2 概要
  3. • semantic correspondence • 外観が大きく異なるものから、 意味的に類似した対応点を見つける [Min+, IEEE TPAMI’23] 3

    • few-shot segmentation • 大きなクラス内変動を持つ同一クラ スのオブジェクトのマスク生成 [Johnander+, ECCV’22] 背景:semantic correspondenceとfew-shot segmentationとの類似性
  4. 4 関連研究:類似タスクではAttentionによるコスト集約が可能 既存手法 概要 CATs [Cho+, NeurIPS’21] • semantic correspondenceタスクを扱うモデルの一つ

    • 4次元の相関マップを2次元に縮小して扱うため、 情報量が減少 HSNet [Min+, ICCV'21] • 4次元の畳み込みによってスコアを集計する few-shot segmentationモデル • 畳み込みによる特徴抽出のため、受容野が限定的 Swin Transformer [Liu+, ICCV'21] • attentionの計算範囲をwindow分割とshiftによって削減 • 画像のサイズに対して線形にattentionを計算可能 CATs [Cho+, NeurIPS’21] HSNet [Min+, ICCV'21]
  5. • 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer

    Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 5 提案手法:Volumetric Aggregation with Transformers(VAT)
  6. • 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer

    Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 6 提案手法:Volumetric Aggregation with Transformers(VAT)
  7. • 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer

    Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 7 提案手法:Volumetric Aggregation with Transformers(VAT)
  8. • 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer

    Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 8 提案手法:Volumetric Aggregation with Transformers(VAT)
  9. • 主要なモジュールは4つ • Volumetric Convolution Module (VCM) • Volumetric Transformer

    Module (VTM) • Affinity-aware Transformer Decoder (ATD) • 階層的にVTMを計算するGuided Pyramidal Processing (GPP) 9 提案手法:Volumetric Aggregation with Transformers(VAT)
  10. • queryとsupportとの4次元の相関マップを畳み込み→Attentionで処理 • 4次元:supportのℎ𝑠𝑠 , 𝑤𝑤𝑠𝑠 とqueryのℎ𝑞𝑞 , 𝑤𝑤𝑞𝑞 で計4次元

    • Convで特徴空間に写像してからSwin Transformerに入力 10 VCM:畳み込み演算を用いて相関マップを処理
  11. • Dataset:PASCAL-5i [Shaban+, ’17]、COCO-20i [Lin+, ECCV’14]、 FSS-1000 [Li+, CVPR’20] •

    Indexは4-foldに分解したときのindexに対応 • 評価指標:mIoU、FB-IoU、mBA • FB-IoUは前景と背景でそれぞれIoUを計算し、平均したもの(クラスは無視) • mBAは [Cheng+, CVPR’20] で提案、マスクの境界に関する評価尺度 • 学習環境:学習時間の記載なし、複数枚のRTX-3090で学習とのみ記述 13 実験設定(Semantic Segmentation)
  12. • 1-shot、5-shotともに既存手法を上回る性能 • FB-IoUは省略 • 特に、1shotにおけるmIoUで大きな性能の向上 • PASCAL-5i、COCO-20iに関してはAppendixに記載 14 定量的結果

    (FSS-1000 ) Backbone feature Methods mIoU [%] mBA [%] 1-shot 5-shot 1-shot 5-shot ResNet50 HSNet 85.5 83.8 62.1 63.3 VAT 90.1 87.8 68.3 68.4 ResNet101 HSNet 86.5 88.5 62.4 63.6 VAT 90.3 90.8 68.0 68.6
  13. • 1-shot、5-shotともに既存手法を上回る性能 • FB-IoUは省略 • 特に、1shotにおけるmIoUで大きな性能の向上 • PASCAL-5i、COCO-20iに関してはAppendixに記載 15 定量的結果

    (FSS-1000 ) Backbone feature Methods mIoU [%] mBA [%] 1-shot 5-shot 1-shot 5-shot ResNet50 HSNet 85.5 83.8 62.1 63.3 VAT 90.1 87.8 68.3 68.4 ResNet101 HSNet 86.5 88.5 62.4 63.6 VAT 90.3 90.8 68.0 68.6 +4.6 pt +3.8 pt
  14. 背景 • few-shot segmentationとsemantic correspondenceの問題設定に関する類似性 • semantic correspondenceのコスト集約に注意機構を導入する試み 提案 •

    S-Q間のvolumetricなcorrelation mapを特徴空間で扱うVCM、VTM • Swin Transformer [Liu+, ICCV'21] を用いた4次元特徴に対するattention計算 結果 • few-shot semantic segmentation、semantic correspondingの 両タスクともに特定ドメインでSoTAを達成 19 まとめ
  15. • 実験的に、VATの各要素が全て重要であると主張 • Swin Transformerの導入によって+5.4ポイント • (VII)ATDの導入によって、mBAが 大きく上昇((VI)から+7.3ポイント) 20 Appendix

    : VATの各要素の妥当性に関するAblation study Components FSS-1000 1shot mIoU (%) mBA (%) (i) HSNet + Positional Encoding (Baseline) 80.0 56.7 (ii) (i)+ Swin Transformer 85.4 58.8 (iii) (ii) + VCM 87.0 60.1 (iv) VAT w/o ATD ((iii) + GPP) 87.3 60.7 (v) VAT 90.3 68.0
  16. Components FSS-1000 1shot mIoU (%) mBA (%) (i) HSNet +

    Positional Encoding (Baseline) 80.0 56.7 (ii) (i)+ Swin Transformer 85.4 58.8 (iii) (ii) + VCM 87.0 60.1 (iv) VAT w/o ATD ((iii) + GPP) 87.3 60.7 (v) VAT 90.3 68.0 • 実験的に、VATの各要素が全て重要であると主張 • Swin Transformerの導入によって+5.4ポイント • (VII)ATDの導入によって、mBAが 大きく上昇((VI)から+7.3ポイント) 21 Appendix : VATの各要素の妥当性に関するAblation study +5.4 pt
  17. Components FSS-1000 1shot mIoU (%) mBA (%) (i) HSNet +

    Positional Encoding (Baseline) 80.0 56.7 (ii) (i)+ Swin Transformer 85.4 58.8 (iii) (ii) + VCM 87.0 60.1 (iv) VAT w/o ATD ((iii) + GPP) 87.3 60.7 (v) VAT 90.3 68.0 • 実験的に、VATの各要素が全て重要であると主張 • Swin Transformerの導入によって+5.4ポイント • (VII)ATDの導入によって、mBAが 大きく上昇((VI)から+7.3ポイント) 22 Appendix : VATの各要素の妥当性に関するAblation study +7.3 pt
  18. • Dataset:SPair-71k [Min+, ’19] 、PF-PASCAL [Ham+, IEEE TPAMI’17]、 PF-WILLOW [Ham+,

    CVPR16] • 評価指標:PCK(percentage of correct keypoints) • 全てのキーポイントのうち、GTからの距離が閾値以内の割合 • 𝑑𝑑(𝑘𝑘pred , 𝑘𝑘GT ) ≤ 𝛼𝛼 ⋅ max 𝐻𝐻, 𝑊𝑊 , 𝑑𝑑: Euclidean distanceを満たす𝑘𝑘pred を数える • bboxに対する予測の場合は、𝐻𝐻, 𝑊𝑊はbboxの大きさに対応する 23 Appendix:実験設定・結果(semantic corresponding)
  19. • Transformerを単純に適用してもそもそも動かない • 空間計算量面での工夫はマスト • OOM: Out of Memory、実験できなかった項目 •

    実行可能な中で、最もmIoU、mBAが高かったのが提案手法 • この部分は将来研究 24 Appendix:VTMに関するablation study
  20. • VCM • Ablation条件:Conv→ViT [Dosovitskiy+, ICLR’20]のpatch embedding (VEM) • VEM、VCM間には1pt以下の差

    • Swin Transformerは、他手法と 比較して2,5pt程度良い • ATD • ablation条件 • Transformer→Convolution • Transformerを用いると、mIoU、 FB-IoUともに1,2~2pt程度向上 25 Appendix:VCM・ATDに関するablation study
  21. • モデルが物体を詳細まで捉えられる能力を評価する指標 • 物体の輪郭のみに着目した評価指標 1. [3, 𝑤𝑤+ℎ 300 ] から等間隔で5つの半径の値をサンプリング

    2. 画像中心を中心とする円形領域のみを切り出す 3. 生成マスクとGTマスクの境界のみのaccuracyを比較 • 境界はモルフォロジー変換で作成 4. 5回のサンプリングの平均を取る 27 Appendix: mean Boundary Accuracy (mBA) の計算
  22. 29 Appendix : Personalize SAM [Zhang+. ’23] との比較実験 Support Query+Pred

    GT Personalize SAM Personalize SAMの特徴 マスク輪郭は比較的明確 多体・細かい領域 予測可能な領域は異なる
  23. • Johnander, Joakim, et al, "Dense gaussian processes for few-shot

    segmentation," European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2022, • Dosovitskiy, Alexey, et al, "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," International Conference on Learning Representations, 2020, • Cho, S,, Hong, S,, Jeon, S,, Lee, Y,, Sohn, K,, Kim, S,: Cats: Cost aggregation transformers for visual correspondence, In: Thirty-Fifth Conference on Neural Information Processing Systems (2021) • Cheng, H,K,, Chung, J,, Tai, Y,W,, Tang, C,K,: CascadePSP: Toward classagnostic and very high- resolution segmentation via global and local refinement,In: CVPR (2020) • Shaban, Amirreza, et al, "One-shot learning for semantic segmentation," arXiv preprint arXiv:1709,03410 (2017), • Wu, Chuhan, et al, "Fastformer: Additive attention can be all you need," arXiv preprint arXiv:2108,09084 (2021), • Katharopoulos, Angelos, et al, "Transformers are rnns: Fast autoregressive transformers with linear attention," International conference on machine learning, PMLR, 2020, 30 参考文献 (1/2)
  24. • Lin, Tsung-Yi, et al. "Microsoft coco: Common objects in

    context." ECCV 2014, • Li, Xiang, et al. "Fss-1000: A 1000-class dataset for few-shot segmentation.“CVPR. 2020. • Min, Juhong, et al. "Spair-71k: A large-scale benchmark for semantic correspondence." arXiv preprint arXiv:1908.10543 (2019). • Zhang, Renrui, et al. "Personalize segment anything model with one shot." arXiv preprint arXiv:2305.03048 (2023). • Ham, Bumsub, et al. "Proposal flow: Semantic correspondences from object proposals." IEEE transactions on pattern analysis and machine intelligence 40.7 (2017): 1711-1725. • Ham, Bumsub, et al. "Proposal flow." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. 31 参考文献 (2/2)