Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]Side Adapter Network for Open-Vocabulary Semantic Segmentation

[Journal Club]Side Adapter Network for Open-Vocabulary Semantic Segmentation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Side Adapter Network for Open-Vocabulary Semantic Segmentation Mengde Xu1,2, Zheng

    Zhang1,2, Fangyun Wei2, Han Hu2, Xiang Bai1 1Huazhong University of Science and Technology, 2Microsoft Research Asia, CVPR, 2023 慶應義塾大学 飯岡雄偉 Xu Mengde, Zheng Zhang, Fangyun Wei, Han Hu, Xiang Bai. “Side Adapter Network for Open-Vocabulary Semantic Segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
  2. 概要 背景 提案手法 結果 まとめ 概要:Open-vocabularyのsemantic segmentation手法  背景 ⚫

    CLIP [Radford+, PMLR21]をより有用に、semantic segmentationタスクへ応用したい  提案 ⚫ End-to-endで学習するSide Adapter Network (SAN) • 候補マスク予測とクラス予測を分離 • 既存手法よりも19倍の推論速度 2
  3. 概要 背景 提案手法 結果 まとめ 用語確認  Semantic segmentation (SS)

    ⚫ オブジェクトに固有のIDを付与せず、”stuff”と”thing” の両方を画素単位でクラス予測  Instance segmentation (IS) ⚫ オブジェクトに固有のIDを付与して、”thing”のみの 領域をクラス予測  Panoptic segmentation ⚫ “stuff”にはSSと、”thing”にはISと同様にクラス予測 3 [Kirillov+, CVPR19]
  4. 概要 背景 提案手法 結果 まとめ 背景:CLIPをSSで有用に  CLIPは画素単位ではなく画像単位で学習 ⚫ 画素単位のSSを直接扱うには不十分

    • マスクの領域とクラスを同時に予測  マスク候補の予測とクラス予測を分離 5 [Radford+, PMLR21]
  5. 概要 背景 提案手法 結果 まとめ 関連研究:マスク生成と分類の分割&CLIP特徴量を用いたマスク生成が不十分 6 手法 概要 SimSeg

    [Yi+, CVPR23] ☺ マスク画像の生成とその分類をtwo-stageに分割  カテゴリごとに処理するため、コストが高い MaskCLIP [Zhou+, ECCV22]
  6. 概要 背景 提案手法 結果 まとめ 関連研究:マスク生成と分類の分割&CLIP特徴量を用いたマスク生成が不十分 7 手法 概要 SimSeg

    [Yi+, CVPR23] ☺ マスク画像の生成とその分類をtwo-stageに分割  カテゴリごとに処理するため、コストが高い MaskCLIP [Zhou+, ECCV22] ☺ Attention層で各カテゴリを同時に処理  マスク予測時には、直接的にCLIP特徴量が考慮されない
  7. 概要 背景 提案手法 結果 まとめ 提案手法:Side Adapter Network (SAN) 

    End-to-endでマスク領域の予測と、そのクラス分類が分離して行われる ⚫ どちらの学習も相互に関係し、CLIP特徴量も直接考慮される 8
  8. 概要 背景 提案手法 結果 まとめ 提案手法:Side Adapter Network (SAN) 10

    CLIPで事前学習されたViT-B/16の{stem, 3, 6, 9}層目と、SANの{stem, 1, 2, 3}層目のサイズを合わせて加算 • 斜線部のvisual tokenのみ加算。カラフルなclass tokenは最終層のvisual tokenからCLIPで予測。
  9. 概要 背景 提案手法 結果 まとめ 提案手法:Side Adapter Network (SAN) 11

    1. Attention biases: 各ヘッドごとのバイアス項となる → 次スライドの[SLS]トークンの更新に使用 2. Masks: 各パッチごとのマスク領域候補
  10. 概要 背景 提案手法 結果 まとめ 提案手法:Self-attention時にAttention biasを用いてSLSを更新 12  [SLS]

    = [CLS]の拡張 ⚫ 複数カテゴリを同時に処理 ➢ 計算コスト削減 ⚫ バイアスを考慮してself-attention 時に更新  緑枠の部分は計算しない ➢ 計算コストの削減
  11. 概要 背景 提案手法 結果 まとめ 実験設定  タスク ⚫ Open-vocabulary

    semantic segmentation  データセット ⚫ 訓練時:COCO stuff (161K images, 171 labels) ⚫ 推論時:ADE-847, PC-459,…  学習時間 ⚫ 記載なし ⚫ Titan Xp GPU, Xeon E5 v2 CPU (32 core), 252G RAM 14
  12. 概要 背景 提案手法 結果 まとめ 定量的結果:既存手法を全てのベンチマークで上回る  評価指標:mIoU  FPSがSoTA手法であるSimSegに対して19倍

     ADE-847での性能が低い理由は、COCOと似通ったカテゴリが少ないことと カテゴリ数が多いことがあげられる 15
  13. 概要 背景 提案手法 結果 まとめ 所感  Strength ⚫ 細かいところにも考察や関心を向けられており、実装の順序だてが論理的

    • CLIPは高解像度よりも低解像度を扱うほうが性能が出やすい、CLIPで低解像度・SANで高解像度 を扱うとより効果的な特徴抽出が可能になる、など  Weekness ⚫ モデル図を示すものが3つあり、それぞれのモデル構造が少し違っているため読み違う  Comment ⚫ CLIPのimage encoderではなくViTの中間層からの特徴量をとってくることなど、CLIPの効果的な活 用方法が述べられていて参考になった 18
  14. 概要 背景 提案手法 結果 まとめ まとめ: 19  背景 ⚫

    CLIP [Radford+, PMLR21]をより有用に、semantic segmentationタスクへ応用したい  提案 ⚫ End-to-endで学習するSide Adapter Network (SAN) • 候補マスク予測とクラス予測を分離 • 既存手法よりも19倍の推論速度