[Journal Club]Side Adapter Network for Open-Vocabulary Semantic Segmentation

Side Adapter Network for Open-Vocabulary Semantic Segmentation Mengde Xu1,2, Zheng
Zhang1,2, Fangyun Wei2, Han Hu2, Xiang Bai1 1Huazhong University of Science and Technology, 2Microsoft Research Asia, CVPR, 2023 慶應義塾大学飯岡雄偉 Xu Mengde, Zheng Zhang, Fangyun Wei, Han Hu, Xiang Bai. “Side Adapter Network for Open-Vocabulary Semantic Segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

概要背景提案手法結果まとめ概要：Open-vocabularyのsemantic segmentation手法  背景 ⚫
CLIP [Radford+, PMLR21]をより有用に、semantic segmentationタスクへ応用したい  提案 ⚫ End-to-endで学習するSide Adapter Network (SAN) • 候補マスク予測とクラス予測を分離 • 既存手法よりも19倍の推論速度 2

概要背景提案手法結果まとめ用語確認  Semantic segmentation (SS)
⚫ オブジェクトに固有のIDを付与せず、”stuff”と”thing” の両方を画素単位でクラス予測  Instance segmentation (IS) ⚫ オブジェクトに固有のIDを付与して、”thing”のみの領域をクラス予測  Panoptic segmentation ⚫ “stuff”にはSSと、”thing”にはISと同様にクラス予測 3 [Kirillov+, CVPR19]

概要背景提案手法結果まとめ背景：CLIPをSSで有用に  CLIPは画素単位ではなく画像単位で学習 ⚫ 画素単位のSSを直接扱うには不十分
• マスクの領域とクラスを同時に予測 4 [Radford+, PMLR21]

概要背景提案手法結果まとめ背景：CLIPをSSで有用に  CLIPは画素単位ではなく画像単位で学習 ⚫ 画素単位のSSを直接扱うには不十分
• マスクの領域とクラスを同時に予測  マスク候補の予測とクラス予測を分離 5 [Radford+, PMLR21]

概要背景提案手法結果まとめ関連研究：マスク生成と分類の分割＆CLIP特徴量を用いたマスク生成が不十分 6 手法概要 SimSeg
[Yi+, CVPR23] ☺ マスク画像の生成とその分類をtwo-stageに分割  カテゴリごとに処理するため、コストが高い MaskCLIP [Zhou+, ECCV22]

概要背景提案手法結果まとめ関連研究：マスク生成と分類の分割＆CLIP特徴量を用いたマスク生成が不十分 7 手法概要 SimSeg
[Yi+, CVPR23] ☺ マスク画像の生成とその分類をtwo-stageに分割  カテゴリごとに処理するため、コストが高い MaskCLIP [Zhou+, ECCV22] ☺ Attention層で各カテゴリを同時に処理  マスク予測時には、直接的にCLIP特徴量が考慮されない

概要背景提案手法結果まとめ提案手法：Side Adapter Network (SAN) 
End-to-endでマスク領域の予測と、そのクラス分類が分離して行われる ⚫ どちらの学習も相互に関係し、CLIP特徴量も直接考慮される 8

概要背景提案手法結果まとめ提案手法：Side Adapter Network (SAN) 9
16×16のパッチに分割

CLIPで事前学習されたViT-B/16の{stem, 3, 6, 9}層目と、SANの{stem, 1, 2, 3}層目のサイズを合わせて加算 • 斜線部のvisual tokenのみ加算。カラフルなclass tokenは最終層のvisual tokenからCLIPで予測。

1. Attention biases: 各ヘッドごとのバイアス項となる → 次スライドの[SLS]トークンの更新に使用 2. Masks: 各パッチごとのマスク領域候補

概要背景提案手法結果まとめ提案手法：Self-attention時にAttention biasを用いてSLSを更新 12  [SLS]
= [CLS]の拡張 ⚫ 複数カテゴリを同時に処理 ➢ 計算コスト削減 ⚫ バイアスを考慮してself-attention 時に更新  緑枠の部分は計算しない ➢ 計算コストの削減

概要背景提案手法結果まとめ提案手法：推論時と訓練時のネットワーク 13  訓練時には赤矢印方向に逆伝播が起こる →
CLIPが考慮されたマスク生成器

概要背景提案手法結果まとめ実験設定  タスク ⚫ Open-vocabulary
semantic segmentation  データセット ⚫ 訓練時：COCO stuff (161K images, 171 labels) ⚫ 推論時：ADE-847, PC-459,…  学習時間 ⚫ 記載なし ⚫ Titan Xp GPU, Xeon E5 v2 CPU (32 core), 252G RAM 14

概要背景提案手法結果まとめ定量的結果：既存手法を全てのベンチマークで上回る  評価指標：mIoU  FPSがSoTA手法であるSimSegに対して19倍
 ADE-847での性能が低い理由は、COCOと似通ったカテゴリが少ないこととカテゴリ数が多いことがあげられる 15

概要背景提案手法結果まとめ定性的結果：open-vocabularyに物体を予測 16

概要背景提案手法結果まとめ定性的結果：複数物体に対しても有用 17

概要背景提案手法結果まとめ所感  Strength ⚫ 細かいところにも考察や関心を向けられており、実装の順序だてが論理的
• CLIPは高解像度よりも低解像度を扱うほうが性能が出やすい、CLIPで低解像度・SANで高解像度を扱うとより効果的な特徴抽出が可能になる、など  Weekness ⚫ モデル図を示すものが3つあり、それぞれのモデル構造が少し違っているため読み違う  Comment ⚫ CLIPのimage encoderではなくViTの中間層からの特徴量をとってくることなど、CLIPの効果的な活用方法が述べられていて参考になった 18

概要背景提案手法結果まとめまとめ： 19  背景 ⚫
CLIP [Radford+, PMLR21]をより有用に、semantic segmentationタスクへ応用したい  提案 ⚫ End-to-endで学習するSide Adapter Network (SAN) • 候補マスク予測とクラス予測を分離 • 既存手法よりも19倍の推論速度

[Journal Club]Side Adapter Network for Open-Voc...

[Journal Club]Side Adapter Network for Open-Vocabulary Semantic Segmentation

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Side Adapter Network for Open-Vocabulary Semantic Segmentation Mengde Xu1,2, Zheng

概要背景提案手法結果まとめ概要：Open-vocabularyのsemantic segmentation手法  背景 ⚫

概要背景提案手法結果まとめ用語確認  Semantic segmentation (SS)

概要背景提案手法結果まとめ背景：CLIPをSSで有用に  CLIPは画素単位ではなく画像単位で学習 ⚫ 画素単位のSSを直接扱うには不十分

概要背景提案手法結果まとめ背景：CLIPをSSで有用に  CLIPは画素単位ではなく画像単位で学習 ⚫ 画素単位のSSを直接扱うには不十分

概要背景提案手法結果まとめ関連研究：マスク生成と分類の分割＆CLIP特徴量を用いたマスク生成が不十分 6 手法概要 SimSeg

概要背景提案手法結果まとめ関連研究：マスク生成と分類の分割＆CLIP特徴量を用いたマスク生成が不十分 7 手法概要 SimSeg

概要背景提案手法結果まとめ提案手法：Side Adapter Network (SAN) 

概要背景提案手法結果まとめ提案手法：Side Adapter Network (SAN) 9

概要背景提案手法結果まとめ提案手法：Side Adapter Network (SAN) 10

概要背景提案手法結果まとめ提案手法：Side Adapter Network (SAN) 11

概要背景提案手法結果まとめ提案手法：Self-attention時にAttention biasを用いてSLSを更新 12  [SLS]

概要背景提案手法結果まとめ提案手法：推論時と訓練時のネットワーク 13  訓練時には赤矢印方向に逆伝播が起こる →

概要背景提案手法結果まとめ実験設定  タスク ⚫ Open-vocabulary

概要背景提案手法結果まとめ定量的結果：既存手法を全てのベンチマークで上回る  評価指標：mIoU  FPSがSoTA手法であるSimSegに対して19倍

概要背景提案手法結果まとめ定性的結果：open-vocabularyに物体を予測 16

概要背景提案手法結果まとめ定性的結果：複数物体に対しても有用 17

概要背景提案手法結果まとめ所感  Strength ⚫ 細かいところにも考察や関心を向けられており、実装の順序だてが論理的

概要背景提案手法結果まとめまとめ： 19  背景 ⚫