One/Few-shot Semantic Segmentation サーベイ

One/Few-Shot Semantic Segmentation サーベイ 2019.10.15 hei4 1

Outline 1. One/few-shot semantic segmentation の問題設定 2. One/few-shot semantic
segmentation のデータセット 3. One/few-shot semantic segmentation の研究 4. One/few-shot semantic segmentation の評価 2

Outline 1. One/few-shot semantic segmentation の問題設定 1.1 Semantic Segmentation
1.2 One/Few-Shot learning 1.3 One/Few-Shot segmentation 2. One/few-shot semantic segmentation のデータセット 3. One/few-shot semantic segmentation の研究 4. One/few-shot semantic segmentation の評価 3

Semantic Segmentation [2] RGB画像と画素ごとにアノテーションされたラベルのペアを使った教師あり学習。はクラス数 I ∈
RH×W×3 L ∈ RH×W×C (I, L) C 4

One/few-shot learning 既知クラスで構成された訓練セットで学習し、テストセットで未知クラスについて推定するタスク推定対象の⼊⼒データを Query、アノテーションされた補助データをSupportという。（図は[1]より）クラス個のSupportはN-way
K-shot learningと呼ばれる Cseen Cunseen C K 5

One/few-shot learning X = {(I , L , I );
s ∈ s s q {1, 2, … , K}} L = {l ∈ {1, 2, … , C}} Y = {y∣I ∈ q {1, 2, … , C}} 6

One/few-shot semantic segmentation One/few-shot learningにおいてアノテーション、出⼒ X = {(I ,
L , I ); s ∈ s s q {1, 2, … , K}} L = {l ; l ∈ (i,j) {1, 2, … , C}} Y = {y ∣I ; y ∈ (i,j) q {1, 2, … , C}} L = {l } (i,j) Y = {y ∣I } (i,j) q 7

segmentation のデータセット 2.1 PASCAL- (PASCAL VOC 2012) 2.2 MS COCO 2.3 FS-1000 3. One/few-shot semantic segmentation の研究 4. One/few-shot semantic segmentation の評価 5i 8

PASCAL- (PASCAL VOC 2012) [2] [6] PSCAL VOC 2012 は20クラス19,740枚の画像データセット
PASCAL- は、PASCAL VOC 2012のクラス別の4-fold cross-validation One/few-shot semantic segmentationのベンチマーク・データセットとしてよく⽤いられている 5i 5i 9

MS COCO [3] MS COCOは80クラス204,721枚の画像データセット。 One/few-shot learningの論⽂ではCOCOの扱いが、訓練︓検証︓テストを40︓ 20︓20クラスにしたり[7]、20クラスの4-fold cross-varidationであったり[8]と評価⼿法が統⼀されていないので⽐較には注意すること
10

FS-1000 [4] Few-shot segmentation⽤の1,000クラス10,000枚の画像データセット各クラス10枚の画像で、画像1枚中のオブジェクトは単⼀クラス 11

segmentation のデータセット 3. One/few-shot semantic segmentation の研究 3.1 OSLSM (2017) 3.2 SG-One (2018) 3.3 CA-Net (2019) 3.4 PANet (2019) 4. One/few-shot semantic segmentation の評価 12

OSLSM (2017) [5] One/few-shot segmentationでSupport, Queryの2-branch構造を導⼊した元祖以降のOne/few-shot segmentation研究のベースラインとしてよく⽤いられる Support setでFine-tuningするよりも⾼性能であることを⽰した
13

OSLSM (2017) [5] Support画像をマスキングしてオブジェクトのみに絞る Conditioning branchで出⼒したパラメータを使って、Segmentation branch で出⼒した特徴マップを変換する
= M ^ q mn σ(w F + T q mn b) w, b Fq 14

OSLSM (2017) [5] をx32にアップサンプリングし、閾値で2値化して最終出⼒とする Support、Queryそれぞれのbranchで異なるネットワークのため過学習しやすく、また計算リソースを余分に必要とする。また、Supportの情報を積でQueryに統合することは⾼品質なSegmentationを⾏うには不⼗分 [6] M
^ q p 15

SG-One (2018) [6] Supportを直接Queryに作⽤させるのではなく、同⼀のネットワークにSupportと Queryを⼊⼒し、それらの結果の類似性をQueryに作⽤させる SupportとQueryの類似性を⽤いるアイデアは、以降の研究で（形を変えながら）よく現れる 16

SG-One (2018) [6] Gaidance branchに⼊⼒したSupportとQueryのコサイン類似度マップを、 Segmentation branchの中間に結合する Guidance branchから得たSupportの特徴マップは、Masked Average
Poolingでオブジェクト領域で平均したベクトルとして利⽤する。Masked Average Poolingも以降の研究でよく登場する 17

SG-One (2018) [6] （OSLSMのように）Supportを⼊⼒時にマスキングするより、提案するMasked Average Poolingで特徴マップ時にマスキングした⽅が優良であることを実験で⽰している。またMasked Max~よりもMasked Average~の⽅が優良だった 18

CA-Net (2019) [7] DCM(Dense Comparision Module)とICM(Iterative Optimization Module)の2つを持つ従来⼿法から⼤幅に精度改善した
19

CA-Net (2019) [7] Masked Average Pooling＆アップサンプリングで縮⼩＆拡⼤し、Queryに結合 BackboneはSupportとQueryで同⼀のネットワーク（Weight sharing） 20

CA-Net (2019) [7] ASPP(Atrous Spatial Pyramid Pooling)でMulti-scaleな受容野を形成前ステップの出⼒を再帰的に⼊⼒して、⾼精度な出⼒を得ている。確率で再帰⼊⼒を空にするという⼯夫も
pr 21

CA-Net (2019) [7] IOMの再帰的調整によって精度が向上していることを実験で確認している。ただし IOMの繰り返し回数はハイパーパラメータである模様 22

PANet (2019) [8] 〇: Support △: Query ⻩: 前景⻘:
背景 Supportの特徴マップからクラスの"prototype"を定め、Queryの特徴マップと prototypeとの距離で、Queryのクラスを推定する Metric Learningの要素も含んでいる 23

PANet (2019) [8] Support特徴マップをMasked Average Poolingしたものをprototypeとする prototypeとQuery特徴マップのコサイン類似度で距離を測り、最も近いprototype に対応するクラスをQueryのクラスとする学習時は、推定したQueryのMaskを使⽤してQuery→Supportも⾏い学習に活⽤する
24

PANet (2019) [8] prototypeとの距離はユークリッド距離でも良いが、コサイン類似度の⽅が安定する、と記しているコサイン類似度にsoftmaxと近しい処理を施し、確率値としてネットワークの出⼒としている。そのためNon-parametric metric learningと位置付けている 25

segmentation のデータセット 3. One/few-shot semantic segmentation の研究 4. One/few-shot semantic segmentation の評価 4.1 mean-IoUとFB-IoU 4.2 本資料で述べた研究の評価結果 26

mean-IoUとFB-IoU 推定結果とラベルの和集合と積集合の⽐がIoU(Intersection over Union) IOU = ∣Y L∣
⋃ ∣Y L∣ ⋂ 各クラス（前景）のIoUの平均がmean-IoU クラスを無視した前景のIoUと背景のIoUの平均がFB-IoU。FB-IoUはbinary-IoUとも呼ばれる Y L 27

本資料で述べた研究の評価結果 CANetがベストスコア。特に1-shotは頭⼀つ抜けている PASCAL- , mean-IoU (%) Method 1-shot 5-shot OSLSM
40.8 43.9 SG-One 46.3 47.1 CANet 55.4 57.1 PANet 48.1 55.7 5i 28

本資料で述べた研究の評価結果 PANetがベストスコア mean-IoUではCANetが優勢で、FB-IoUではPANetが優勢という状況は、PANetはクラスを誤認した前景を推定したケースがあったか︖Binary SegmentationタスクならPANetが有利になる可能性︖ PASCAL- , FB-IoU(binary-IoU) (%)
Method 1-shot 5-shot OSLSM 61.3 61.5 SG-One 63.9 65.9 CANet 66.2 69.6 PANet 66.5 70.7 5i 29

総括現在のOne/few-shot semantic segmentationの⼿法の多くが、Supportも⼊⼒に⽤いる2-branch構造 SupportとQueryの特徴抽出器はその⼀部を共通、もしくは完全に共通化する流れ最近の研究はSupportの特徴を直接的にQueryに反映するのではなく、Supportと Queryの類似性を活⽤する傾向にある。コサイン類似度で距離を測る⼿法は多い Supportは⼊⼒時にマスキングするより、特徴マップに対してマスキングする⼿法がよい。特にMasked
Average Poolingは有効 30

References [1] https://www.sicara.ai/blog/2019-07-30-image-classiﬁcation-few-shot-meta- learning [2] PASCAL VOC 2012, http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html [3]
COCO, http://cocodataset.org [4] FSS-1000, https://github.com/HKUSTCV/FSS-1000 [5] Shaban, Amirreza, et al. "One-shot learning for semantic segmentation." arXiv preprint arXiv:1709.03410 (2017). [6] Zhang, Xiaolin, et al. "Sg-one: Similarity guidance network for one-shot semantic segmentation." arXiv preprint arXiv:1810.09091 (2018). 31

[7] Zhang, Chi, et al. "CANet: Class-Agnostic Segmentation Networks with
Iterative Reﬁnement and Attentive Few-Shot Learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. [8] Wang, Kaixin, et al. "PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment." arXiv preprint arXiv:1908.06391 (2019). 32

One/Few-shot Semantic Segmentation サーベイ

One/Few-shot Semantic Segmentation サーベイ

hei4

More Decks by hei4

Other Decks in Technology

Featured

Transcript