Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
One/Few-shot Semantic Segmentation サーベイ
Search
hei4
June 29, 2023
Technology
0
71
One/Few-shot Semantic Segmentation サーベイ
hei4
June 29, 2023
Tweet
Share
More Decks by hei4
See All by hei4
SciPyとAutogradを使ったバンドル調整
hei4
0
320
Other Decks in Technology
See All in Technology
Witchcraft for Memory
pocke
1
630
Amazon Bedrockで実現する 新たな学習体験
kzkmaeda
2
630
MySQL5.6から8.4へ 戦いの記録
kyoshidaxx
1
290
Node-RED × MCP 勉強会 vol.1
1ftseabass
PRO
0
170
論文紹介:LLMDet (CVPR2025 Highlight)
tattaka
0
160
2025-06-26 GitHub CopilotとAI駆動開発:実践と導入のリアル
fl_kawachi
1
190
PHP開発者のためのSOLID原則再入門 #phpcon / PHP Conference Japan 2025
shogogg
4
910
KubeCon + CloudNativeCon Japan 2025 Recap
ren510dev
1
270
Oracle Cloud Infrastructure:2025年6月度サービス・アップデート
oracle4engineer
PRO
2
300
Claude Code Actionを使ったコード品質改善の取り組み
potix2
PRO
6
2.6k
LangChain Interrupt & LangChain Ambassadors meetingレポート
os1ma
2
170
TechLION vol.41~MySQLユーザ会のほうから来ました / techlion41_mysql
sakaik
0
200
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
270
20k
Designing Experiences People Love
moore
142
24k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
How to train your dragon (web standard)
notwaldorf
94
6.1k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Thoughts on Productivity
jonyablonski
69
4.7k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Scaling GitHub
holman
459
140k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.6k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
17
950
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.8k
Transcript
One/Few-Shot Semantic Segmentation サーベイ 2019.10.15 hei4 1
Outline 1. One/few-shot semantic segmentation の 問題設定 2. One/few-shot semantic
segmentation の データセット 3. One/few-shot semantic segmentation の 研究 4. One/few-shot semantic segmentation の 評価 2
Outline 1. One/few-shot semantic segmentation の 問題設定 1.1 Semantic Segmentation
1.2 One/Few-Shot learning 1.3 One/Few-Shot segmentation 2. One/few-shot semantic segmentation の データセット 3. One/few-shot semantic segmentation の 研究 4. One/few-shot semantic segmentation の 評価 3
Semantic Segmentation [2] RGB画像 と画素ごとにアノテーションされたラベル のペア を使った教師あり学習。 はクラス数 I ∈
RH×W×3 L ∈ RH×W×C (I, L) C 4
One/few-shot learning 既知クラス で構成された訓練セットで学習し、テストセットで未知クラス について推定するタスク 推定対象の⼊⼒データを Query、アノテーションされた補助データをSupportとい う。(図は[1]より) クラス 個のSupportはN-way
K-shot learningと呼ばれる Cseen Cunseen C K 5
One/few-shot learning X = {(I , L , I );
s ∈ s s q {1, 2, … , K}} L = {l ∈ {1, 2, … , C}} Y = {y∣I ∈ q {1, 2, … , C}} 6
One/few-shot semantic segmentation One/few-shot learningにおいてアノテーション 、出⼒ X = {(I ,
L , I ); s ∈ s s q {1, 2, … , K}} L = {l ; l ∈ (i,j) {1, 2, … , C}} Y = {y ∣I ; y ∈ (i,j) q {1, 2, … , C}} L = {l } (i,j) Y = {y ∣I } (i,j) q 7
Outline 1. One/few-shot semantic segmentation の 問題設定 2. One/few-shot semantic
segmentation の データセット 2.1 PASCAL- (PASCAL VOC 2012) 2.2 MS COCO 2.3 FS-1000 3. One/few-shot semantic segmentation の 研究 4. One/few-shot semantic segmentation の 評価 5i 8
PASCAL- (PASCAL VOC 2012) [2] [6] PSCAL VOC 2012 は20クラス19,740枚の画像データセット
PASCAL- は、PASCAL VOC 2012のクラス別の4-fold cross-validation One/few-shot semantic segmentationのベンチマーク・データセットとしてよく ⽤いられている 5i 5i 9
MS COCO [3] MS COCOは80クラス204,721枚の画像データセット。 One/few-shot learningの論⽂ではCOCOの扱いが、訓練︓検証︓テストを40︓ 20︓20クラスにしたり[7]、20クラスの4-fold cross-varidationであったり[8]と評 価⼿法が統⼀されていないので⽐較には注意すること
10
FS-1000 [4] Few-shot segmentation⽤の1,000クラス10,000枚の画像データセット 各クラス10枚の画像で、画像1枚中のオブジェクトは単⼀クラス 11
Outline 1. One/few-shot semantic segmentation の 問題設定 2. One/few-shot semantic
segmentation の データセット 3. One/few-shot semantic segmentation の 研究 3.1 OSLSM (2017) 3.2 SG-One (2018) 3.3 CA-Net (2019) 3.4 PANet (2019) 4. One/few-shot semantic segmentation の 評価 12
OSLSM (2017) [5] One/few-shot segmentationでSupport, Queryの2-branch構造を導⼊した元祖 以降のOne/few-shot segmentation研究のベースラインとしてよく⽤いられる Support setでFine-tuningするよりも⾼性能であることを⽰した
13
OSLSM (2017) [5] Support画像をマスキングしてオブジェクトのみに絞る Conditioning branchで出⼒したパラメータ を使って、Segmentation branch で出⼒した特徴マップ を変換する
= M ^ q mn σ(w F + T q mn b) w, b Fq 14
OSLSM (2017) [5] をx32にアップサンプリングし、閾値 で2値化して最終出⼒とする Support、Queryそれぞれのbranchで異なるネットワークのため過学習しやすく、 また計算リソースを余分に必要とする。また、Supportの情報を積でQueryに統合す ることは⾼品質なSegmentationを⾏うには不⼗分 [6] M
^ q p 15
SG-One (2018) [6] Supportを直接Queryに作⽤させるのではなく、同⼀のネットワークにSupportと Queryを⼊⼒し、それらの結果の類似性をQueryに作⽤させる SupportとQueryの類似性を⽤いるアイデアは、以降の研究で(形を変えながら)よ く現れる 16
SG-One (2018) [6] Gaidance branchに⼊⼒したSupportとQueryのコサイン類似度マップを、 Segmentation branchの中間に結合する Guidance branchから得たSupportの特徴マップは、Masked Average
Poolingでオ ブジェクト領域で平均したベクトルとして利⽤する。Masked Average Poolingも以 降の研究でよく登場する 17
SG-One (2018) [6] (OSLSMのように)Supportを⼊⼒時にマスキングするより、提案するMasked Average Poolingで特徴マップ時にマスキングした⽅が優良であることを実験で⽰し ている。またMasked Max~よりもMasked Average~の⽅が優良だった 18
CA-Net (2019) [7] DCM(Dense Comparision Module)とICM(Iterative Optimization Module)の2つ を持つ 従来⼿法から⼤幅に精度改善した
19
CA-Net (2019) [7] Masked Average Pooling&アップサンプリングで縮⼩&拡⼤し、Queryに結合 BackboneはSupportとQueryで同⼀のネットワーク(Weight sharing) 20
CA-Net (2019) [7] ASPP(Atrous Spatial Pyramid Pooling)でMulti-scaleな受容野を形成 前ステップの出⼒を再帰的に⼊⼒して、⾼精度な出⼒を得ている。確率 で再帰⼊ ⼒を空にするという⼯夫も
pr 21
CA-Net (2019) [7] IOMの再帰的調整によって精度が向上していることを実験で確認している。ただし IOMの繰り返し回数はハイパーパラメータである模様 22
PANet (2019) [8] 〇: Support △: Query ⻩: 前景 ⻘:
背景 Supportの特徴マップからクラスの"prototype"を定め、Queryの特徴マップと prototypeとの距離で、Queryのクラスを推定する Metric Learningの要素も含んでいる 23
PANet (2019) [8] Support特徴マップをMasked Average Poolingしたものをprototypeとする prototypeとQuery特徴マップのコサイン類似度で距離を測り、最も近いprototype に対応するクラスをQueryのクラスとする 学習時は、推定したQueryのMaskを使⽤してQuery→Supportも⾏い学習に活⽤す る
24
PANet (2019) [8] prototypeとの距離はユークリッド距離でも良いが、コサイン類似度の⽅が安定す る、と記している コサイン類似度にsoftmaxと近しい処理を施し、確率値としてネットワークの出⼒と している。そのためNon-parametric metric learningと位置付けている 25
Outline 1. One/few-shot semantic segmentation の 問題設定 2. One/few-shot semantic
segmentation の データセット 3. One/few-shot semantic segmentation の 研究 4. One/few-shot semantic segmentation の 評価 4.1 mean-IoUとFB-IoU 4.2 本資料で述べた研究の評価結果 26
mean-IoUとFB-IoU 推定結果 とラベル の和集合と積集合の⽐がIoU(Intersection over Union) IOU = ∣Y L∣
⋃ ∣Y L∣ ⋂ 各クラス(前景)のIoUの平均がmean-IoU クラスを無視した前景のIoUと背景のIoUの平均がFB-IoU。FB-IoUはbinary-IoUと も呼ばれる Y L 27
本資料で述べた研究の評価結果 CANetがベストスコア。特に1-shotは頭⼀つ抜けている PASCAL- , mean-IoU (%) Method 1-shot 5-shot OSLSM
40.8 43.9 SG-One 46.3 47.1 CANet 55.4 57.1 PANet 48.1 55.7 5i 28
本資料で述べた研究の評価結果 PANetがベストスコア mean-IoUではCANetが優勢で、FB-IoUではPANetが優勢という状況は、PANetは クラスを誤認した前景を推定したケースがあったか︖Binary Segmentationタスク ならPANetが有利になる可能性︖ PASCAL- , FB-IoU(binary-IoU) (%)
Method 1-shot 5-shot OSLSM 61.3 61.5 SG-One 63.9 65.9 CANet 66.2 69.6 PANet 66.5 70.7 5i 29
総括 現在のOne/few-shot semantic segmentationの⼿法の多くが、Supportも⼊⼒に ⽤いる2-branch構造 SupportとQueryの特徴抽出器はその⼀部を共通、もしくは完全に共通化する流れ 最近の研究はSupportの特徴を直接的にQueryに反映するのではなく、Supportと Queryの類似性を活⽤する傾向にある。コサイン類似度で距離を測る⼿法は多い Supportは⼊⼒時にマスキングするより、特徴マップに対してマスキングする⼿法が よい。特にMasked
Average Poolingは有効 30
References [1] https://www.sicara.ai/blog/2019-07-30-image-classification-few-shot-meta- learning [2] PASCAL VOC 2012, http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html [3]
COCO, http://cocodataset.org [4] FSS-1000, https://github.com/HKUSTCV/FSS-1000 [5] Shaban, Amirreza, et al. "One-shot learning for semantic segmentation." arXiv preprint arXiv:1709.03410 (2017). [6] Zhang, Xiaolin, et al. "Sg-one: Similarity guidance network for one-shot semantic segmentation." arXiv preprint arXiv:1810.09091 (2018). 31
[7] Zhang, Chi, et al. "CANet: Class-Agnostic Segmentation Networks with
Iterative Refinement and Attentive Few-Shot Learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. [8] Wang, Kaixin, et al. "PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment." arXiv preprint arXiv:1908.06391 (2019). 32