Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
One/Few-shot Semantic Segmentation サーベイ
Search
hei4
June 29, 2023
Technology
0
79
One/Few-shot Semantic Segmentation サーベイ
hei4
June 29, 2023
Tweet
Share
More Decks by hei4
See All by hei4
SciPyとAutogradを使ったバンドル調整
hei4
0
390
Other Decks in Technology
See All in Technology
MySQLのSpatial(GIS)機能をもっと充実させたい ~ MyNA望年会2025LT
sakaik
0
150
20251219 OpenIDファウンデーション・ジャパン紹介 / OpenID Foundation Japan Intro
oidfj
0
520
Entity Framework Core におけるIN句クエリ最適化について
htkym
0
130
AIエージェントを5分で一気におさらい!AIエージェント「構築」元年に備えよう
yakumo
1
110
[2025-12-12]あの日僕が見た胡蝶の夢 〜人の夢は終わらねェ AIによるパフォーマンスチューニングのすゝめ〜
tosite
0
200
Introduce marp-ai-slide-generator
itarutomy
0
140
Keynoteから見るAWSの頭の中
nrinetcom
PRO
1
100
Building Serverless AI Memory with Mastra × AWS
vvatanabe
0
670
ECS_EKS以外の選択肢_ROSA入門_.pdf
masakiokuda
0
110
日本の AI 開発と世界の潮流 / GenAI Development in Japan
hariby
1
560
Cloud WAN MCP Serverから考える新しいネットワーク運用 / 20251228 Masaki Okuda
shift_evolve
PRO
0
110
AIBuildersDay_track_A_iidaxs
iidaxs
4
1.4k
Featured
See All Featured
30 Presentation Tips
portentint
PRO
1
180
ラッコキーワード サービス紹介資料
rakko
0
1.8M
More Than Pixels: Becoming A User Experience Designer
marktimemedia
2
260
Odyssey Design
rkendrick25
PRO
0
440
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
79
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
115
94k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
31
Between Models and Reality
mayunak
0
150
How to build a perfect <img>
jonoalderson
0
4.8k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
32
Joys of Absence: A Defence of Solitary Play
codingconduct
1
260
HDC tutorial
michielstock
1
280
Transcript
One/Few-Shot Semantic Segmentation サーベイ 2019.10.15 hei4 1
Outline 1. One/few-shot semantic segmentation の 問題設定 2. One/few-shot semantic
segmentation の データセット 3. One/few-shot semantic segmentation の 研究 4. One/few-shot semantic segmentation の 評価 2
Outline 1. One/few-shot semantic segmentation の 問題設定 1.1 Semantic Segmentation
1.2 One/Few-Shot learning 1.3 One/Few-Shot segmentation 2. One/few-shot semantic segmentation の データセット 3. One/few-shot semantic segmentation の 研究 4. One/few-shot semantic segmentation の 評価 3
Semantic Segmentation [2] RGB画像 と画素ごとにアノテーションされたラベル のペア を使った教師あり学習。 はクラス数 I ∈
RH×W×3 L ∈ RH×W×C (I, L) C 4
One/few-shot learning 既知クラス で構成された訓練セットで学習し、テストセットで未知クラス について推定するタスク 推定対象の⼊⼒データを Query、アノテーションされた補助データをSupportとい う。(図は[1]より) クラス 個のSupportはN-way
K-shot learningと呼ばれる Cseen Cunseen C K 5
One/few-shot learning X = {(I , L , I );
s ∈ s s q {1, 2, … , K}} L = {l ∈ {1, 2, … , C}} Y = {y∣I ∈ q {1, 2, … , C}} 6
One/few-shot semantic segmentation One/few-shot learningにおいてアノテーション 、出⼒ X = {(I ,
L , I ); s ∈ s s q {1, 2, … , K}} L = {l ; l ∈ (i,j) {1, 2, … , C}} Y = {y ∣I ; y ∈ (i,j) q {1, 2, … , C}} L = {l } (i,j) Y = {y ∣I } (i,j) q 7
Outline 1. One/few-shot semantic segmentation の 問題設定 2. One/few-shot semantic
segmentation の データセット 2.1 PASCAL- (PASCAL VOC 2012) 2.2 MS COCO 2.3 FS-1000 3. One/few-shot semantic segmentation の 研究 4. One/few-shot semantic segmentation の 評価 5i 8
PASCAL- (PASCAL VOC 2012) [2] [6] PSCAL VOC 2012 は20クラス19,740枚の画像データセット
PASCAL- は、PASCAL VOC 2012のクラス別の4-fold cross-validation One/few-shot semantic segmentationのベンチマーク・データセットとしてよく ⽤いられている 5i 5i 9
MS COCO [3] MS COCOは80クラス204,721枚の画像データセット。 One/few-shot learningの論⽂ではCOCOの扱いが、訓練︓検証︓テストを40︓ 20︓20クラスにしたり[7]、20クラスの4-fold cross-varidationであったり[8]と評 価⼿法が統⼀されていないので⽐較には注意すること
10
FS-1000 [4] Few-shot segmentation⽤の1,000クラス10,000枚の画像データセット 各クラス10枚の画像で、画像1枚中のオブジェクトは単⼀クラス 11
Outline 1. One/few-shot semantic segmentation の 問題設定 2. One/few-shot semantic
segmentation の データセット 3. One/few-shot semantic segmentation の 研究 3.1 OSLSM (2017) 3.2 SG-One (2018) 3.3 CA-Net (2019) 3.4 PANet (2019) 4. One/few-shot semantic segmentation の 評価 12
OSLSM (2017) [5] One/few-shot segmentationでSupport, Queryの2-branch構造を導⼊した元祖 以降のOne/few-shot segmentation研究のベースラインとしてよく⽤いられる Support setでFine-tuningするよりも⾼性能であることを⽰した
13
OSLSM (2017) [5] Support画像をマスキングしてオブジェクトのみに絞る Conditioning branchで出⼒したパラメータ を使って、Segmentation branch で出⼒した特徴マップ を変換する
= M ^ q mn σ(w F + T q mn b) w, b Fq 14
OSLSM (2017) [5] をx32にアップサンプリングし、閾値 で2値化して最終出⼒とする Support、Queryそれぞれのbranchで異なるネットワークのため過学習しやすく、 また計算リソースを余分に必要とする。また、Supportの情報を積でQueryに統合す ることは⾼品質なSegmentationを⾏うには不⼗分 [6] M
^ q p 15
SG-One (2018) [6] Supportを直接Queryに作⽤させるのではなく、同⼀のネットワークにSupportと Queryを⼊⼒し、それらの結果の類似性をQueryに作⽤させる SupportとQueryの類似性を⽤いるアイデアは、以降の研究で(形を変えながら)よ く現れる 16
SG-One (2018) [6] Gaidance branchに⼊⼒したSupportとQueryのコサイン類似度マップを、 Segmentation branchの中間に結合する Guidance branchから得たSupportの特徴マップは、Masked Average
Poolingでオ ブジェクト領域で平均したベクトルとして利⽤する。Masked Average Poolingも以 降の研究でよく登場する 17
SG-One (2018) [6] (OSLSMのように)Supportを⼊⼒時にマスキングするより、提案するMasked Average Poolingで特徴マップ時にマスキングした⽅が優良であることを実験で⽰し ている。またMasked Max~よりもMasked Average~の⽅が優良だった 18
CA-Net (2019) [7] DCM(Dense Comparision Module)とICM(Iterative Optimization Module)の2つ を持つ 従来⼿法から⼤幅に精度改善した
19
CA-Net (2019) [7] Masked Average Pooling&アップサンプリングで縮⼩&拡⼤し、Queryに結合 BackboneはSupportとQueryで同⼀のネットワーク(Weight sharing) 20
CA-Net (2019) [7] ASPP(Atrous Spatial Pyramid Pooling)でMulti-scaleな受容野を形成 前ステップの出⼒を再帰的に⼊⼒して、⾼精度な出⼒を得ている。確率 で再帰⼊ ⼒を空にするという⼯夫も
pr 21
CA-Net (2019) [7] IOMの再帰的調整によって精度が向上していることを実験で確認している。ただし IOMの繰り返し回数はハイパーパラメータである模様 22
PANet (2019) [8] 〇: Support △: Query ⻩: 前景 ⻘:
背景 Supportの特徴マップからクラスの"prototype"を定め、Queryの特徴マップと prototypeとの距離で、Queryのクラスを推定する Metric Learningの要素も含んでいる 23
PANet (2019) [8] Support特徴マップをMasked Average Poolingしたものをprototypeとする prototypeとQuery特徴マップのコサイン類似度で距離を測り、最も近いprototype に対応するクラスをQueryのクラスとする 学習時は、推定したQueryのMaskを使⽤してQuery→Supportも⾏い学習に活⽤す る
24
PANet (2019) [8] prototypeとの距離はユークリッド距離でも良いが、コサイン類似度の⽅が安定す る、と記している コサイン類似度にsoftmaxと近しい処理を施し、確率値としてネットワークの出⼒と している。そのためNon-parametric metric learningと位置付けている 25
Outline 1. One/few-shot semantic segmentation の 問題設定 2. One/few-shot semantic
segmentation の データセット 3. One/few-shot semantic segmentation の 研究 4. One/few-shot semantic segmentation の 評価 4.1 mean-IoUとFB-IoU 4.2 本資料で述べた研究の評価結果 26
mean-IoUとFB-IoU 推定結果 とラベル の和集合と積集合の⽐がIoU(Intersection over Union) IOU = ∣Y L∣
⋃ ∣Y L∣ ⋂ 各クラス(前景)のIoUの平均がmean-IoU クラスを無視した前景のIoUと背景のIoUの平均がFB-IoU。FB-IoUはbinary-IoUと も呼ばれる Y L 27
本資料で述べた研究の評価結果 CANetがベストスコア。特に1-shotは頭⼀つ抜けている PASCAL- , mean-IoU (%) Method 1-shot 5-shot OSLSM
40.8 43.9 SG-One 46.3 47.1 CANet 55.4 57.1 PANet 48.1 55.7 5i 28
本資料で述べた研究の評価結果 PANetがベストスコア mean-IoUではCANetが優勢で、FB-IoUではPANetが優勢という状況は、PANetは クラスを誤認した前景を推定したケースがあったか︖Binary Segmentationタスク ならPANetが有利になる可能性︖ PASCAL- , FB-IoU(binary-IoU) (%)
Method 1-shot 5-shot OSLSM 61.3 61.5 SG-One 63.9 65.9 CANet 66.2 69.6 PANet 66.5 70.7 5i 29
総括 現在のOne/few-shot semantic segmentationの⼿法の多くが、Supportも⼊⼒に ⽤いる2-branch構造 SupportとQueryの特徴抽出器はその⼀部を共通、もしくは完全に共通化する流れ 最近の研究はSupportの特徴を直接的にQueryに反映するのではなく、Supportと Queryの類似性を活⽤する傾向にある。コサイン類似度で距離を測る⼿法は多い Supportは⼊⼒時にマスキングするより、特徴マップに対してマスキングする⼿法が よい。特にMasked
Average Poolingは有効 30
References [1] https://www.sicara.ai/blog/2019-07-30-image-classification-few-shot-meta- learning [2] PASCAL VOC 2012, http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html [3]
COCO, http://cocodataset.org [4] FSS-1000, https://github.com/HKUSTCV/FSS-1000 [5] Shaban, Amirreza, et al. "One-shot learning for semantic segmentation." arXiv preprint arXiv:1709.03410 (2017). [6] Zhang, Xiaolin, et al. "Sg-one: Similarity guidance network for one-shot semantic segmentation." arXiv preprint arXiv:1810.09091 (2018). 31
[7] Zhang, Chi, et al. "CANet: Class-Agnostic Segmentation Networks with
Iterative Refinement and Attentive Few-Shot Learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. [8] Wang, Kaixin, et al. "PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment." arXiv preprint arXiv:1908.06391 (2019). 32