Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CVPR2024論文紹介:Segmentation
Search
hinako0123
July 20, 2024
Research
0
240
CVPR2024論文紹介:Segmentation
hinako0123
July 20, 2024
Tweet
Share
More Decks by hinako0123
See All by hinako0123
ECCV2024論文紹介:Vision & Language
hinako0123
0
100
ECCV2024論文紹介:Continual learning, Object detection
hinako0123
0
140
ECCV2024論文紹介:SAM
hinako0123
0
120
ECCV2024現地参加報告
hinako0123
0
120
CVPR2024論文紹介:Sparse Training, Continual learning, Object detection
hinako0123
0
220
CVPR2024現地参加報告
hinako0123
0
150
Other Decks in Research
See All in Research
Transparency to sustain open science infrastructure - Printemps Couperin
mlarrieu
1
170
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
1.4k
数理最適化と機械学習の融合
mickey_kubo
15
8.8k
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
5.7k
Vision And Languageモデルにおける異なるドメインでの継続事前学習が性能に与える影響の検証 / YANS2024
sansan_randd
1
110
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
280
rtrec@dbem6
myui
6
860
VAGeo: View-specific Attention for Cross-View Object Geo-Localization
satai
3
380
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
420
Adaptive fusion of multi-modal remote sensing data for optimal sub-field crop yield prediction
satai
3
210
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
990
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
950
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
For a Future-Friendly Web
brad_frost
179
9.8k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Unsuck your backbone
ammeep
671
58k
Side Projects
sachag
455
42k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.5k
Gamification - CAS2011
davidbonilla
81
5.3k
Building an army of robots
kneath
306
45k
Done Done
chrislema
184
16k
Why Our Code Smells
bkeepers
PRO
337
57k
Transcript
名古屋CV・PRML勉強会 名城大学 堀田研究室 M1 光岡日菜子 2024/7/20 1
自己紹介 名前:光岡日菜子 - 名城大学 理工学研究科 電気電子工学専攻 M1 - 堀田研究室所属 趣味:MT車/イラスト制作/SNS運営
研究:スタイル変換/Segmentation 2024/7/20 2
• CVPR2024論文紹介(segmentation系) ① Open-Set Domain Adaptation for Semantic Segmentation ②
Frequency-Adaptive Dilated Convolution for Semantic Segmentation 今日話すこと 2024/7/20 3
Open-Set Domain Adaptation for Semantic Segmentation Seun-An Choe, Ah-Hyung Shin,
Keon-Hee Park, Jinwoo Choi, Gyeong-Moon Park, Kyung Hee University, Yongin, Republic of Korea 2024/7/20 4
• 新たなシナリオ:OSDA-SSを提案 • Targetドメインに未知のクラスが出現する場合を想定 • 未知クラスに対応する手法:BUSを提案 どんな論文? 2024/7/20 5 白色:
Targetドメイ ンにのみ含ま れるクラス
Open-Set Domain Adaptation for Semantic Segmentation ・Unsupervised Domain Adaptationの一種 ラベル有Sourceで学習→ラベル無Targetで推論
・Targetドメインに未知のクラスが出現する OSDA-SS 2024/7/20 6 Source Target(白:未知クラス) 対応できない…
境界付近の確信度の低さ ・Targetのみに出現するクラスではより顕著 未知クラスの形状を正確に予測できない ・サイズに関係なく同じ物体では一貫した予測をしてほしい ・サイズでなく形状に注目させる機構が必要 従来法をOSDA-SSに適用した際の問題点 2024/7/20 7
BUS(Boundary and Unknown Shape-Aware) ①学習段階から未知クラス用のHeadを用意 ②DECON Loss ③OpenReMix 提案手法 2024/7/20
8
head-expansion baseline ①分類ヘッドを拡張しSourceドメインで学習 ℒ𝑠𝑒𝑔 𝑠 = − σ 𝑗=1 𝐻∙𝑊
σ𝑐=1 𝐶+1 𝑦𝑠 (𝑗,𝑐) log 𝑓𝜃 𝑥𝑠 (𝑗,𝑐) ②Targetドメイン用の疑似ラベル生成 ො 𝑦 𝑡𝑝 (𝑗) = ൝ 𝑐′, if (max 𝑐′ 𝑔𝜙 𝑥𝑡 (𝑗,𝑐) ≥ 𝜏𝑝 ) 𝐶 + 1, othetwise 𝑐′:既知クラス 𝜏𝑝 :信頼度閾値 学習の流れ 2024/7/20 9 1
③疑似ラベルの信頼度を用いたTargetドメインによる学習 ℒ𝑠𝑒𝑔 𝑡 = − σ 𝑗=1 𝐻∙𝑊 σ𝑐=1 𝐶+1
𝑞𝑡 ො 𝑦 𝑡𝑝 (𝑗,𝑐) log 𝑓𝜃 𝑥𝑡 (𝑗,𝑐) 𝑞𝑡 :疑似ラベルの信頼度 ④ 𝑔𝜙 をEMAにより更新 𝜙𝑡+1 = 𝛼𝜙𝑡 + 1 − 𝛼 𝜃𝑡 疑似ラベルの品質を担保 学習の流れ 2024/7/20 10 1
未知クラスの境界識別に特化 ①疑似ラベルから未知クラスのMaskを作る 𝑀𝑢 (𝑗) = ൝ 1, if ො 𝑦
𝑡𝑝 (𝑗) = 𝐶 + 1 0, othetwise ②膨張/侵食加工 𝑀𝑁 = ℎ𝑑𝑖𝑙𝑎𝑡𝑖𝑜𝑛 𝑀𝑢 ′ − 𝑀𝑢 ′ 𝑀𝑃 = ℎ𝑒𝑟𝑜𝑠𝑖𝑜𝑛 𝑀𝑢 ′ 𝑀𝑢 ′ = 𝑟(𝑀𝑢 ):random crop Dilation-Erosion-based Contrastive Loss(DECON) 2024/7/20 11 2
③Contrastive Loss 𝑧𝑖 = avg 𝑀𝑃 ⊙ 𝑓𝜃 𝑥𝑡 𝑧𝑗
= 𝑀𝑃 ⊙ 𝑓𝜃 𝑥𝑡 𝑧𝑘 = 𝑀𝑁 ⊙ 𝑓𝜃 𝑥𝑡 ℒ𝐷𝐸𝐶𝑂𝑁 = − log[σ 𝑝=1 𝑁𝑝 exp(𝑧𝑖 ∙ 𝑧 𝑗 𝑝/𝜏)/ σ 𝑛=1 𝑁𝑛 exp(𝑧𝑖 ∙ 𝑧𝑘 𝑛/𝜏)] 既知クラス/未知クラスの境界の明確化に寄与 Dilation-Erosion-based Contrastive Loss(DECON) 2024/7/20 12 2
サイズ不変の特徴学習 ①Resizing Object Sourceドメインからランダムに物体クラスを 選択→resizeしてTargetドメインに貼る ②Attaching Private Targetドメインから未知クラスと予測された 部分をSourceドメインに貼る OpenReMix
2024/7/20 13 3
事前準備 2024/7/20 14 Targetドメインにのみ存在するクラスの作成 ・「物体」クラスからいくつか選択しSourceドメインから削除 ・削除したクラスはignoreし学習しないようにする 評価指標:H-Score ・既知クラスと未知クラスのIoUの調和平均
実験結果 2024/7/20 15
実験結果 2024/7/20 16
実験結果 2024/7/20 17
実験結果 2024/7/20 18
Frequency-Adaptive Dilated Convolution for Semantic Segmentation Linwei Chen, Lin Gu,
Ying Fu, Beijing Institute of Technology, RIKEN, The University of Tokyo 2024/7/20 19
• FADC(Frequency-Adaptive Dilated Convolution)の提案 • Dilated Convの膨張率を動的に調整 • PIDNet-Mに導入:81.0mIoU+37.7fps(SOTA) •
Dilated Attention/Deformable Convにも適用可能 どんな論文? 2024/7/20 20 Patch1:高周波情報 →膨張率小 Patch2:低周波情報 →膨張率大
Dilated Convolution ・畳み込み+膨張率(固定値) 計算コストを抑えつつ受容野を拡大 問題点 ・膨張率を1からDに増加させると 帯域幅が1/Dに ・高周波成分の処理能力が制限 従来法及びその問題点 2024/7/20
21
FADC(Frequency-Adaptive Dilated Convolution) ①AdaDR ②AdaKern ③FreqSelect スペクトル解析の観点から従来法を強化 膨張率を動的に調整 提案手法 2024/7/20
22 3Moduleで構成
空間的に膨張率を調整 ・領域毎の周波数成分に基づき膨張率を調整 ①特徴マップを離散フーリエ変換(DFT) 𝑿𝐹 𝑢, 𝑣 = 1 𝐻𝑊
ℎ=0 𝐻−1 𝑤=0 𝑊−1 𝑿 ℎ, 𝑤 𝑒−2𝜋𝑗(𝑢ℎ+𝑣𝑤) 高周波成分が多い領域と少ない領域を識別 膨張率の最適化に使用 Adaptive Dilation Rate (AdaDR) 2024/7/20 23 1
②画素毎に異なる膨張率を適用 𝒀 𝑝 = σ 𝑖=1 𝐾×𝐾 𝑾𝑖 𝑿(𝑝 +
Δ𝑝𝑖 × 𝑫(𝑝)) 高周波多:膨張率小 高周波少:膨張率大 ・最適化関数 𝜃 = max 𝜃 𝑝∈𝐻𝑃− 𝑫(𝑝) − 𝑝∈𝐻𝑃+ 𝑫(𝑝) 𝐇𝐏 𝑝 :σ ℋ 𝑫(𝒑) + 𝑿 𝐹 𝑝,𝑠 𝑢, 𝑣 2 Adaptive Dilation Rate (AdaDR) 2024/7/20 24 1
Adaptive Kernel (AdaKern) 2024/7/20 25 畳み込み層の重みを操作 ・重みを動的に特徴マップの周波数成分に適応させる ①畳み込み層の重みを高周波/低周波成分に分割 𝑾 =
𝑾𝑙 + 𝑾ℎ 2
Adaptive Kernel (AdaKern) 2024/7/20 26 ②分解された重みに動的な重みを乗算 𝑾′ = 𝜆𝑙 𝑾𝑙
+ 𝜆ℎ 𝑾ℎ 高周波成分と低周波成分をバランスよく捕捉 2
Frequency Selection (FreqSelect) 2024/7/20 27 入力特徴量の高周波/低周波成分のバランス調整 ①異なる周波数帯に分解 𝑿𝑏 = ℱ−1
ℳ𝑏 𝑿𝐹 ℳ𝑏 :BPF(閾値毎にB+1分割) ②周波数帯域毎に重みづけ 𝑿 𝑖, 𝑗 = σ𝑏=0 𝐵−1 𝑨𝑏 𝑖, 𝑗 ∙ 𝑿𝑏 (𝑖, 𝑗) 3
実験結果 28 2024/7/20
実験結果 29 2024/7/20
実験結果 30 2024/7/20
実験結果 31 2024/7/20