Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal Club]Label-efficient semantic segmenta...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
December 15, 2022
Technology
0
410
[Journal Club]Label-efficient semantic segmentation with diffusion models
Semantic Machine Intelligence Lab., Keio Univ.
PRO
December 15, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
50
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
150
[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation
keio_smilab
PRO
0
92
[RSJ25] Multilingual Scene Text-Aware Multimodal Retrieval for Everyday Objects Based on Deep State Space Models
keio_smilab
PRO
0
96
[RSJ25] Everyday Object Manipulation Based on Scene Text-Aware Multimodal Retrieval
keio_smilab
PRO
1
78
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
140
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
65
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
60
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
29
Other Decks in Technology
See All in Technology
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
14k
Digitization部 紹介資料
sansan33
PRO
1
5.6k
AWS Top Engineer、浮いてませんか? / As an AWS Top Engineer, Are You Out of Place?
yuj1osm
2
220
Performance Insights 廃止から Database Insights 利用へ/transition-from-performance-insights-to-database-insights
emiki
0
310
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
8.8k
セキュアな認可付きリモートMCPサーバーをAWSマネージドサービスでつくろう! / Let's build an OAuth protected remote MCP server based on AWS managed services
kaminashi
3
350
Wasmのエコシステムを使った ツール作成方法
askua
0
220
防災デジタル分野での官民共創の取り組み (2)DIT/CCとD-CERTについて
ditccsugii
0
310
FinOps について (ちょっと) 本気出して考えてみた
skmkzyk
0
110
Claude Code Subagents 再入門 ~cc-sddの実装で学んだこと~
gotalab555
10
16k
Claude Codeを駆使した初めてのiOSアプリ開発 ~ゼロから3週間でグローバルハッカソンで入賞するまで~
oikon48
10
4.9k
OpenTelemetry が拡げる Gemini CLI の可観測性
phaya72
1
170
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.6k
Side Projects
sachag
455
43k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.7k
How to Ace a Technical Interview
jacobian
280
24k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
115
20k
Building Adaptive Systems
keathley
44
2.8k
Optimizing for Happiness
mojombo
379
70k
Visualization
eitanlees
149
16k
The Language of Interfaces
destraynor
162
25k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
190
55k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Transcript
LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS Dmitry Baranchuk, Ivan Rubachev,
Andrey Voynov, Valentin Khrulkov, Artem Babenko Yandex Research, ICLR2022 慶應義塾大学 杉浦孔明研究室 飯岡雄偉 Baranchuk, D., Rubachev, I., Voynov, A., Khrulkov, V., & Babenko, A. “ Label-efficient semantic segmentation with diffusion models.” ICLR2022
概要:拡散モデルをsemantic segmentationに応用 • 拡散モデルの顕著な発展 – Semantic segmentationタスクにも応用できるのでは? • 拡散モデルが有効な表現学習器となりうるのか検証 •
多様な条件での実験により効率の良い特徴量抽出を試みる – 特定のドメインにおいてSoTAを達成 • 複雑なドメインについては将来研究 2
背景:拡散モデルの概要 • Forward Step(拡散過程) – 入力画像にガウシアンノイズを徐々に加えていく – マルコフ性を持つ • ひとつ前の時刻のみによって出力が決定する
– ここでは学習は行われない • Reverse Step(逆拡散過程) – ノイズを取り除いて,元画像を復元していく • マルコフ連鎖に基づく – この過程で学習していく 3
背景:拡散モデルの概要 4 • Forward Step(拡散過程) • 計算過程・学習方法は,同研究室の過去の輪講資料を参考 – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models 正規分布によって
𝑥𝑡 が決定 𝛽𝑡 :ノイズの強さ(0~1) 任意の𝑥𝑡 を閉形式で表現 ⇒計算の簡略化
背景:拡散モデルの概要 5 • Reverse Step(逆拡散過程) – 共分散行列は固定のスカラー値でもよいが,学習させるとより良い性能 となることが報告されている[Nichol+, ICML21] •
計算過程・学習方法は,同研究室の過去の輪講資料を参考 – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models
背景:拡散モデルのvision taskへの応用例 • Super resolution[Saharia+, 2021] 6 • Inpainting[Yang+, ICLR21]
• Semantic editing[Meng+, ICLR22]
提案手法:モデル構造 7 Forward Step Reverse Step クラス推定
提案手法:U-Net[Ronnebeger+, MICCAI15]の構造 • Reverse Step – Denoiseされた画像ではなく,画像に加えられてい るノイズを推測 • DDPM[Ho+,
NeurIPS20]で性能向上を報告 – 中間層の出力にsegmentに関する情報が含まれて いると仮定 – 各層の深さ・time stepごとに特徴量の抽出を行う • どの特徴量を用いると効率が良いかを比較 8
提案手法:条件ごとに出力 • クラス推定 – Reverse Stepで得られた各特徴量をconcat • 8448次元 • 本実験では{B6,
B8, B10, B12}の出力を基本的 に利用 – 数字が大きいほど深い層 – 各pixelをMLPに入力してクラス分類 • この際,異なるtime stepごとに出力 – 基本は{50, 200, 400, 600, 800} – 上記の中からクラスを選択 9
実験設定:各ドメインごとに学習 • 学習方法 – ラベルなし画像でpretrain -> 再構成 – ラベルあり画像で転移学習 •
データセット – LSUN[Yu+, 2015], FFHQ[Karras+, CVPR19] • 学習時間 – 記述なし • 256×256の50枚画像の学習に210GBのRAM使用 10 https://github.com/NVlabs/ffhq-dataset
定量的結果:各データセットで最良の性能 • mean IoUによって評価 11 Pretrain時とデータセット が異なる
定性的結果:各データセットで高い性能 12 • ピクセル単位でのクラス分類
まとめ:拡散モデルをsemantic segmentationに応用 • 拡散モデルの顕著な発展 – Semantic segmentationタスクにも応用できるのでは? • 拡散モデルが有効な表現学習器となりうるのか検証 •
多様な条件での実験により効率の良い特徴量抽出を試みる – 特定のドメインにおいてSoTAを達成 • 複雑なドメインについては将来研究 13
Appendix:各層の深さ・time stepごとの性能[定量] • 小さいtime step = Reverse Stepの後半での評価が高い • 真ん中に位置するBlockほど高性能
14
Appendix:各層の深さ・time stepごとの性能[定性] • 小さいtime step = Reverse Stepの後半での評価が高い • 真ん中に位置するBlockほど高性能
15