[Journal Club]Label-efficient semantic segmentation with diffusion models

LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS Dmitry Baranchuk, Ivan Rubachev,
Andrey Voynov, Valentin Khrulkov, Artem Babenko Yandex Research, ICLR2022 慶應義塾大学杉浦孔明研究室飯岡雄偉 Baranchuk, D., Rubachev, I., Voynov, A., Khrulkov, V., & Babenko, A. “ Label-efficient semantic segmentation with diffusion models.” ICLR2022

概要：拡散モデルをsemantic segmentationに応用 • 拡散モデルの顕著な発展 – Semantic segmentationタスクにも応用できるのでは？ • 拡散モデルが有効な表現学習器となりうるのか検証 •
多様な条件での実験により効率の良い特徴量抽出を試みる – 特定のドメインにおいてSoTAを達成 • 複雑なドメインについては将来研究 2

背景：拡散モデルの概要 • Forward Step（拡散過程） – 入力画像にガウシアンノイズを徐々に加えていく – マルコフ性を持つ • ひとつ前の時刻のみによって出力が決定する
– ここでは学習は行われない • Reverse Step（逆拡散過程） – ノイズを取り除いて，元画像を復元していく • マルコフ連鎖に基づく – この過程で学習していく 3

背景：拡散モデルの概要 4 • Forward Step（拡散過程） • 計算過程・学習方法は，同研究室の過去の輪講資料を参考 – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models 正規分布によって
𝑥𝑡 が決定 𝛽𝑡 ：ノイズの強さ(0~1) 任意の𝑥𝑡 を閉形式で表現 ⇒計算の簡略化

背景：拡散モデルの概要 5 • Reverse Step（逆拡散過程） – 共分散行列は固定のスカラー値でもよいが，学習させるとより良い性能となることが報告されている[Nichol+, ICML21] •
計算過程・学習方法は，同研究室の過去の輪講資料を参考 – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models

背景：拡散モデルのvision taskへの応用例 • Super resolution[Saharia+, 2021] 6 • Inpainting[Yang+, ICLR21]
• Semantic editing[Meng+, ICLR22]

提案手法：モデル構造 7 Forward Step Reverse Step クラス推定

提案手法：U-Net[Ronnebeger+, MICCAI15]の構造 • Reverse Step – Denoiseされた画像ではなく，画像に加えられているノイズを推測 • DDPM[Ho+,
NeurIPS20]で性能向上を報告 – 中間層の出力にsegmentに関する情報が含まれていると仮定 – 各層の深さ・time stepごとに特徴量の抽出を行う • どの特徴量を用いると効率が良いかを比較 8

提案手法：条件ごとに出力 • クラス推定 – Reverse Stepで得られた各特徴量をconcat • 8448次元 • 本実験では｛B6,
B8, B10, B12}の出力を基本的に利用 – 数字が大きいほど深い層 – 各pixelをMLPに入力してクラス分類 • この際，異なるtime stepごとに出力 – 基本は｛50, 200, 400, 600, 800｝ – 上記の中からクラスを選択 9

実験設定：各ドメインごとに学習 • 学習方法 – ラベルなし画像でpretrain -> 再構成 – ラベルあり画像で転移学習 •
データセット – LSUN[Yu+, 2015], FFHQ[Karras+, CVPR19] • 学習時間 – 記述なし • 256×256の50枚画像の学習に210GBのRAM使用 10 https://github.com/NVlabs/ffhq-dataset

定量的結果：各データセットで最良の性能 • mean IoUによって評価 11 Pretrain時とデータセットが異なる

定性的結果：各データセットで高い性能 12 • ピクセル単位でのクラス分類

まとめ：拡散モデルをsemantic segmentationに応用 • 拡散モデルの顕著な発展 – Semantic segmentationタスクにも応用できるのでは？ • 拡散モデルが有効な表現学習器となりうるのか検証 •
多様な条件での実験により効率の良い特徴量抽出を試みる – 特定のドメインにおいてSoTAを達成 • 複雑なドメインについては将来研究 13

Appendix：各層の深さ・time stepごとの性能[定量] • 小さいtime step = Reverse Stepの後半での評価が高い • 真ん中に位置するBlockほど高性能
14

Appendix：各層の深さ・time stepごとの性能[定性] • 小さいtime step = Reverse Stepの後半での評価が高い • 真ん中に位置するBlockほど高性能
15

[Journal Club]Label-efficient semantic segmenta...

[Journal Club]Label-efficient semantic segmentation with diffusion models

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS Dmitry Baranchuk, Ivan Rubachev,

概要：拡散モデルをsemantic segmentationに応用 • 拡散モデルの顕著な発展 – Semantic segmentationタスクにも応用できるのでは？ • 拡散モデルが有効な表現学習器となりうるのか検証 •

背景：拡散モデルの概要 • Forward Step（拡散過程） – 入力画像にガウシアンノイズを徐々に加えていく – マルコフ性を持つ • ひとつ前の時刻のみによって出力が決定する

背景：拡散モデルの概要 4 • Forward Step（拡散過程） • 計算過程・学習方法は，同研究室の過去の輪講資料を参考 – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models 正規分布によって

背景：拡散モデルの概要 5 • Reverse Step（逆拡散過程） – 共分散行列は固定のスカラー値でもよいが，学習させるとより良い性能となることが報告されている[Nichol+, ICML21] •

背景：拡散モデルのvision taskへの応用例 • Super resolution[Saharia+, 2021] 6 • Inpainting[Yang+, ICLR21]

提案手法：モデル構造 7 Forward Step Reverse Step クラス推定

提案手法：U-Net[Ronnebeger+, MICCAI15]の構造 • Reverse Step – Denoiseされた画像ではなく，画像に加えられているノイズを推測 • DDPM[Ho+,

提案手法：条件ごとに出力 • クラス推定 – Reverse Stepで得られた各特徴量をconcat • 8448次元 • 本実験では｛B6,

実験設定：各ドメインごとに学習 • 学習方法 – ラベルなし画像でpretrain -> 再構成 – ラベルあり画像で転移学習 •

定量的結果：各データセットで最良の性能 • mean IoUによって評価 11 Pretrain時とデータセットが異なる

定性的結果：各データセットで高い性能 12 • ピクセル単位でのクラス分類

まとめ：拡散モデルをsemantic segmentationに応用 • 拡散モデルの顕著な発展 – Semantic segmentationタスクにも応用できるのでは？ • 拡散モデルが有効な表現学習器となりうるのか検証 •

Appendix：各層の深さ・time stepごとの性能[定量] • 小さいtime step = Reverse Stepの後半での評価が高い • 真ん中に位置するBlockほど高性能

Appendix：各層の深さ・time stepごとの性能[定性] • 小さいtime step = Reverse Stepの後半での評価が高い • 真ん中に位置するBlockほど高性能