[Journal Club]Label-efficient semantic segmentation with diffusion models

Slide 1

Slide 1 text

LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS Dmitry Baranchuk, Ivan Rubachev, Andrey Voynov, Valentin Khrulkov, Artem Babenko Yandex Research, ICLR2022 慶應義塾大学杉浦孔明研究室飯岡雄偉 Baranchuk, D., Rubachev, I., Voynov, A., Khrulkov, V., & Babenko, A. “ Label-efficient semantic segmentation with diffusion models.” ICLR2022

Slide 2

Slide 2 text

概要：拡散モデルをsemantic segmentationに応用 • 拡散モデルの顕著な発展 – Semantic segmentationタスクにも応用できるのでは？ • 拡散モデルが有効な表現学習器となりうるのか検証 • 多様な条件での実験により効率の良い特徴量抽出を試みる – 特定のドメインにおいてSoTAを達成 • 複雑なドメインについては将来研究 2

Slide 3

Slide 3 text

背景：拡散モデルの概要 • Forward Step（拡散過程） – 入力画像にガウシアンノイズを徐々に加えていく – マルコフ性を持つ • ひとつ前の時刻のみによって出力が決定する – ここでは学習は行われない • Reverse Step（逆拡散過程） – ノイズを取り除いて，元画像を復元していく • マルコフ連鎖に基づく – この過程で学習していく 3

Slide 4

Slide 4 text

背景：拡散モデルの概要 4 • Forward Step（拡散過程） • 計算過程・学習方法は，同研究室の過去の輪講資料を参考 – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models 正規分布によって 𝑥𝑡 が決定 𝛽𝑡 ：ノイズの強さ(0~1) 任意の𝑥𝑡 を閉形式で表現 ⇒計算の簡略化

Slide 5

Slide 5 text

背景：拡散モデルの概要 5 • Reverse Step（逆拡散過程） – 共分散行列は固定のスカラー値でもよいが，学習させるとより良い性能となることが報告されている[Nichol+, ICML21] • 計算過程・学習方法は，同研究室の過去の輪講資料を参考 – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models

Slide 6

Slide 6 text

背景：拡散モデルのvision taskへの応用例 • Super resolution[Saharia+, 2021] 6 • Inpainting[Yang+, ICLR21] • Semantic editing[Meng+, ICLR22]

Slide 7

Slide 7 text

提案手法：モデル構造 7 Forward Step Reverse Step クラス推定

Slide 8

Slide 8 text

提案手法：U-Net[Ronnebeger+, MICCAI15]の構造 • Reverse Step – Denoiseされた画像ではなく，画像に加えられているノイズを推測 • DDPM[Ho+, NeurIPS20]で性能向上を報告 – 中間層の出力にsegmentに関する情報が含まれていると仮定 – 各層の深さ・time stepごとに特徴量の抽出を行う • どの特徴量を用いると効率が良いかを比較 8

Slide 9

Slide 9 text

提案手法：条件ごとに出力 • クラス推定 – Reverse Stepで得られた各特徴量をconcat • 8448次元 • 本実験では｛B6, B8, B10, B12}の出力を基本的に利用 – 数字が大きいほど深い層 – 各pixelをMLPに入力してクラス分類 • この際，異なるtime stepごとに出力 – 基本は｛50, 200, 400, 600, 800｝ – 上記の中からクラスを選択 9

Slide 10

Slide 10 text

実験設定：各ドメインごとに学習 • 学習方法 – ラベルなし画像でpretrain -> 再構成 – ラベルあり画像で転移学習 • データセット – LSUN[Yu+, 2015], FFHQ[Karras+, CVPR19] • 学習時間 – 記述なし • 256×256の50枚画像の学習に210GBのRAM使用 10 https://github.com/NVlabs/ffhq-dataset

Slide 11

Slide 11 text

定量的結果：各データセットで最良の性能 • mean IoUによって評価 11 Pretrain時とデータセットが異なる

Slide 12

Slide 12 text

定性的結果：各データセットで高い性能 12 • ピクセル単位でのクラス分類

Slide 13

Slide 13 text

まとめ：拡散モデルをsemantic segmentationに応用 • 拡散モデルの顕著な発展 – Semantic segmentationタスクにも応用できるのでは？ • 拡散モデルが有効な表現学習器となりうるのか検証 • 多様な条件での実験により効率の良い特徴量抽出を試みる – 特定のドメインにおいてSoTAを達成 • 複雑なドメインについては将来研究 13

Slide 14

Slide 14 text

Appendix：各層の深さ・time stepごとの性能[定量] • 小さいtime step = Reverse Stepの後半での評価が高い • 真ん中に位置するBlockほど高性能 14

Slide 15

Slide 15 text

Appendix：各層の深さ・time stepごとの性能[定性] • 小さいtime step = Reverse Stepの後半での評価が高い • 真ん中に位置するBlockほど高性能 15