Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]Label-efficient semantic segmentation with diffusion models

[Journal Club]Label-efficient semantic segmentation with diffusion models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. LABEL-EFFICIENT SEMANTIC
    SEGMENTATION WITH DIFFUSION MODELS
    Dmitry Baranchuk, Ivan Rubachev, Andrey Voynov, Valentin Khrulkov, Artem Babenko
    Yandex Research, ICLR2022
    慶應義塾大学 杉浦孔明研究室
    飯岡雄偉
    Baranchuk, D., Rubachev, I., Voynov, A., Khrulkov, V., & Babenko, A. “ Label-efficient semantic segmentation with diffusion models.” ICLR2022

    View Slide

  2. 概要:拡散モデルをsemantic segmentationに応用
    • 拡散モデルの顕著な発展
    – Semantic segmentationタスクにも応用できるのでは?
    • 拡散モデルが有効な表現学習器となりうるのか検証
    • 多様な条件での実験により効率の良い特徴量抽出を試みる
    – 特定のドメインにおいてSoTAを達成
    • 複雑なドメインについては将来研究
    2

    View Slide

  3. 背景:拡散モデルの概要
    • Forward Step(拡散過程)
    – 入力画像にガウシアンノイズを徐々に加えていく
    – マルコフ性を持つ
    • ひとつ前の時刻のみによって出力が決定する
    – ここでは学習は行われない
    • Reverse Step(逆拡散過程)
    – ノイズを取り除いて,元画像を復元していく
    • マルコフ連鎖に基づく
    – この過程で学習していく
    3

    View Slide

  4. 背景:拡散モデルの概要 4
    • Forward Step(拡散過程)
    • 計算過程・学習方法は,同研究室の過去の輪講資料を参考
    – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models
    正規分布によって
    𝑥𝑡
    が決定
    𝛽𝑡
    :ノイズの強さ(0~1) 任意の𝑥𝑡
    を閉形式で表現
    ⇒計算の簡略化

    View Slide

  5. 背景:拡散モデルの概要 5
    • Reverse Step(逆拡散過程)
    – 共分散行列は固定のスカラー値でもよいが,学習させるとより良い性能
    となることが報告されている[Nichol+, ICML21]
    • 計算過程・学習方法は,同研究室の過去の輪講資料を参考
    – https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models

    View Slide

  6. 背景:拡散モデルのvision taskへの応用例
    • Super resolution[Saharia+, 2021]
    6
    • Inpainting[Yang+, ICLR21]
    • Semantic editing[Meng+, ICLR22]

    View Slide

  7. 提案手法:モデル構造 7
    Forward Step Reverse Step クラス推定

    View Slide

  8. 提案手法:U-Net[Ronnebeger+, MICCAI15]の構造
    • Reverse Step
    – Denoiseされた画像ではなく,画像に加えられてい
    るノイズを推測
    • DDPM[Ho+, NeurIPS20]で性能向上を報告
    – 中間層の出力にsegmentに関する情報が含まれて
    いると仮定
    – 各層の深さ・time stepごとに特徴量の抽出を行う
    • どの特徴量を用いると効率が良いかを比較
    8

    View Slide

  9. 提案手法:条件ごとに出力
    • クラス推定
    – Reverse Stepで得られた各特徴量をconcat
    • 8448次元
    • 本実験では{B6, B8, B10, B12}の出力を基本的
    に利用
    – 数字が大きいほど深い層
    – 各pixelをMLPに入力してクラス分類
    • この際,異なるtime stepごとに出力
    – 基本は{50, 200, 400, 600, 800}
    – 上記の中からクラスを選択
    9

    View Slide

  10. 実験設定:各ドメインごとに学習
    • 学習方法
    – ラベルなし画像でpretrain -> 再構成
    – ラベルあり画像で転移学習
    • データセット
    – LSUN[Yu+, 2015], FFHQ[Karras+, CVPR19]
    • 学習時間
    – 記述なし
    • 256×256の50枚画像の学習に210GBのRAM使用
    10
    https://github.com/NVlabs/ffhq-dataset

    View Slide

  11. 定量的結果:各データセットで最良の性能
    • mean IoUによって評価
    11
    Pretrain時とデータセット
    が異なる

    View Slide

  12. 定性的結果:各データセットで高い性能 12
    • ピクセル単位でのクラス分類

    View Slide

  13. まとめ:拡散モデルをsemantic segmentationに応用
    • 拡散モデルの顕著な発展
    – Semantic segmentationタスクにも応用できるのでは?
    • 拡散モデルが有効な表現学習器となりうるのか検証
    • 多様な条件での実験により効率の良い特徴量抽出を試みる
    – 特定のドメインにおいてSoTAを達成
    • 複雑なドメインについては将来研究
    13

    View Slide

  14. Appendix:各層の深さ・time stepごとの性能[定量]
    • 小さいtime step = Reverse Stepの後半での評価が高い
    • 真ん中に位置するBlockほど高性能
    14

    View Slide

  15. Appendix:各層の深さ・time stepごとの性能[定性]
    • 小さいtime step = Reverse Stepの後半での評価が高い
    • 真ん中に位置するBlockほど高性能
    15

    View Slide