Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]OneFormer: One Transformer to Rule Universal Image Segmentation

[Journal Club]OneFormer: One Transformer to Rule Universal Image Segmentation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. OneFormer: One Transformer to Rule Universal
    Image Segmentation
    Jitesh Jain1,2, Jiachen Li1, MangTik Chiu1, Ali Hassani1, Nikita Orlov3, Humphrey
    Shi1,3 , 1SHI Labs, 2IIT Roorkee, 3Picsart AI Research (PAIR), CVPR2023
    慶應義塾大学 飯岡雄偉
    Jain, Jitesh, et al. "Oneformer: One transformer to rule universal image segmentation." Proceedings of
    the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

    View full-size slide

  2. 概要 背景 提案手法 結果 まとめ
    概要:OneFormer
     背景
    ⚫ これまでの統一セグメンテーションモデルは各タスクへのチューニングが必要
     提案手法:OneFormer
    ⚫ 同アーキテクチャ,パラメータで3つのタスクを扱う統一モデル
    ⚫ タスクごとの条件付けをするために,contrastive lossを導入
     結果
    ⚫ 既存の統一手法を上回る結果が得られた
    2

    View full-size slide

  3. 概要 背景 提案手法 結果 まとめ
    背景:統一セグメンテーションモデルの変遷
     セグメンテーションタスク
    ⚫ Semantic segmentation
    • 同カテゴリ物体を区別せずに全画素をクラス分類
    ⚫ Instance segmentation
    • 数えられる”thing”のみを一意のIDを持つように分類
    ⚫ Panoptic segmentation
    • 全ての”thing”, “stuff”が一意のIDを持つように分類
    3

    View full-size slide

  4. 概要 背景 提案手法 結果 まとめ
    背景:既存の統一モデルは各タスクへのチューニングが必要
     1枚の画像から全タスクを扱う統一モデル
    Panoptic-DeepLab [Cheng+, CVPR20]
    4

    View full-size slide

  5. 概要 背景 提案手法 結果 まとめ
    背景:既存の統一モデルは各タスクへのチューニングが必要
     1枚の画像から全タスクを扱う統一モデル
    Panoptic-DeepLab [Cheng+, CVPR20]
    5
    各タスクでデータセット・アーキテクチャ
    が異なる

    View full-size slide

  6. 概要 背景 提案手法 結果 まとめ
    背景:既存の統一モデルは各タスクへのチューニングが必要
     同じアーキテクチャで全タスクを扱う統一
    モデルのMask2Former [Cheng+, CVPR22]
    6

    View full-size slide

  7. 概要 背景 提案手法 結果 まとめ
    背景:既存の統一モデルは各タスクへのチューニングが必要
     同じアーキテクチャで全タスクを扱う統一
    モデルのMask2Former [Cheng+, CVPR22]
    7
    各タスクのデータセットでそれぞれ学習
    されている

    View full-size slide

  8. 概要 背景 提案手法 結果 まとめ
    問題設定:同パラメータ・同アーキテクチャでの統一モデル
     どのタスクかを入力するだけで全タスクに対応可能なモデルが目標
    8

    View full-size slide

  9. 概要 背景 提案手法 結果 まとめ
    提案手法:OneFormer
     Contrastive lossをタスク指定のために導入した統一モデル
    9

    View full-size slide

  10. 概要 背景 提案手法 結果 まとめ
    提案手法:Multi-Scale Feature Modeling
     画像特徴量の抽出
    ⚫ Backbone networkにはSwin Transformer等を利用
    ⚫ Mask2Former等にならい,Multi-Scale Deformable Transformerをpixel decoderに
    • 各スケールに対して学習可能なpositional embeddingとスケールレベルの埋め込み
    10

    View full-size slide

  11. 概要 背景 提案手法 結果 まとめ
    提案手法:Unified Task-Conditioned Query Formulation
     各タスクのGT labelからクラスを示すテキストを作成
    11
    それぞれのタスクに応じて一意の物体
    をすべて抽出する
    semantic segmentationではすべての同
    カテゴリ物体を1つとみなす

    View full-size slide

  12. 概要 背景 提案手法 結果 まとめ
    提案手法:Unified Task-Conditioned Query Formulation
     各タスクのGT labelからクラスを示すテキストを作成
    12
    “a photo with a {CLS}”というテキス
    トを作成してリストとする
    このテキストにすることの有用性は
    Appendix

    View full-size slide

  13. 概要 背景 提案手法 結果 まとめ
    提案手法:Unified Task-Conditioned Query Formulation
     各テキストの特徴量を抽出し,
    学習可能なクエリをconcat
     Task名の特徴量を含む画像特徴
    量とのcontrastive lossを計算
    13

    View full-size slide

  14. 概要 背景 提案手法 結果 まとめ
    提案手法:Task-Dynamic Mask and Class Prediction Formulation
     各クラスに対してのマスクを生成し,各タスクのGTとの損失を求める
     その他の損失
    ⚫ ClassificationのCE
    ⚫ Binary CE
    ⚫ Dice loss
    14

    View full-size slide

  15. 概要 背景 提案手法 結果 まとめ
    実験設定:
     データセット:ADE20K, Cityscapes, COCO
     評価指標
    ⚫ PQ, AP, mIoU
     学習環境
    ⚫ 8 A6000 (48 GB each) GPUs:モデルの訓練
    ⚫ 8 A100 (80 GB each) GPUs:backboneの訓練
    15

    View full-size slide

  16. 概要 背景 提案手法 結果 まとめ
    定量的結果:同backboneを扱うモデルの中でSoTA
     Cityscapes
    16

    View full-size slide

  17. 概要 背景 提案手法 結果 まとめ
    定性的結果:Mask2Formerよりも正確なマスクの生成
     あああ
    17

    View full-size slide

  18. 概要 背景 提案手法 結果 まとめ
    Mask2Formerとの比較:チューニングしたモデルよりも高性能 18

    View full-size slide

  19. 概要 背景 提案手法 結果 まとめ
    実際にやってみた:Talk2Car-RegSeg 19

    View full-size slide

  20. 概要 背景 提案手法 結果 まとめ
    まとめ:OneFormer
     背景
    ⚫ これまでの統一セグメンテーションモデルは各タスクへのチューニングが必要
     提案手法:OneFormer
    ⚫ 同アーキテクチャ,パラメータで3つのタスクを扱う統一モデル
    ⚫ タスクごとの条件付けをするために,contrastive lossを導入
     結果
    ⚫ 既存の統一手法を上回る結果が得られた
    20

    View full-size slide

  21. 概要 背景 提案手法 結果 まとめ
    所感:
     Strengths
    ⚫ 実験が豊富に行われており、定量的な比較も多く論文内に記載されている
    ⚫ 対照学習のようにタスクの条件付けを行っているところが面白い
     Weaknesses
    ⚫ 既存の機構を多く用いているためか数式が損失関数しか書かれていない
     Comment
    ⚫ Demoを動かしてみたところ,推論は速いように感じられた
    21

    View full-size slide

  22. 概要 背景 提案手法 結果 まとめ
    Appendix:テキスト表現の有用性 22

    View full-size slide

  23. 概要 背景 提案手法 結果 まとめ
    Appendix:contrastive lossの有用性 23

    View full-size slide

  24. 概要 背景 提案手法 結果 まとめ
    Appendix:その他のデータセットでの評価
     ADE20K
    24

    View full-size slide

  25. 概要 背景 提案手法 結果 まとめ
    Appendix:その他のデータセットでの評価
     COCO
    25

    View full-size slide

  26. 概要 背景 提案手法 結果 まとめ
    Appendix:タスクごとの性能差 26

    View full-size slide