Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] CRIS: CLIP-Driven Referring Image Segmentation

[Journal club] CRIS: CLIP-Driven Referring Image Segmentation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. CRIS: CLIP-Driven Referring
    Image Segmentation
    Zhaoqing Wang1,2* Yu Lu3∗ Qiang Li4∗ Xunqiang Tao2 Yandong Guo2
    Mingming Gong5 Tongliang Liu1
    1University of Sydney; 2OPPO Research Institute; 3Beijing University of Posts and Telecommunications
    4Kuaishou Technology; 5University of Melbourne
    慶應義塾大学 杉浦孔明研究室 畑中駿平
    Wang, Zhaoqing, et al. "Cris: Clip-driven referring image segmentation." Proceedings of the IEEE/CVF Conference on
    Computer Vision and Pattern Recognition. 2022.

    View full-size slide

  2. ▸ 背景
    ▹ 既存手法はText/Imageそれぞれ事前学習されたモデルを用いて
    おり、マルチモーダルな対応関係を考慮できていない
    ▸ 提案
    ▹ CLIP駆動型RISフレームワーク CRIS ( CLIP-Driven Referring
    Image Segmentation ) の提案
    ▸ 結果
    ▹ 3つのベンチマークでSOTAを達成
    2
    概要

    View full-size slide

  3. ▸ Referring Image Segmentation ( RIS )
    ▹ [Hu+, ECCV16] で初めて提案
    ▸ RIS の研究トレンド
    1. CNN・LSTMから特徴量を結合
    (ex. [Long+, ECCV16])
    2. 注意機構の導入(ex. [Shi+, ECCV18])
    3. クロスモーダルな注意機構
    (ex. CMSA [Ye+, CVPR19])
    3
    背景:RISタスクにおいてクロスモーダルな注意機構の導入
    が進んでいる
    CMSA [Ye+, CVPR19]
    Image/Textのモダリティ間の相互作用を学習

    View full-size slide

  4. ▸ RISの既存手法は事前学習済みモデルを用いて学習を行う
    ▹ Image Encoderの例:ResNet、ViT
    ▹ Text Encoderの例:LSTM、BERT
    ▸ 問題点:独立した単一モダリティの事前学習済みモデルを適用
    ▹ マルチモーダルな表現学習が不十分
    4
    問題点:既存手法は単一モーダルの事前学習済みモデルを
    適用しておりマルチモーダルな表現学習が不十分
    [Chen+, BMVC19]
    [Chen+, BMVC19]の例
    • Text Encoder:LSTM
    • Image Encoder:ResNet-101

    View full-size slide

  5. ▸ SimVLM [Wang+, 21]やCLIP [Radford+, PMLR21]
    ▹ 大規模なvision-language事前学習によりマルチモーダルな表現を学習
    可能
    ▸ 問題点:RISタスクには最適ではない
    ▹ CLIP:入力画像の全体的な情報に着目
    5
    問題点:マルチモーダルな表現学習モデルはRISタスクには
    最適ではない
    CLIP [Radford+, PMLR21]
    SimVLM [Wang+, 21]

    View full-size slide

  6. ▸ CRIS ( CLIP-Driven Referring Image
    Segmentation )
    ▹ CLIP駆動型RISフレームワーク
    ▸ CLIPの持つマルチモーダルな知識を
    テキストとピクセル単位の対応に活用
    6
    提案手法:CLIPモデルをRISに活用
    CLIPの要領でマルチモーダル情報の整合
    性を高め、クロスモーダルなマッチングの
    性能を向上

    View full-size slide

  7. ▸ モデルの大きな構成要素は2つ
    1. visual-language decoder
    2. text-to-pixel contrast learning
    7
    提案手法のモデル構成図

    View full-size slide

  8. ▸ Visual Encoder:CLIPで学習済みResNet
    ▸ 入力:画像 𝐼 ∈ ℝ𝐻×𝑊×3
    ▹ 𝐻:画像の高さ、 𝑊:画像の幅
    ▸ 出力:2-4ステージ目の特徴量 𝐹𝑣2
    , 𝐹𝑣3
    , 𝐹𝑣4
    ▹ 𝐹𝑣2
    ∈ ℝ
    𝐻
    8
    ×𝑊
    8
    ×𝐶2
    ▹ 𝐹𝑣3
    ∈ ℝ
    𝐻
    16
    ×𝑊
    16
    ×𝐶3
    ▹ 𝐹𝑣4
    ∈ ℝ
    𝐻
    32
    ×𝑊
    32
    ×𝐶4
    ▹ 𝐶2
    , 𝐶3
    , 𝐶4
    :チャネル数
    8
    Visual Encoder
    𝐹2
    , 𝐹3
    , 𝐹4
    = 𝑓VE
    (𝐼)

    View full-size slide

  9. ▸ Text Encoder:CLIPで学習済みTransformer
    ▸ 入力:テキスト 𝑇 ∈ ℝ𝐿
    ▹ 𝐿 :テキスト文の長さ
    ▸ 出力
    ▹ テキスト特徴量: 𝐹𝑡
    ∈ ℝ𝐿×𝐶
    ▹ テキスト表現: 𝐹
    𝑠
    ∈ ℝ𝐶′
    ▹ バイト対符号化(byte pair encoding,
    BEP)
    ▹ 𝐶, 𝐶′:チャネル数
    9
    Text Encoder
    𝐹𝑡
    , 𝐹𝑠
    = 𝑓TE
    (𝑇)

    View full-size slide

  10. ▸ Neck: 𝐹𝑣𝑖
    , 𝐹
    𝑠
    を結合して視覚特徴量を獲得する
    ▸ 入力: 𝐹𝑣2
    , 𝐹𝑣3
    , 𝐹𝑣4
    , 𝐹
    𝑠
    ▸ 出力: 視覚特徴量 𝐹
    𝑣
    = 𝐶𝑜𝑛𝑣([𝐹
    𝑚
    , 𝐹𝑐𝑜𝑜𝑟𝑑
    ]) ∈ ℝ
    𝐻
    16
    ×𝑊
    16
    ×𝐶
    ▹ 𝐹𝑐𝑜𝑜𝑟𝑑
    : 𝐹
    𝑚
    に位置情報を埋め込んだ特徴量
    ▹ 𝐹
    𝑚
    = 𝐶𝑜𝑛𝑣([𝐹𝑚2
    , 𝐹𝑚3
    , 𝐹𝑚4
    ]
    ▹ 𝐹𝑚4
    = 𝑈𝑝(𝜎(𝐹𝑣4
    𝑊𝑣4
    ) ∙ 𝜎(𝐹
    𝑠
    𝑊
    𝑠
    ))
    ▹ 𝐹𝑚3
    = 𝜎 𝐹𝑚4
    𝑊𝑚4
    ∙ 𝜎 𝐹𝑣3
    𝑊𝑣3
    ▹ 𝐹𝑚2
    = 𝜎 𝐹𝑚3
    𝑊𝑚3
    ∙ 𝜎 𝐴𝑣𝑔(𝐹𝑣2
    )𝑊𝑣2
    10
    Cross-modal Neck
    𝐹𝑣
    = 𝐶𝑜𝑛𝑣([𝐹𝑚
    , 𝐹𝑐𝑜𝑜𝑟𝑑
    ])

    View full-size slide

  11. ▸ 入力
    ▹ テキスト特徴量: 𝐹𝑡
    ∈ ℝ𝐿×𝐶
    ▹ 視覚特徴量: 𝐹
    𝑣
    ∈ ℝ
    𝐻
    16
    ×𝑊
    16
    ×𝐶
    ▸ 出力: マルチモーダル特徴量 𝐹
    𝑐 ∈ ℝ
    𝐻
    16
    ×𝑊
    16
    ×𝐶
    ▹ 𝐹𝑐
    = 𝑀𝐿𝑃 𝐿𝑁 𝐹𝑐
    ′ + 𝐹𝑐

    ▹ 𝐹𝑐
    ′ = 𝑀𝐻𝐶𝐴 𝐿𝑁 𝐹𝑣
    ′ , 𝐹𝑡
    + 𝐹𝑣

    ▹ 𝑀𝐻𝐶𝐴 :multi-head cross-attention
    ▹ 𝐹𝑣
    ′ = 𝑀𝐻𝑆𝐴 𝐿𝑁 𝐹
    𝑣
    + 𝐹
    𝑣
    ▹ 𝑀𝐻𝑆𝐴 :multi-head self-attention
    11
    Vision-Language Decoder
    Text Encoder
    Visual Encoder
    𝐹𝑐
    = 𝑀𝐿𝑃 𝐿𝑁 𝐹
    𝑐
    ′ + 𝐹
    𝑐

    View full-size slide

  12. ▸ 入力
    ▹ テキスト表現:𝐹
    𝑠
    ∈ ℝ𝐿
    ▹ マルチモーダル特徴量:𝐹
    𝑐
    ∈ ℝ
    𝐻
    16
    ×𝑊
    16
    ×𝐶
    ▸ 出力
    ▹ テキスト特徴量:𝑧𝑡
    ∈ ℝ𝐷
    ▹ 𝑧𝑡
    = 𝐹
    𝑠
    𝑊𝑡
    + 𝑏𝑡
    ▹ ピクセル単位の特徴量: 𝑧𝑣
    ∈ ℝ
    𝐻
    4
    ×𝑊
    4
    ×𝐷
    ▹ 𝑧𝑣
    = 𝑈𝑝(𝐹
    𝑐
    ) 𝑊
    𝑣
    + 𝑏𝑣
    12
    Text-to-Pixel Contrastive Learning
    𝑧𝑡
    = 𝐹𝑠
    𝑊𝑡
    + 𝑏𝑡
    𝑧𝑣
    = 𝑈𝑝(𝐹𝑐
    ) 𝑊
    𝑣
    + 𝑏𝑣
    𝐹𝑠
    𝐹
    𝑐

    View full-size slide

  13. ▸ 損失関数の入力
    ▹ テキスト特徴量:𝑧𝑡
    ▹ ピクセル単位の特徴量: 𝑧𝑣
    ▸ 𝐿𝑐𝑜𝑛
    𝑧𝑡
    , 𝑧𝑣
    = 1
    𝒫∪𝒩
    σ𝑖∈𝒫∪𝒩
    𝐿𝑐𝑜𝑛
    𝑖 (𝑧𝑡
    , 𝑧𝑣
    )
    ▸ 𝐿𝑐𝑜𝑛
    𝑖 𝑧𝑡
    , 𝑧𝑣
    = ቐ
    − log 𝜎 𝑧𝑡
    ∙ 𝑧𝑣
    𝑖 , 𝑖 ∈ 𝒫
    − log(1 − 𝜎 𝑧𝑡
    ∙ 𝑧𝑣
    𝑖 ), 𝑖 ∈ 𝒩
    ▹ 𝒫:class “1”
    ▹ 𝒩:class “0”
    13
    Text-to-pixel contrastive loss
    𝑧𝑡
    = 𝐹𝑠
    𝑊𝑡
    + 𝑏𝑡
    𝑧𝑣
    = 𝑈𝑝(𝐹
    𝑐
    ) 𝑊
    𝑣
    + 𝑏𝑣
    https://github.com/DerrickWang005/CRIS.pytorch/blob/0df39f073acfb9
    e6e17d83536a916548905ecfc3/model/segmenter.py#L59
    シグモイド関数へ入力したのち
    Upsamplingでもとの画像サイズへ
    やっていることはBCEと同じでは?
    (コードの損失関数はBCEであった)

    View full-size slide

  14. ▸ ベンチマーク
    1. RefCOCO:( train, valid )= ( 120,624枚, 10,834枚 )
    2. RefCOCO+:RefCOCOにおいて絶対位置の単語が除外
    3. G-Ref:平均文長 8.4 語、場所や外観に関する単語が多い
    ▸ 学習
    ▹ 画像サイズ:416×416
    ▹ バッチサイズ:64
    ▹ マシン:8 Tesla V100 with 16 GPU VRAM
    14
    実験:3つのベンチマークで性能比較

    View full-size slide

  15. 15
    定量的結果:すべてのベンチマークでSOTA
    評価尺度:mean IoU

    View full-size slide

  16. ▸ Baseline model = CRIS w/o visual-language decoder, w/o text-to-
    pixel contrast learning
    ▸ Decoderの層数を4にすると過学習を起こし性能が悪化
    16
    Ablation Study:visual-language decoderと
    text-to-pixel contrast learningの有効性確認

    View full-size slide

  17. ▸ Baselineと比較してもvisual-language decoderとtext-to-pixel
    contrast learningの有効性を確認
    17
    定性的結果:Baselineよりも高品質なマスク生成

    View full-size slide

  18. ▸ 背景
    ▹ 既存手法はText/Imageそれぞれ事前学習されたモデルを用いて
    おり、マルチモーダルな対応関係を考慮できていない
    ▸ 提案
    ▹ CLIP駆動型RISフレームワーク CRIS ( CLIP-Driven Referring
    Image Segmentation ) の提案
    ▸ 結果
    ▹ 3つのベンチマークでSOTAを達成
    18
    まとめ

    View full-size slide