Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] GRES: Generalized Referring Expr...

[Journal club] GRES: Generalized Referring Expression Segmentation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. GRES: Generalized Referring Expression Segmentation 杉浦孔明研究室 九曜克之 Chang Liu† Henghui

    Ding† Xudong Jiang Nanyang Technological University, Singapore CVPR2023 highlight Liu, Chang et al. "GRES: Generalized Referring Expression Segmentation." CVPR. 2023.
  2. データセット: RefCOCOを基にGRES⽤に新たに構築 5 gRefCOCO • RefCOCO [Kazemzadeh+, EMNLP14]を⽤いて構築 • 参照表現,対応する画像,対象物のマスク画像およびno-targetを⽰すラベル

    画像数 インスタンス数 参照表現数 multi-target no-target 19,994 60,287 278,232 80,022 32,202 “horse on center and its rider” “the guy standing in back”(no target)
  3. 提案⼿法:ReLA 6 ReLAtionsip modeling block • Region-Image Cross Attention(RIA):領域内の画像特徴を獲得 •

    Region-Language Cross Attention(RLA):領域間/領域-⾔語間の関係をモデル化
  4. 実験設定:no-targetに拡張した標準的な尺度で評価 11 評価尺度 • cIoU(=oIoU),Precision@k • generalized IoU(≒mIoU) • no-target

    sampleについて拡張 • TPの場合:gIoU = 1 • FNの場合:gIoU = 0 • N-acc/T-acc:no-target sample識別における評価尺度 実際にno-target,targetをどれだけ取りこぼさず予測できたかを表す
  5. 定性的結果:複雑な参照表現に適したマスクの⽣成 15 “two bowls on right” “Everyone except the blurry

    guy” Jtwo bowlsという数の表現および on rightを正確に理解 Jexcept(除外関係)を理解
  6. 所感 17 Strengths • データセットと⼿法両⽅ • 標準データセットでも実験し性能向上している • ReLAは既存モデルと組み合わせても有⽤ Weaknesses

    • no targetサンプルとして許容する/しないの基準が曖昧 • 画像に無いものを表現するとなると個⼈間のばらつきが⼤きそう Others • 改善するならRegion-based QueriesにSAMのマスクを導⼊ • 命名はどうにかならなかったのか…(gRefCOCO vs G-Ref)
  7. multi-targetがもたらす課題 21 1. 計数表現(序数詞と基数詞) 2. 幾何学的関係を持たない複合⽂構造( “A except B”, “A

    with B or C”) 3. 属性の範囲(multi-targetにおいて属性がどこまで修飾するか) 4. より複雑な関係(代名詞)