Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] GRES: Generalized Referring Expr...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
June 23, 2023
Technology
0
120
[Journal club] GRES: Generalized Referring Expression Segmentation
Semantic Machine Intelligence Lab., Keio Univ.
PRO
June 23, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
0
600
[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
keio_smilab
PRO
0
140
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
160
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
82
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
2
110
Will multimodal language processing change the world?
keio_smilab
PRO
4
630
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
200
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
180
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
フィンテック養成勉強会#54
finengine
0
180
SalesforceArchitectGroupOsaka#20_CNX'25_Report
atomica7sei
0
250
Model Mondays S2E03: SLMs & Reasoning
nitya
0
220
生まれ変わった AWS Security Hub (Preview) を紹介 #reInforce_osaka / reInforce New Security Hub
masahirokawahara
0
310
怖くない!はじめてのClaude Code
shinya337
0
240
Microsoft Build 2025 技術/製品動向 for Microsoft Startup Tech Community
torumakabe
2
320
Tech-Verse 2025 Global CTO Session
lycorptech_jp
PRO
0
920
監視のこれまでとこれから/sakura monitoring seminar 2025
fujiwara3
11
4k
AWS Organizations 新機能!マルチパーティ承認の紹介
yhana
1
190
無意味な開発生産性の議論から抜け出すための予兆検知とお金とAI
i35_267
0
190
Fabric + Databricks 2025.6 の最新情報ピックアップ
ryomaru0825
1
150
プロダクトエンジニアリング組織への歩み、その現在地 / Our journey to becoming a product engineering organization
hiro_torii
0
130
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
VelocityConf: Rendering Performance Case Studies
addyosmani
331
24k
Agile that works and the tools we love
rasmusluckow
329
21k
For a Future-Friendly Web
brad_frost
179
9.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
GraphQLとの向き合い方2022年版
quramy
49
14k
KATA
mclloyd
30
14k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
17
950
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Transcript
GRES: Generalized Referring Expression Segmentation 杉浦孔明研究室 九曜克之 Chang Liu† Henghui
Ding† Xudong Jiang Nanyang Technological University, Singapore CVPR2023 highlight Liu, Chang et al. "GRES: Generalized Referring Expression Segmentation." CVPR. 2023.
背景:既存のRESはno/malti-targetを考慮できていない 2 既存RES⼿法の制限 Lどのオブジェクトにもマッチしない場合を考慮していない(no target) L複数のインスタンスを指し⽰すマルチターゲット表現が含まれていない 既存のRESデータセットで学習された⼿法は、 このようなシナリオにうまく対応できない “two guys
in black jacket” “the bed with red sheet” 失敗例
関連研究:no-/multi-target設定に対しては不⼗分 3 PhraseCutにはmulti-target表現があるが,対象物が⼀意に定まらない場合にのみ使⽤ データセット no-target multi-target 形式 ReferIt [Kazemzadeh+, EMNLP14]
× × ⾃由 RefCOCOg [Mao+, CVPR16] × × ⾃由 PhraseCut [Wu+, CVPR20] × △ テンプレート
提案:任意の数の対象物を予測するRES 4 Generalized Referring Expression Segmentation(GRES) 参照表現と画像から対象物のセグメンテーションマスクを予測 対象物が存在しない場合を含めた任意の数の対象物を⽰す表現を許容 “Everyone except
the kid in white” “The kid in blue” (No Target)
データセット: RefCOCOを基にGRES⽤に新たに構築 5 gRefCOCO • RefCOCO [Kazemzadeh+, EMNLP14]を⽤いて構築 • 参照表現,対応する画像,対象物のマスク画像およびno-targetを⽰すラベル
画像数 インスタンス数 参照表現数 multi-target no-target 19,994 60,287 278,232 80,022 32,202 “horse on center and its rider” “the guy standing in back”(no target)
提案⼿法:ReLA 6 ReLAtionsip modeling block • Region-Image Cross Attention(RIA):領域内の画像特徴を獲得 •
Region-Language Cross Attention(RLA):領域間/領域-⾔語間の関係をモデル化
RIA:領域内の画像特徴を獲得 8 Region-based Queries:画像内の領域に対応する 学習可能なクエリ 画像特徴 とクエリ間でAttentionを計算 得られたAttention map と画像特徴から
領域ごとの画像特徴を得る GeLU 重み
RLA:領域間および領域-⾔語間の関係をモデル化 10 領域間 Self Attentionにより関係を考慮した 領域特徴 を得る 領域-⾔語間 ⾔語特徴 をKeyおよびValue
領域特徴 をQueryとして Cross Attentionを計算 最後に特徴を融合
実験設定:no-targetに拡張した標準的な尺度で評価 11 評価尺度 • cIoU(=oIoU),Precision@k • generalized IoU(≒mIoU) • no-target
sampleについて拡張 • TPの場合:gIoU = 1 • FNの場合:gIoU = 0 • N-acc/T-acc:no-target sample識別における評価尺度 実際にno-target,targetをどれだけ取りこぼさず予測できたかを表す
定量的結果:全ての集合で既存⼿法を上回る 13 既存RES⼿法のデコーダに提案⼿法を追加することでも性能向上
既存RESデータセットでも提案⼿法が⾼い性能 14 ほとんどの集合でLAVT [Yang+, CVPR22]よりも⾼い性能 J提案⼿法が既存RES⼿法にも有効
定性的結果:複雑な参照表現に適したマスクの⽣成 15 “two bowls on right” “Everyone except the blurry
guy” Jtwo bowlsという数の表現および on rightを正確に理解 Jexcept(除外関係)を理解
Ablation studies:特に領域間でのAttentionが有効 16 ベースライン:領域特徴×⾔語特徴量の平均 ü RLA内の領域-⾔語間のAttention,領域間のAttentionどちらも有効 ü 特に領域間のAttentionが有効
所感 17 Strengths • データセットと⼿法両⽅ • 標準データセットでも実験し性能向上している • ReLAは既存モデルと組み合わせても有⽤ Weaknesses
• no targetサンプルとして許容する/しないの基準が曖昧 • 画像に無いものを表現するとなると個⼈間のばらつきが⼤きそう Others • 改善するならRegion-based QueriesにSAMのマスクを導⼊ • 命名はどうにかならなかったのか…(gRefCOCO vs G-Ref)
まとめ 18 背景 既存のRESはno/malti-targetを考慮できていない 提案 no/malti-targetを許容したRESタスクGRES GRESタスクのためのデータセットgRefCOCO ベースラインモデルReLA 結果 gRefCOCOにおいて全ての評価尺度で既存RES⼿法を上回る
RESの標準データセットにおいて既存RES⼿法と同等以上の性能
Appendix
no-target識別性能を評価 20 専⽤の分類器がある⽅が望ましい ü それでも約40%のno-targetサンプルが⾒逃されている ReLA-50pix:予測マスクのピクセル数が50より⼩さい場合no-target
multi-targetがもたらす課題 21 1. 計数表現(序数詞と基数詞) 2. 幾何学的関係を持たない複合⽂構造( “A except B”, “A
with B or C”) 3. 属性の範囲(multi-targetにおいて属性がどこまで修飾するか) 4. より複雑な関係(代名詞)
no-targetサンプル作成時の条件 22 1. 画像と全く無関係な表現の禁⽌ 2. 1で必要な表現が思いつきにくい場合、RefCOCOの同じデータ集合に含まれる 他の画像から引き出された表現を選ぶことができる
gRefCOCOその他の例 23
定性的結果(失敗例) 24
学習設定 25 学習時間:記載なし デバイス:4 × V100 GPUs