Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] GRES: Generalized Referring Expr...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
June 23, 2023
Technology
0
120
[Journal club] GRES: Generalized Referring Expression Segmentation
Semantic Machine Intelligence Lab., Keio Univ.
PRO
June 23, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
0
590
[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
keio_smilab
PRO
0
140
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
160
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
80
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
2
110
Will multimodal language processing change the world?
keio_smilab
PRO
4
630
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
200
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
180
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
Windows 11 で AWS Documentation MCP Server 接続実践/practical-aws-documentation-mcp-server-connection-on-windows-11
emiki
0
960
Observability infrastructure behind the trillion-messages scale Kafka platform
lycorptech_jp
PRO
0
140
250627 関西Ruby会議08 前夜祭 RejectKaigi「DJ on Ruby Ver.0.1」
msykd
PRO
2
270
標準技術と独自システムで作る「つらくない」SaaS アカウント管理 / Effortless SaaS Account Management with Standard Technologies & Custom Systems
yuyatakeyama
3
1.2k
SalesforceArchitectGroupOsaka#20_CNX'25_Report
atomica7sei
0
170
Understanding_Thread_Tuning_for_Inference_Servers_of_Deep_Models.pdf
lycorptech_jp
PRO
0
120
AWS Summit Japan 2025 Community Stage - App workflow automation by AWS Step Functions
matsuihidetoshi
1
260
PostgreSQL 18 cancel request key長の変更とRailsへの関連
yahonda
0
120
HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion Representation
spatial_ai_network
0
110
プロダクトエンジニアリング組織への歩み、その現在地 / Our journey to becoming a product engineering organization
hiro_torii
0
130
第9回情シス転職ミートアップ_テックタッチ株式会社
forester3003
0
230
Navigation3でViewModelにデータを渡す方法
mikanichinose
0
220
Featured
See All Featured
Site-Speed That Sticks
csswizardry
10
660
Docker and Python
trallard
44
3.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3k
YesSQL, Process and Tooling at Scale
rocio
173
14k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
Facilitating Awesome Meetings
lara
54
6.4k
GraphQLとの向き合い方2022年版
quramy
48
14k
A better future with KSS
kneath
239
17k
BBQ
matthewcrist
89
9.7k
A Tale of Four Properties
chriscoyier
160
23k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Transcript
GRES: Generalized Referring Expression Segmentation 杉浦孔明研究室 九曜克之 Chang Liu† Henghui
Ding† Xudong Jiang Nanyang Technological University, Singapore CVPR2023 highlight Liu, Chang et al. "GRES: Generalized Referring Expression Segmentation." CVPR. 2023.
背景:既存のRESはno/malti-targetを考慮できていない 2 既存RES⼿法の制限 Lどのオブジェクトにもマッチしない場合を考慮していない(no target) L複数のインスタンスを指し⽰すマルチターゲット表現が含まれていない 既存のRESデータセットで学習された⼿法は、 このようなシナリオにうまく対応できない “two guys
in black jacket” “the bed with red sheet” 失敗例
関連研究:no-/multi-target設定に対しては不⼗分 3 PhraseCutにはmulti-target表現があるが,対象物が⼀意に定まらない場合にのみ使⽤ データセット no-target multi-target 形式 ReferIt [Kazemzadeh+, EMNLP14]
× × ⾃由 RefCOCOg [Mao+, CVPR16] × × ⾃由 PhraseCut [Wu+, CVPR20] × △ テンプレート
提案:任意の数の対象物を予測するRES 4 Generalized Referring Expression Segmentation(GRES) 参照表現と画像から対象物のセグメンテーションマスクを予測 対象物が存在しない場合を含めた任意の数の対象物を⽰す表現を許容 “Everyone except
the kid in white” “The kid in blue” (No Target)
データセット: RefCOCOを基にGRES⽤に新たに構築 5 gRefCOCO • RefCOCO [Kazemzadeh+, EMNLP14]を⽤いて構築 • 参照表現,対応する画像,対象物のマスク画像およびno-targetを⽰すラベル
画像数 インスタンス数 参照表現数 multi-target no-target 19,994 60,287 278,232 80,022 32,202 “horse on center and its rider” “the guy standing in back”(no target)
提案⼿法:ReLA 6 ReLAtionsip modeling block • Region-Image Cross Attention(RIA):領域内の画像特徴を獲得 •
Region-Language Cross Attention(RLA):領域間/領域-⾔語間の関係をモデル化
RIA:領域内の画像特徴を獲得 8 Region-based Queries:画像内の領域に対応する 学習可能なクエリ 画像特徴 とクエリ間でAttentionを計算 得られたAttention map と画像特徴から
領域ごとの画像特徴を得る GeLU 重み
RLA:領域間および領域-⾔語間の関係をモデル化 10 領域間 Self Attentionにより関係を考慮した 領域特徴 を得る 領域-⾔語間 ⾔語特徴 をKeyおよびValue
領域特徴 をQueryとして Cross Attentionを計算 最後に特徴を融合
実験設定:no-targetに拡張した標準的な尺度で評価 11 評価尺度 • cIoU(=oIoU),Precision@k • generalized IoU(≒mIoU) • no-target
sampleについて拡張 • TPの場合:gIoU = 1 • FNの場合:gIoU = 0 • N-acc/T-acc:no-target sample識別における評価尺度 実際にno-target,targetをどれだけ取りこぼさず予測できたかを表す
定量的結果:全ての集合で既存⼿法を上回る 13 既存RES⼿法のデコーダに提案⼿法を追加することでも性能向上
既存RESデータセットでも提案⼿法が⾼い性能 14 ほとんどの集合でLAVT [Yang+, CVPR22]よりも⾼い性能 J提案⼿法が既存RES⼿法にも有効
定性的結果:複雑な参照表現に適したマスクの⽣成 15 “two bowls on right” “Everyone except the blurry
guy” Jtwo bowlsという数の表現および on rightを正確に理解 Jexcept(除外関係)を理解
Ablation studies:特に領域間でのAttentionが有効 16 ベースライン:領域特徴×⾔語特徴量の平均 ü RLA内の領域-⾔語間のAttention,領域間のAttentionどちらも有効 ü 特に領域間のAttentionが有効
所感 17 Strengths • データセットと⼿法両⽅ • 標準データセットでも実験し性能向上している • ReLAは既存モデルと組み合わせても有⽤ Weaknesses
• no targetサンプルとして許容する/しないの基準が曖昧 • 画像に無いものを表現するとなると個⼈間のばらつきが⼤きそう Others • 改善するならRegion-based QueriesにSAMのマスクを導⼊ • 命名はどうにかならなかったのか…(gRefCOCO vs G-Ref)
まとめ 18 背景 既存のRESはno/malti-targetを考慮できていない 提案 no/malti-targetを許容したRESタスクGRES GRESタスクのためのデータセットgRefCOCO ベースラインモデルReLA 結果 gRefCOCOにおいて全ての評価尺度で既存RES⼿法を上回る
RESの標準データセットにおいて既存RES⼿法と同等以上の性能
Appendix
no-target識別性能を評価 20 専⽤の分類器がある⽅が望ましい ü それでも約40%のno-targetサンプルが⾒逃されている ReLA-50pix:予測マスクのピクセル数が50より⼩さい場合no-target
multi-targetがもたらす課題 21 1. 計数表現(序数詞と基数詞) 2. 幾何学的関係を持たない複合⽂構造( “A except B”, “A
with B or C”) 3. 属性の範囲(multi-targetにおいて属性がどこまで修飾するか) 4. より複雑な関係(代名詞)
no-targetサンプル作成時の条件 22 1. 画像と全く無関係な表現の禁⽌ 2. 1で必要な表現が思いつきにくい場合、RefCOCOの同じデータ集合に含まれる 他の画像から引き出された表現を選ぶことができる
gRefCOCOその他の例 23
定性的結果(失敗例) 24
学習設定 25 学習時間:記載なし デバイス:4 × V100 GPUs