Slide 7
Slide 7 text
タスク 手法 概要
RES
LAVT [Yang+, CVPR22]
中間層で言語と画像の特徴量を
早期にマージ
CRIS [Wang+, CVPR22]
CLIP [Radford+, PMLR21] の持つ知識を
テキストとピクセルの対応に活用
OSMI MDSM [Iioka+, IROS23]
LAVTとDDPM [Ho+, NeurIPS20]による2段階
のセグメンテーション
関連研究:既存手法では命令文理解や対象物の領域予測が不十分 7
[Yang+, CVPR22] [Iioka, IROS23]
`昨今話題となっている
SEEM [Zou+, 23]でも
OSMIタスクを解くのは難しい
Ground-Truth
“Pick up the plant in front of the mirror”