[Wang+, CVPR22] CLIP [Radford+, PMLR21] の持つ知識を テキストとピクセルの対応に活用 OSMI MDSM [Iioka+, IROS23] LAVTとDDPM [Ho+, NeurIPS20]による2段階 のセグメンテーション 関連研究:既存手法では命令文理解や対象物の領域予測が不十分 7 [Yang+, CVPR22] [Iioka, IROS23] `昨今話題となっている SEEM [Zou+, 23]でも OSMIタスクを解くのは難しい Ground-Truth “Pick up the plant in front of the mirror”