CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張して CLIPの言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか(キーポイント)」を予測 物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding