を考慮していない NLMap [Chen+, ICRA23] 事前探索で収集した画像に基づく物体操作タスクを実行 候補の中からtop-1の対象物体・配置目標のみに着目 関連研究:マルチモーダル検索設定において類似物体を 扱うことは難しい - 5 - InfoNCE [Oord+, 18]では正解画像 以外は全てNegativeとして学習 “壁にかかっている絵をとってきて” Unlabeled Positiveを全て アノテーションすることは困難 例: 6,000指示文,7,000画像のとき, 手動では約188,000時間 Unlabeled Positive