Slide 5
Slide 5 text
手法 概要
MultiRankIt
[Kaneda+, RA-L24]
Open-Vocabularyな指示文からtop-20の対象物体を検索
類似物体 (Unlabeled Positive) を考慮していない
NLMap
[Chen+, ICRA23]
事前探索で収集した画像に基づく物体操作タスクを実行
候補の中からtop-1の対象物体・配置目標のみに着目
関連研究:マルチモーダル検索設定において類似物体を
扱うことは難しい
- 5 -
InfoNCE [Oord+, 18]では正解画像
以外は全てNegativeとして学習
“壁にかかっている絵をとってきて”
Unlabeled Positiveを全て
アノテーションすることは困難
例: 6,000指示文,7,000画像のとき,
手動では約188,000時間
Unlabeled Positive