Vision-and-Language Navigation ▪ 例) LM-Nav [Shah+, CoRL22], [Huang+, ICRA23] クロスモーダル検索 ▪ 主なタスク:ファッション検索,ランドマーク検索 ▪ 例)TIRG [Vo+, CVPR19], DCNet [Kim+, AAAI21], FashionIQ [Wu+, CVPR21] → Vision-and-Language + ロボティクスの分野において, クローリング設定を扱う研究は少ない Learning-to-rank physical objects (LTRPO) タスク ▪ 対象物体のみについてランク付けされた画像群を出力 https://yuankaiqi.github.io/REVERIE_Challen ge/static/img/demo.gif 単一のモデルで 複数種類の検索×