SeqTR [Zhu+, ECCV22] ポリゴン予測によりセグメンテーションマスクを⽣成 STOW [Li+, CoRL23] 未知物体に対するセグメンテーションによる物体追跡 LISA [Lai+, CVPR24] マルチモーダルLLMにセグメンテーション能⼒を付与 Generate a segmentation mask of the wall picture closest to the front door in the entryway. L ⽂中の対象物 以外もマスク
[Peng+, CVPR23] Go to the living room and bring me the light brown pillow next to the plant. (2/2) 3D Semantic Point Aggregator: 画角外の物体に関する参照表現の理解を強化 画⾓内に植物が 存在しない
grey bed G-Ref [Mao+, CVPR16] 平均⽂⻑:8.4 Go to the living room and pick up the pillow closest to the radio art on the wall. OSMI-3D [Nishimura+, IROS24] 平均⽂⻑:19.0 J OSMI-3Dタスクの⽅がより複雑な指⽰⽂
room … around the table. I want … on the opposite side from the sideboard the one 2nd from left as you stand behind facing the sideboard. J Examine the chair on the opposite side of the dining room table. L 複雑かつ複数⽂に わたる指⽰⽂ GPT-3.5を⽤いて, 指⽰⽂を結合&要約