[JSAI24]Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models
入力 複雑かつ2文以上の文を含む場合がある指示文 対象物を特定し、セグメンテーションマスクを生成 出力 画像 Go to the living room. And pick up the pillow closest to the radio art on the wall. 指示文 3次元点群 ☺ 物体の把持において、 マスクの生成は重要
of the pillow on the couch closest to the plant in the living room. Generate a segmentation mask of the wall picture closest to the front door in the entryway. マスク誤り 文中の対象物体 以外もマスク
画像1枚では、画角外の物体に関する情報が得られない 3次元点群から、Open-vocabularyマルチモーダル特徴量を取得し参照表現と 対応づける OpenScene [Peng+, CVPR23] Go to the bathroom and take down the picture closest to the shower シャワーが画角内 に存在しない
and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” 定性的結果(成功例) 2/2 :複雑な参照表現を適切に理解 LAVT 提案手法
違う物体をマスク “Walk to the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” LAVT 提案手法
the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” ☺ 複雑な参照表現を 理解しマスクを生成 LAVT 提案手法
… around the table. I want … on the opposite side from the sideboard the one 2nd from left as you stand behind facing the sideboard. ☺ Examine the chair on the opposite side of the dining room table. 複雑かつ複数の指示文 GPT-3.5を用いて, 指示文を結合&要約