[RSJ24] Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Foundation Models

Slide 1

Slide 1 text

最適輸送を⽤いたポリゴンマッチングと複数の基盤モデルによる参照表現セグメンテーション慶應義塾⼤学⾬宮佳⾳，⻄村喬⾏，杉浦孔明

Slide 2

Slide 2 text

背景：⽣活⽀援ロボットに⾃然⾔語で指⽰できれば便利 - 2 - リビングに⾏って最も⼩さいオレンジのクッションを取ってきて n 少⼦⾼齢社会では、介助者不⾜が社会問題 n 物体操作などが可能な⽣活⽀援ロボットに期待 n ⾃然⾔語による指⽰⽂から環境画像中の対象物を特定する技術が重要 L 指⽰⽂の複雑な参照表現により対象物の特定が困難

Slide 3

Slide 3 text

問題設定：Object Segmentation from Manipulation Instructions-3D (OSMI-3D) タスク - 3 - 物体操作に関する⾃然⾔語の指⽰⽂から対象物のセグメンテーションマスクを⽣成 Go to the bathroom on level 1 and refill the tissue box next to the sink. 3次元点群出⼒⼊⼒画像指⽰⽂

Slide 4

Slide 4 text

関連研究：参照表現セグメンテーションを扱う⼿法 - 4 - ⼿法概要 LAVT [Yang+, CVPR22] エンコーダの中間層で⾔語と画像の特徴量を早期に融合 SeqTR [Zhu+, ECCV22] ポリゴン予測によりセグメンテーションマスクを⽣成 STOW [Li+, CoRL23] 未知物体に対するセグメンテーションによる物体追跡 LISA [Lai+, CVPR24] マルチモーダルLLMにセグメンテーション能⼒を付与 Generate a segmentation mask of the wall picture closest to the front door in the entryway. L ⽂中の対象物以外もマスク

Slide 5

Slide 5 text

- 5 - 提案⼿法：複雑な指⽰⽂を扱うセグメンテーション⼿法 n マスク重畳画像により物体輪郭の特徴量抽出を⾏うMultimodal Segment Attention n 画⾓外の物体に関する参照表現の理解を強化する3D Semantic Point Aggregator 新規性

Slide 6

Slide 6 text

- 6 - 提案⼿法：複雑な指⽰⽂を扱うセグメンテーション⼿法最適輸送を⽤いたポリゴンマッチングロス [Nishimura+, IROS24]

Slide 7

Slide 7 text

- 7 - （1/2） Multimodal Segment Attention：セグメンテーション重畳画像による物体輪郭の特徴量抽出同じ環境で画⾓の異なる画像 L SAMを利⽤したいが重畳画像をそのまま適⽤するとうまくいかない SAM [Kirillov+ , ICCV23] のマスク重畳画像重畳画像の⾊情報を⽋落させ⾔語情報を残すには CLIP [Radford+, ICML21] を適⽤すれば良い ▼ J 重畳画像の⾊に依存せず物体の輪郭に関する特徴量を抽出

Slide 8

Slide 8 text

- 8 - L 単⼀画像だけでは画⾓外の周辺物体の情報が得られない ▼ 撮影地点近傍の3次元点群からOpen-vocabularyなマルチモーダル特徴量を取得 J 画⾓外物体の特徴量と指⽰⽂の参照表現と対応付け OpenScene [Peng+, CVPR23] Go to the living room and bring me the light brown pillow next to the plant. （2/2） 3D Semantic Point Aggregator：画角外の物体に関する参照表現の理解を強化画⾓内に植物が存在しない

Slide 9

Slide 9 text

定量的結果：標準的な評価尺度で既存⼿法を上回った - 9 - ⼿法 mIoU ↑ [%] [email protected] ↑ [%] LAVT [Yang+, CVPR22] 23.51 ± 3.36 23.50 ± 5.76 SeqTR [Zhu+, ECCV22] 20.72 ± 0.67 17.34 ± 2.95 提案⼿法 26.91 ± 1.15 30.28 ± 2.14 n SHIMRIE-3D [Nishimura+, IROS24] データセットのテストセットを拡張して評価 n 同⼀画像に対して異なる対象物を指す指⽰⽂を追加 n 評価尺度にはmean IoUおよび[email protected]を使⽤ +3.40 +6.78

Slide 10

Slide 10 text

定性的結果（1/2）：対象以外の物体名を指⽰⽂に含む例 - 10 - Ground Truth 提案⼿法 Rinse the sink in the bathroom on level 2 with the red towels. L ⽂中の対象物以外もマスク J 指⽰⽂から対象物を適切に理解 LAVT [Yang+, CVPR22]

Slide 11

Slide 11 text

- 11 - Ground Truth 提案⼿法 Go to the living room and take the darkest pillow placed second from the left. L 異なる位置・⾊の枕をマスク J 参照表現を適切に理解定性的結果（2/2）：複雑な参照表現を含む例 LAVT [Yang+, CVPR22]

Slide 12

Slide 12 text

まとめ - 12 - 背景 n ⾃然⾔語の指⽰⽂から対象物を特定し把持するためにセグメンテーションは重要⼿法 n マスク重畳画像により物体輪郭の特徴量抽出を⾏うMultimodal Segment Attention n 画⾓外の情報を扱う3D Semantic Point Aggregator n 最適輸送を⽤いたポリゴンマッチング結果 n mIoUにおいてベースライン⼿法のうち最良⼿法を 3.40ポイント上回った

Slide 13

Slide 13 text

Appendix

Slide 14

Slide 14 text

問題設定：既存のセグメンテーションタスクより困難 - 14 - a dark grey dog on a grey bed G-Ref [Mao+, CVPR16] 平均⽂⻑：8.4 Go to the living room and pick up the pillow closest to the radio art on the wall. OSMI-3D [Nishimura+, IROS24] 平均⽂⻑：19.0 J OSMI-3Dタスクの⽅がより複雑な指⽰⽂

Slide 15

Slide 15 text

: ポリゴンの頂点数、最適輸送を⽤いたポリゴンマッチング [Nishimura+, IROS24] - 15 - 既存⼿法の損失計算 L ポリゴンにおける頂点順序の⼀致が必要 J 最適輸送問題を解くポリゴンマッチング : 輸送コスト Prediction Ground Truth

Slide 16

Slide 16 text

Visual Context Interpreter [Nishimura+, IROS24] - 16 - ResNet [He+, CVPR15] や ViT [Dosovitskiy+, ICLR20] L 物体間の複雑な空間関係を理解することは困難 J 空間関係は重要 • 椅⼦の上にクッション • ⽂字の書かれたクッションに隠されている • ラジオの描かれた壁に最も近いなど GPT-4Vを⽤いて画像説明⽂を⽣成

Slide 17

Slide 17 text

LLM Paraphraser [九曜+, NLP24] - 17 - L The dining room … around the table. I want … on the opposite side from the sideboard the one 2nd from left as you stand behind facing the sideboard. J Examine the chair on the opposite side of the dining room table. L 複雑かつ複数⽂にわたる指⽰⽂ GPT-3.5を⽤いて，指⽰⽂を結合＆要約

Slide 18

Slide 18 text

- 18 - 画像エンコーダ mIoU↑ [%] [email protected]↑[%] DarkNet-53 [Wang+, CVPR21] 22.08 ± 0.71 22.75 ± 1.32 CLIP [Radford+, ICML21] 26.91 ± 1.15 30.28 ± 2.14 Ablation Study：CLIPを適⽤した場合の有効性の検証 SAMにより生成したセグメンテーション画像に対する画像エンコーダの比較 J セグメンテーションマスク重畳画像の⾊に依存せず物体の輪郭の特徴量を取得 → [email protected]が⼤幅に上昇 +4.83 +7.53

Slide 19

Slide 19 text

定性的結果（失敗例）：誤解を⽣みやすい参照表現 - 19 - Ground Truth 提案⼿法 Bring me the orange pillow closest to the plant on the couch in the living room. L 「植物に最も近い枕」と誤って解釈 L 過⼩なマスクを⽣成 LAVT [Yang+, CVPR22]

Slide 20

Slide 20 text

- 20 - エラーカテゴリエラー数画像への過度な依存 43 視覚情報と⾔語情報の扱いに関する深刻な理解誤り 25 ⾔語情報における参照表現もしくは外部照応に関する理解誤り 15 scene narrative ハルシネーション 13 指⽰⽂内にある対象物以外の物体のマスクを⽣成 2 曖昧な指⽰⽂ 1 アノテーションエラー 1 合計 100 エラー分析：テスト集合のIoU下位100サンプルを分析