Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ24] Object Segmentation from Open-Vocabular...

[RSJ24] Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Foundation Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 背景:⽣活⽀援ロボットに⾃然⾔語で指⽰できれば便利 - 2 - リビングに⾏って 最も⼩さいオレンジの クッションを取ってきて n 少⼦⾼齢社会では、介助者不⾜が社会問題 n

    物体操作などが可能な⽣活⽀援ロボットに期待 n ⾃然⾔語による指⽰⽂から環境画像中の対象物を特定する技術が重要 L 指⽰⽂の複雑な参照表現により対象物の特定が困難
  2. 問題設定:Object Segmentation from Manipulation Instructions-3D (OSMI-3D) タスク - 3 -

    物体操作に関する⾃然⾔語の指⽰⽂から対象物のセグメンテーションマスクを⽣成 Go to the bathroom on level 1 and refill the tissue box next to the sink. 3次元点群 出⼒ ⼊⼒ 画像 指⽰⽂
  3. 関連研究:参照表現セグメンテーションを扱う⼿法 - 4 - ⼿法 概要 LAVT [Yang+, CVPR22] エンコーダの中間層で⾔語と画像の特徴量を早期に融合

    SeqTR [Zhu+, ECCV22] ポリゴン予測によりセグメンテーションマスクを⽣成 STOW [Li+, CoRL23] 未知物体に対するセグメンテーションによる物体追跡 LISA [Lai+, CVPR24] マルチモーダルLLMにセグメンテーション能⼒を付与 Generate a segmentation mask of the wall picture closest to the front door in the entryway. L ⽂中の対象物 以外もマスク
  4. - 7 - (1/2) Multimodal Segment Attention: セグメンテーション重畳画像による物体輪郭の特徴量抽出 同じ環境で 画⾓の異なる画像

    L SAMを利⽤したいが重畳画像をそのまま適⽤するとうまくいかない SAM [Kirillov+ , ICCV23] のマスク重畳画像 重畳画像の⾊情報を⽋落させ⾔語情報を残すには CLIP [Radford+, ICML21] を適⽤すれば良い ▼ J 重畳画像の⾊に依存せず物体の輪郭に関する 特徴量を抽出
  5. - 8 - L 単⼀画像だけでは画⾓外の周辺物体の情報が得られない ▼ 撮影地点近傍の3次元点群からOpen-vocabularyなマルチモーダル特徴量を取得 J 画⾓外物体の特徴量と指⽰⽂の参照表現と対応付け OpenScene

    [Peng+, CVPR23] Go to the living room and bring me the light brown pillow next to the plant. (2/2) 3D Semantic Point Aggregator: 画角外の物体に関する参照表現の理解を強化 画⾓内に植物が 存在しない
  6. 定量的結果:標準的な評価尺度で既存⼿法を上回った - 9 - ⼿法 mIoU ↑ [%] [email protected]

    [%] LAVT [Yang+, CVPR22] 23.51 ± 3.36 23.50 ± 5.76 SeqTR [Zhu+, ECCV22] 20.72 ± 0.67 17.34 ± 2.95 提案⼿法 26.91 ± 1.15 30.28 ± 2.14 n SHIMRIE-3D [Nishimura+, IROS24] データセットのテストセットを拡張して評価 n 同⼀画像に対して異なる対象物を指す指⽰⽂を追加 n 評価尺度にはmean IoUおよび[email protected]を使⽤ +3.40 +6.78
  7. 定性的結果(1/2):対象以外の物体名を指⽰⽂に含む例 - 10 - Ground Truth 提案⼿法 Rinse the sink

    in the bathroom on level 2 with the red towels. L ⽂中の対象物 以外もマスク J 指⽰⽂から対象物を 適切に理解 LAVT [Yang+, CVPR22]
  8. - 11 - Ground Truth 提案⼿法 Go to the living

    room and take the darkest pillow placed second from the left. L 異なる位置・⾊の 枕をマスク J 参照表現を 適切に理解 定性的結果(2/2):複雑な参照表現を含む例 LAVT [Yang+, CVPR22]
  9. まとめ - 12 - 背景 n ⾃然⾔語の指⽰⽂から対象物を特定し把持するためにセグメンテーションは重要 ⼿法 n マスク重畳画像により物体輪郭の特徴量抽出を⾏うMultimodal

    Segment Attention n 画⾓外の情報を扱う3D Semantic Point Aggregator n 最適輸送を⽤いたポリゴンマッチング 結果 n mIoUにおいてベースライン⼿法のうち最良⼿法を 3.40ポイント上回った
  10. 問題設定:既存のセグメンテーションタスクより困難 - 14 - a dark grey dog on a

    grey bed G-Ref [Mao+, CVPR16] 平均⽂⻑:8.4 Go to the living room and pick up the pillow closest to the radio art on the wall. OSMI-3D [Nishimura+, IROS24] 平均⽂⻑:19.0 J OSMI-3Dタスクの⽅がより複雑な指⽰⽂
  11. : ポリゴンの頂点数、 最適輸送を⽤いたポリゴンマッチング [Nishimura+, IROS24] - 15 - 既存⼿法の損失計算 L

    ポリゴンにおける頂点順序の⼀致が必要 J 最適輸送問題を解くポリゴンマッチング : 輸送コスト Prediction Ground Truth
  12. Visual Context Interpreter [Nishimura+, IROS24] - 16 - ResNet [He+,

    CVPR15] や ViT [Dosovitskiy+, ICLR20] L 物体間の複雑な空間関係を理解することは困難 J 空間関係は重要 • 椅⼦の上にクッション • ⽂字の書かれたクッションに隠されている • ラジオの描かれた壁に最も近い など GPT-4Vを⽤いて画像説明⽂を⽣成
  13. LLM Paraphraser [九曜+, NLP24] - 17 - L The dining

    room … around the table. I want … on the opposite side from the sideboard the one 2nd from left as you stand behind facing the sideboard. J Examine the chair on the opposite side of the dining room table. L 複雑かつ複数⽂に わたる指⽰⽂ GPT-3.5を⽤いて, 指⽰⽂を結合&要約
  14. - 18 - 画像エンコーダ mIoU↑ [%] [email protected]↑[%] DarkNet-53 [Wang+, CVPR21]

    22.08 ± 0.71 22.75 ± 1.32 CLIP [Radford+, ICML21] 26.91 ± 1.15 30.28 ± 2.14 Ablation Study:CLIPを適⽤した場合の有効性の検証 SAMにより生成したセグメンテーション画像に対する画像エンコーダの比較 J セグメンテーションマスク重畳画像の⾊に依存せず物体の輪郭の特徴量を取得 → [email protected]が⼤幅に上昇 +4.83 +7.53
  15. 定性的結果(失敗例):誤解を⽣みやすい参照表現 - 19 - Ground Truth 提案⼿法 Bring me the

    orange pillow closest to the plant on the couch in the living room. L 「植物に最も近い枕」 と誤って解釈 L 過⼩なマスクを⽣成 LAVT [Yang+, CVPR22]
  16. - 20 - エラーカテゴリ エラー数 画像への過度な依存 43 視覚情報と⾔語情報の扱いに関する深刻な理解誤り 25 ⾔語情報における参照表現もしくは外部照応に関する理解誤り

    15 scene narrative ハルシネーション 13 指⽰⽂内にある対象物以外の物体のマスクを⽣成 2 曖昧な指⽰⽂ 1 アノテーションエラー 1 合計 100 エラー分析:テスト集合のIoU下位100サンプルを分析