Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI24]Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models

[JSAI24]Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 概要 - 2 - 背景 ◼ 自然言語の指示文からセグメンテーションマスクを生成するタスクに着目 手法 ◼ 最適輸送を用いたポリゴンマッチングによる効率的な学習

    ◼ 画角外情報に対応するため、3D点群に対する基盤モデルの導入 ◼ MLLMによる言語を媒介とした画像特徴量 結果 ◼ 複雑な参照表現を理解し適切なマスクを生成
  2. 背景: 生活支援ロボットにおけるマルチモーダル言語理解は重要 - 3 - ドライバーの横のペンを持ってきて 承知しました ◼ 少子高齢化社会では、被介助者が増加 ◼

    介助者不足が社会問題に ◼ 生活支援ロボットに注目 ◼ 人間からの自然言語による指示文を理解できれば便利 ×8
  3. 問題設定:Object Segmentation from Manipulation Instructions-3D (OSMI-3D) task - 4 -

    入力 複雑かつ2文以上の文を含む場合がある指示文 対象物を特定し、セグメンテーションマスクを生成 出力 画像 Go to the living room. And pick up the pillow closest to the radio art on the wall. 指示文 3次元点群 ☺ 物体の把持において、 マスクの生成は重要
  4. 本タスクは、LISA [Lai+, CVPR24]でも困難 - 5 - Generate a segmentation mask

    of the pillow on the couch closest to the plant in the living room. Generate a segmentation mask of the wall picture closest to the front door in the entryway.  マスク誤り  文中の対象物体 以外もマスク
  5. 関連研究 : 損失計算において非効率、画角外情報の理解において課題 - 6 - 手法 概要 LAVT [Yang+,

    CVPR22] Encoderの中間層で言語と画像の特徴量を早期に融合 SeqTR [Zhu+, ECCV22] ポリゴン予測によりマスクを生成 MDSM [Iioka+, IROS23] LAVTを基にしたITSと拡散モデルを用いたrefineを行う MDSM SeqTR
  6. - 7 - 提案手法の主要なモジュール : 複雑な参照表現を理解するためのセグメンテーションモデル Polygon Matching Loss (PML)

    最適輸送を用いたPolygon Matchingにより 学習の効率化を推進 Open-Vocabulary 3D Aggregator (OVA) 基盤モデルを用いて、3D点群から 画角外情報への理解の補助 VCI (Visual Context Interpreter) MLLMにより言語を媒介として画像の 複雑な参照表現を記述した画像特徴量を扱う
  7. 1/3 Polygon Matching Loss (PML) 頂点順序ではなく頂点位置に基づく損失を計算 - 8 - 既存手法の損失計算

     ポリゴンにおける頂点順序の一致が必要 ☺ 最適輸送問題を解くポリゴンマッチング : 輸送コスト Prediction Ground Truth
  8. 2/3 Open-Vocabulary 3D Aggregator (OVA) 撮影地点周囲の点群を利用,視覚外の情報に対応 - 9 - 

    画像1枚では、画角外の物体に関する情報が得られない 3次元点群から、Open-vocabularyマルチモーダル特徴量を取得し参照表現と 対応づける OpenScene [Peng+, CVPR23] Go to the bathroom and take down the picture closest to the shower  シャワーが画角内 に存在しない
  9. 3/3 Visual Context Interpreter (VCI) Multimodal LLMで画像説明文を生成し、言語により構造化 - 10 -

    ResNet [He+, CVPR15]やViT [Dosovitskiy+, ICLR20]  物体間の複雑な空間関係を理解することは困難 ☺ 空間関係は重要 • 椅子の上にクッション • 文字の書かれたクッションに隠されている • ラジオの描かれた壁に最も近い など… GPT-4Vを用いて画像説明文を生成
  10. 3/3 Visual Context Interpreter (VCI) Multimodal LLMで画像説明文を生成し、言語により構造化 - 11 -

    ResNet [He+, CVPR15]やViT [Dosovitskiy+, ICLR20]  物体間の複雑な空間関係を理解することは困難 ☺ 物体の複雑な空間関係 を含む画像特徴量 ☺ 空間関係は重要 椅子の上、他のクッション に隠されている等
  11. 実験設定:REVERIEおよびMatterport3Dを基に新たに構築 - 12 - 画像数 命令文数 語彙サイズ 平均文長 4,341 11,371

    3,558 18.8 SHIMRIE-3Dデータセット ◼ 画像,3次元点群,指示文および対象物体のマスク ◼ 11,371 サンプル (train/valid/test, 10,153/856/362) REVERIE [Qi+, CVPR20] Matterport3D [Chang+,3DV17] G-Ref [Mao+, CVPR16] 平均文長8.4
  12. 定量的結果:すべての尺度でベースライン手法を上回る - 13 - Model mIoU↑ [%] [email protected]↑[%] [email protected]↑[%] LAVT

    [Yang+, CVPR22] 28.16 ± 2.85 26.46 ± 4.01 18.75 ± 3.29 SeqTR [Zhu+, ECCV22] 21.84 ± 2.28 17.87 ± 7.00 5.16 ± 5.26 MDSM [Iioka+, IROS23] 24.36 ± 3.87 22.49 ± 5.46 13.71 ± 3.34 提案手法 38.16 ± 2.46 48.85 ± 2.70 22.29 ± 3.32 ☺ 代表的なRES手法であるLAVTを上回る ☺ 同様に既存のポリゴンマスク生成手法を大きく上回る結果 物体の形状や位置関係の把握能力が向上
  13. Model mIoU↑ [%] [email protected]↑[%] [email protected]↑[%] LAVT [Yang+, CVPR22] 28.16 ±

    2.85 26.46 ± 4.01 18.75 ± 3.29 SeqTR [Zhu+, ECCV22] 21.84 ± 2.28 17.87 ± 7.00 5.16 ± 5.26 MDSM [Iioka+, IROS23] 24.36 ± 3.87 22.49 ± 5.46 13.71 ± 3.34 提案手法 38.16 ± 2.46 48.85 ± 2.70 22.29 ± 3.32 定量的結果:すべての尺度でベースライン手法を上回る - 14 - +10.00 + 3.54 +22.39 ☺ 代表的なRES手法であるLAVTを上回る ☺ 同様に既存のポリゴンマスク生成手法を大きく上回る結果 物体の形状や位置関係の把握能力が向上
  14. 定性的結果(成功例)1/2:指示文から対象物体を適切に理解 - 15 - Ground Truth LAVT 提案手法 “In the

    3rd level bathroom, there is a box of tissues to the left of the basin. Please fetch them here.”
  15. 定性的結果(成功例) 1/2 :指示文から対象物体を適切に理解 - 16 - Ground Truth  指示文中の対象物

    体以外の物体に注目 ☺ 指示文から対象物体を理解 し適切にマスクを生成 LAVT 提案手法
  16. - 17 - Ground Truth “Walk to the living room

    and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” 定性的結果(成功例) 2/2 :複雑な参照表現を適切に理解 LAVT 提案手法
  17. 定性的結果(成功例) 2/2 :複雑な参照表現を適切に理解 - 18 - Ground Truth  対象物体とは

    違う物体をマスク “Walk to the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” LAVT 提案手法
  18. 定性的結果(成功例) 2/2 :複雑な参照表現を適切に理解 - 19 - Ground Truth “Walk to

    the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” ☺ 複雑な参照表現を 理解しマスクを生成 LAVT 提案手法
  19. - 20 - Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU,

    [email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上 PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16 ± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74
  20. PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16

    ± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74 - 21 - +5.09 ☺ PMLは性能向上に有効 Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU, [email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上
  21. PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16

    ± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74 - 22 - ☺ OVAにより画角外の 情報が得られた可能性 +0.8 Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU, [email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上
  22. まとめ - 23 - 背景 ◼ 自然言語の指示文からセグメンテーションマスクを生成するタスクに着目 手法 ◼ 最適輸送を用いたポリゴンマッチングによる効率的な学習

    ◼ 画角外情報に対応するため、3D点群に対する基盤モデルの導入 ◼ MLLMによる言語を媒介とした画像特徴量 結果 ◼ 複雑な参照表現を理解し適切なマスクを生成
  23. エラー分析:テストセットでIoUの低い100サンプルを分析 - 25 - エラーカテゴリ エラー数 視覚情報と言語情報の扱いに関する深刻な理解誤り 43 言語情報における参照表現/外部照応に関する理解誤り 32

    指示文内にある対象物以外の物体のマスクを生成 13 シーンナラティブハルシネーション 10 曖昧な指示文 2 合計 100 ◼ 対象物体と言語の接地がいまだに課題 ◼ SAMのマスク選択をAlpha-CLIP [Sun+, CVPR24]で行う
  24. 定性的結果 (失敗例):指示文が曖昧 - 26 - Ground Truth Baseline Ours Go

    to the closet in the bedroom with the orange comforter and bring me the second hanger on top.
  25. 定性的結果 (失敗例):指示文が曖昧 - 27 - Ground Truth Baseline Ours Go

    to the closet in the bedroom with the orange comforter and bring me the second hanger on top.
  26. 定性的結果 (失敗例):指示文が曖昧 - 28 - Ground Truth Baseline Ours 

    不正確なマスク Go to the closet in the bedroom with the orange comforter and bring me the second hanger on top.  過大なマスク “the second hanger” が指す物体が曖昧
  27. 提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 29 - 

    既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ 5つのモダリティの特徴量を統合、よりリッチな構造に
  28. 提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 30 - 

    既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ 5つのモダリティの特徴量を統合、よりリッチな構造に SAM [Kirillov+, ICCV23] 1.1Bのマスクで学習
  29. 提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 31 - 

    既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ 5つのモダリティの特徴量を統合、よりリッチな構造に : 点群由来のMultimodal特徴量 : 指示文の埋め込み : 言語を媒介とした画像特徴量 Seg画像特徴量 RGB画像の特徴量 すべての特徴量を cross-attentionで統合
  30. LLM Paraphraser 指示文からの対象物体表現の特定は困難 - 32 -  The dining room

    … around the table. I want … on the opposite side from the sideboard the one 2nd from left as you stand behind facing the sideboard. ☺ Examine the chair on the opposite side of the dining room table. 複雑かつ複数の指示文 GPT-3.5を用いて, 指示文を結合&要約