[JSAI24]Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models

マルチモーダル基盤モデルと最適輸送を用いたポリゴンマッチングによる参照表現セグメンテーション慶應義塾大学西村喬行，九曜克之，杉浦孔明

概要 - 2 - 背景 ◼ 自然言語の指示文からセグメンテーションマスクを生成するタスクに着目手法 ◼ 最適輸送を用いたポリゴンマッチングによる効率的な学習
◼ 画角外情報に対応するため、3D点群に対する基盤モデルの導入 ◼ MLLMによる言語を媒介とした画像特徴量結果 ◼ 複雑な参照表現を理解し適切なマスクを生成

背景：生活支援ロボットにおけるマルチモーダル言語理解は重要 - 3 - ドライバーの横のペンを持ってきて承知しました ◼ 少子高齢化社会では、被介助者が増加 ◼
介助者不足が社会問題に ◼ 生活支援ロボットに注目 ◼ 人間からの自然言語による指示文を理解できれば便利 ×8

問題設定：Object Segmentation from Manipulation Instructions-3D (OSMI-3D) task - 4 -
入力複雑かつ2文以上の文を含む場合がある指示文対象物を特定し、セグメンテーションマスクを生成出力画像 Go to the living room. And pick up the pillow closest to the radio art on the wall. 指示文 3次元点群 ☺ 物体の把持において、マスクの生成は重要

本タスクは、LISA [Lai+, CVPR24]でも困難 - 5 - Generate a segmentation mask
of the pillow on the couch closest to the plant in the living room. Generate a segmentation mask of the wall picture closest to the front door in the entryway.  マスク誤り  文中の対象物体以外もマスク

関連研究 : 損失計算において非効率、画角外情報の理解において課題 - 6 - 手法概要 LAVT [Yang+,
CVPR22] Encoderの中間層で言語と画像の特徴量を早期に融合 SeqTR [Zhu+, ECCV22] ポリゴン予測によりマスクを生成 MDSM [Iioka+, IROS23] LAVTを基にしたITSと拡散モデルを用いたrefineを行う MDSM SeqTR

- 7 - 提案手法の主要なモジュール : 複雑な参照表現を理解するためのセグメンテーションモデル Polygon Matching Loss (PML)
最適輸送を用いたPolygon Matchingにより学習の効率化を推進 Open-Vocabulary 3D Aggregator (OVA) 基盤モデルを用いて、3D点群から画角外情報への理解の補助 VCI (Visual Context Interpreter) MLLMにより言語を媒介として画像の複雑な参照表現を記述した画像特徴量を扱う

1/3 Polygon Matching Loss (PML) 頂点順序ではなく頂点位置に基づく損失を計算 - 8 - 既存手法の損失計算
 ポリゴンにおける頂点順序の一致が必要 ☺ 最適輸送問題を解くポリゴンマッチング : 輸送コスト Prediction Ground Truth

2/3 Open-Vocabulary 3D Aggregator (OVA) 撮影地点周囲の点群を利用，視覚外の情報に対応 - 9 - 
画像1枚では、画角外の物体に関する情報が得られない 3次元点群から、Open-vocabularyマルチモーダル特徴量を取得し参照表現と対応づける OpenScene [Peng+, CVPR23] Go to the bathroom and take down the picture closest to the shower  シャワーが画角内に存在しない

3/3 Visual Context Interpreter (VCI) Multimodal LLMで画像説明文を生成し、言語により構造化 - 10 -
ResNet [He+, CVPR15]やViT [Dosovitskiy+, ICLR20]  物体間の複雑な空間関係を理解することは困難 ☺ 空間関係は重要 • 椅子の上にクッション • 文字の書かれたクッションに隠されている • ラジオの描かれた壁に最も近いなど… GPT-4Vを用いて画像説明文を生成

3/3 Visual Context Interpreter (VCI) Multimodal LLMで画像説明文を生成し、言語により構造化 - 11 -
ResNet [He+, CVPR15]やViT [Dosovitskiy+, ICLR20]  物体間の複雑な空間関係を理解することは困難 ☺ 物体の複雑な空間関係を含む画像特徴量 ☺ 空間関係は重要椅子の上、他のクッションに隠されている等

実験設定：REVERIEおよびMatterport3Dを基に新たに構築 - 12 - 画像数命令文数語彙サイズ平均文長 4,341 11,371
3,558 18.8 SHIMRIE-3Dデータセット ◼ 画像，3次元点群，指示文および対象物体のマスク ◼ 11,371 サンプル (train/valid/test, 10,153/856/362) REVERIE [Qi+, CVPR20] Matterport3D [Chang+，3DV17] G-Ref [Mao+, CVPR16] 平均文長8.4

定量的結果：すべての尺度でベースライン手法を上回る - 13 - Model mIoU↑ [%] [email protected]↑[%] [email protected]↑[%] LAVT
[Yang+, CVPR22] 28.16 ± 2.85 26.46 ± 4.01 18.75 ± 3.29 SeqTR [Zhu+, ECCV22] 21.84 ± 2.28 17.87 ± 7.00 5.16 ± 5.26 MDSM [Iioka+, IROS23] 24.36 ± 3.87 22.49 ± 5.46 13.71 ± 3.34 提案手法 38.16 ± 2.46 48.85 ± 2.70 22.29 ± 3.32 ☺ 代表的なRES手法であるLAVTを上回る ☺ 同様に既存のポリゴンマスク生成手法を大きく上回る結果物体の形状や位置関係の把握能力が向上

Model mIoU↑ [%] [email protected]↑[%] [email protected]↑[%] LAVT [Yang+, CVPR22] 28.16 ±
2.85 26.46 ± 4.01 18.75 ± 3.29 SeqTR [Zhu+, ECCV22] 21.84 ± 2.28 17.87 ± 7.00 5.16 ± 5.26 MDSM [Iioka+, IROS23] 24.36 ± 3.87 22.49 ± 5.46 13.71 ± 3.34 提案手法 38.16 ± 2.46 48.85 ± 2.70 22.29 ± 3.32 定量的結果：すべての尺度でベースライン手法を上回る - 14 - +10.00 + 3.54 +22.39 ☺ 代表的なRES手法であるLAVTを上回る ☺ 同様に既存のポリゴンマスク生成手法を大きく上回る結果物体の形状や位置関係の把握能力が向上

定性的結果(成功例)1/2：指示文から対象物体を適切に理解 - 15 - Ground Truth LAVT 提案手法 “In the
3rd level bathroom, there is a box of tissues to the left of the basin. Please fetch them here.”

定性的結果(成功例) 1/2 ：指示文から対象物体を適切に理解 - 16 - Ground Truth  指示文中の対象物
体以外の物体に注目 ☺ 指示文から対象物体を理解し適切にマスクを生成 LAVT 提案手法

- 17 - Ground Truth “Walk to the living room
and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” 定性的結果(成功例) 2/2 ：複雑な参照表現を適切に理解 LAVT 提案手法

定性的結果(成功例) 2/2 ：複雑な参照表現を適切に理解 - 18 - Ground Truth  対象物体とは
違う物体をマスク “Walk to the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” LAVT 提案手法

定性的結果(成功例) 2/2 ：複雑な参照表現を適切に理解 - 19 - Ground Truth “Walk to
the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” ☺ 複雑な参照表現を理解しマスクを生成 LAVT 提案手法

- 20 - Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU,
[email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上 PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16 ± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74

PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16
± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74 - 21 - +5.09 ☺ PMLは性能向上に有効 Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU, [email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上

PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16
± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74 - 22 - ☺ OVAにより画角外の情報が得られた可能性 +0.8 Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU, [email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上

まとめ - 23 - 背景 ◼ 自然言語の指示文からセグメンテーションマスクを生成するタスクに着目手法 ◼ 最適輸送を用いたポリゴンマッチングによる効率的な学習
◼ 画角外情報に対応するため、3D点群に対する基盤モデルの導入 ◼ MLLMによる言語を媒介とした画像特徴量結果 ◼ 複雑な参照表現を理解し適切なマスクを生成

Appendix

エラー分析:テストセットでIoUの低い100サンプルを分析 - 25 - エラーカテゴリエラー数視覚情報と言語情報の扱いに関する深刻な理解誤り 43 言語情報における参照表現/外部照応に関する理解誤り 32
指示文内にある対象物以外の物体のマスクを生成 13 シーンナラティブハルシネーション 10 曖昧な指示文 2 合計 100 ◼ 対象物体と言語の接地がいまだに課題 ◼ SAMのマスク選択をAlpha-CLIP [Sun+, CVPR24]で行う

定性的結果 (失敗例)：指示文が曖昧 - 26 - Ground Truth Baseline Ours Go
to the closet in the bedroom with the orange comforter and bring me the second hanger on top.

定性的結果 (失敗例)：指示文が曖昧 - 27 - Ground Truth Baseline Ours Go
to the closet in the bedroom with the orange comforter and bring me the second hanger on top.

定性的結果 (失敗例)：指示文が曖昧 - 28 - Ground Truth Baseline Ours 
不正確なマスク Go to the closet in the bedroom with the orange comforter and bring me the second hanger on top.  過大なマスク “the second hanger” が指す物体が曖昧

提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 29 - 
既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ ５つのモダリティの特徴量を統合、よりリッチな構造に

既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ ５つのモダリティの特徴量を統合、よりリッチな構造に SAM [Kirillov+, ICCV23] 1.1Bのマスクで学習

既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ ５つのモダリティの特徴量を統合、よりリッチな構造に : 点群由来のMultimodal特徴量 : 指示文の埋め込み : 言語を媒介とした画像特徴量 Seg画像特徴量 RGB画像の特徴量すべての特徴量を cross-attentionで統合

LLM Paraphraser 指示文からの対象物体表現の特定は困難 - 32 -  The dining room
… around the table. I want … on the opposite side from the sideboard the one 2nd from left as you stand behind facing the sideboard. ☺ Examine the chair on the opposite side of the dining room table. 複雑かつ複数の指示文 GPT-3.5を用いて，指示文を結合＆要約

[JSAI24]Object Segmentation from Open-Vocabular...

[JSAI24]Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

マルチモーダル基盤モデルと最適輸送を用いたポリゴンマッチングによる参照表現セグメンテーション慶應義塾大学西村喬行，九曜克之，杉浦孔明

概要 - 2 - 背景 ◼ 自然言語の指示文からセグメンテーションマスクを生成するタスクに着目手法 ◼ 最適輸送を用いたポリゴンマッチングによる効率的な学習

背景：生活支援ロボットにおけるマルチモーダル言語理解は重要 - 3 - ドライバーの横のペンを持ってきて承知しました ◼ 少子高齢化社会では、被介助者が増加 ◼

問題設定：Object Segmentation from Manipulation Instructions-3D (OSMI-3D) task - 4 -

本タスクは、LISA [Lai+, CVPR24]でも困難 - 5 - Generate a segmentation mask

関連研究 : 損失計算において非効率、画角外情報の理解において課題 - 6 - 手法概要 LAVT [Yang+,

- 7 - 提案手法の主要なモジュール : 複雑な参照表現を理解するためのセグメンテーションモデル Polygon Matching Loss (PML)

1/3 Polygon Matching Loss (PML) 頂点順序ではなく頂点位置に基づく損失を計算 - 8 - 既存手法の損失計算

2/3 Open-Vocabulary 3D Aggregator (OVA) 撮影地点周囲の点群を利用，視覚外の情報に対応 - 9 - 

3/3 Visual Context Interpreter (VCI) Multimodal LLMで画像説明文を生成し、言語により構造化 - 10 -

3/3 Visual Context Interpreter (VCI) Multimodal LLMで画像説明文を生成し、言語により構造化 - 11 -

実験設定：REVERIEおよびMatterport3Dを基に新たに構築 - 12 - 画像数命令文数語彙サイズ平均文長 4,341 11,371

定量的結果：すべての尺度でベースライン手法を上回る - 13 - Model mIoU↑ [%] [email protected]↑[%] [email protected]↑[%] LAVT

Model mIoU↑ [%] [email protected]↑[%] [email protected]↑[%] LAVT [Yang+, CVPR22] 28.16 ±

定性的結果(成功例)1/2：指示文から対象物体を適切に理解 - 15 - Ground Truth LAVT 提案手法 “In the

定性的結果(成功例) 1/2 ：指示文から対象物体を適切に理解 - 16 - Ground Truth  指示文中の対象物

- 17 - Ground Truth “Walk to the living room

定性的結果(成功例) 2/2 ：複雑な参照表現を適切に理解 - 18 - Ground Truth  対象物体とは

定性的結果(成功例) 2/2 ：複雑な参照表現を適切に理解 - 19 - Ground Truth “Walk to

- 20 - Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU,

PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16

PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16

まとめ - 23 - 背景 ◼ 自然言語の指示文からセグメンテーションマスクを生成するタスクに着目手法 ◼ 最適輸送を用いたポリゴンマッチングによる効率的な学習

Appendix

エラー分析:テストセットでIoUの低い100サンプルを分析 - 25 - エラーカテゴリエラー数視覚情報と言語情報の扱いに関する深刻な理解誤り 43 言語情報における参照表現/外部照応に関する理解誤り 32

定性的結果 (失敗例)：指示文が曖昧 - 26 - Ground Truth Baseline Ours Go

定性的結果 (失敗例)：指示文が曖昧 - 27 - Ground Truth Baseline Ours Go

定性的結果 (失敗例)：指示文が曖昧 - 28 - Ground Truth Baseline Ours 

提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 29 - 

提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 30 - 

提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 31 - 

LLM Paraphraser 指示文からの対象物体表現の特定は困難 - 32 -  The dining room