Slide 1

Slide 1 text

マルチモーダル基盤モデルと 最適輸送を用いたポリゴンマッチング による参照表現セグメンテーション 慶應義塾大学 西村喬行,九曜克之,杉浦孔明

Slide 2

Slide 2 text

概要 - 2 - 背景 ◼ 自然言語の指示文からセグメンテーションマスクを生成するタスクに着目 手法 ◼ 最適輸送を用いたポリゴンマッチングによる効率的な学習 ◼ 画角外情報に対応するため、3D点群に対する基盤モデルの導入 ◼ MLLMによる言語を媒介とした画像特徴量 結果 ◼ 複雑な参照表現を理解し適切なマスクを生成

Slide 3

Slide 3 text

背景: 生活支援ロボットにおけるマルチモーダル言語理解は重要 - 3 - ドライバーの横のペンを持ってきて 承知しました ◼ 少子高齢化社会では、被介助者が増加 ◼ 介助者不足が社会問題に ◼ 生活支援ロボットに注目 ◼ 人間からの自然言語による指示文を理解できれば便利 ×8

Slide 4

Slide 4 text

問題設定:Object Segmentation from Manipulation Instructions-3D (OSMI-3D) task - 4 - 入力 複雑かつ2文以上の文を含む場合がある指示文 対象物を特定し、セグメンテーションマスクを生成 出力 画像 Go to the living room. And pick up the pillow closest to the radio art on the wall. 指示文 3次元点群 ☺ 物体の把持において、 マスクの生成は重要

Slide 5

Slide 5 text

本タスクは、LISA [Lai+, CVPR24]でも困難 - 5 - Generate a segmentation mask of the pillow on the couch closest to the plant in the living room. Generate a segmentation mask of the wall picture closest to the front door in the entryway.  マスク誤り  文中の対象物体 以外もマスク

Slide 6

Slide 6 text

関連研究 : 損失計算において非効率、画角外情報の理解において課題 - 6 - 手法 概要 LAVT [Yang+, CVPR22] Encoderの中間層で言語と画像の特徴量を早期に融合 SeqTR [Zhu+, ECCV22] ポリゴン予測によりマスクを生成 MDSM [Iioka+, IROS23] LAVTを基にしたITSと拡散モデルを用いたrefineを行う MDSM SeqTR

Slide 7

Slide 7 text

- 7 - 提案手法の主要なモジュール : 複雑な参照表現を理解するためのセグメンテーションモデル Polygon Matching Loss (PML) 最適輸送を用いたPolygon Matchingにより 学習の効率化を推進 Open-Vocabulary 3D Aggregator (OVA) 基盤モデルを用いて、3D点群から 画角外情報への理解の補助 VCI (Visual Context Interpreter) MLLMにより言語を媒介として画像の 複雑な参照表現を記述した画像特徴量を扱う

Slide 8

Slide 8 text

1/3 Polygon Matching Loss (PML) 頂点順序ではなく頂点位置に基づく損失を計算 - 8 - 既存手法の損失計算  ポリゴンにおける頂点順序の一致が必要 ☺ 最適輸送問題を解くポリゴンマッチング : 輸送コスト Prediction Ground Truth

Slide 9

Slide 9 text

2/3 Open-Vocabulary 3D Aggregator (OVA) 撮影地点周囲の点群を利用,視覚外の情報に対応 - 9 -  画像1枚では、画角外の物体に関する情報が得られない 3次元点群から、Open-vocabularyマルチモーダル特徴量を取得し参照表現と 対応づける OpenScene [Peng+, CVPR23] Go to the bathroom and take down the picture closest to the shower  シャワーが画角内 に存在しない

Slide 10

Slide 10 text

3/3 Visual Context Interpreter (VCI) Multimodal LLMで画像説明文を生成し、言語により構造化 - 10 - ResNet [He+, CVPR15]やViT [Dosovitskiy+, ICLR20]  物体間の複雑な空間関係を理解することは困難 ☺ 空間関係は重要 • 椅子の上にクッション • 文字の書かれたクッションに隠されている • ラジオの描かれた壁に最も近い など… GPT-4Vを用いて画像説明文を生成

Slide 11

Slide 11 text

3/3 Visual Context Interpreter (VCI) Multimodal LLMで画像説明文を生成し、言語により構造化 - 11 - ResNet [He+, CVPR15]やViT [Dosovitskiy+, ICLR20]  物体間の複雑な空間関係を理解することは困難 ☺ 物体の複雑な空間関係 を含む画像特徴量 ☺ 空間関係は重要 椅子の上、他のクッション に隠されている等

Slide 12

Slide 12 text

実験設定:REVERIEおよびMatterport3Dを基に新たに構築 - 12 - 画像数 命令文数 語彙サイズ 平均文長 4,341 11,371 3,558 18.8 SHIMRIE-3Dデータセット ◼ 画像,3次元点群,指示文および対象物体のマスク ◼ 11,371 サンプル (train/valid/test, 10,153/856/362) REVERIE [Qi+, CVPR20] Matterport3D [Chang+,3DV17] G-Ref [Mao+, CVPR16] 平均文長8.4

Slide 13

Slide 13 text

定量的結果:すべての尺度でベースライン手法を上回る - 13 - Model mIoU↑ [%] [email protected]↑[%] [email protected]↑[%] LAVT [Yang+, CVPR22] 28.16 ± 2.85 26.46 ± 4.01 18.75 ± 3.29 SeqTR [Zhu+, ECCV22] 21.84 ± 2.28 17.87 ± 7.00 5.16 ± 5.26 MDSM [Iioka+, IROS23] 24.36 ± 3.87 22.49 ± 5.46 13.71 ± 3.34 提案手法 38.16 ± 2.46 48.85 ± 2.70 22.29 ± 3.32 ☺ 代表的なRES手法であるLAVTを上回る ☺ 同様に既存のポリゴンマスク生成手法を大きく上回る結果 物体の形状や位置関係の把握能力が向上

Slide 14

Slide 14 text

Model mIoU↑ [%] [email protected]↑[%] [email protected]↑[%] LAVT [Yang+, CVPR22] 28.16 ± 2.85 26.46 ± 4.01 18.75 ± 3.29 SeqTR [Zhu+, ECCV22] 21.84 ± 2.28 17.87 ± 7.00 5.16 ± 5.26 MDSM [Iioka+, IROS23] 24.36 ± 3.87 22.49 ± 5.46 13.71 ± 3.34 提案手法 38.16 ± 2.46 48.85 ± 2.70 22.29 ± 3.32 定量的結果:すべての尺度でベースライン手法を上回る - 14 - +10.00 + 3.54 +22.39 ☺ 代表的なRES手法であるLAVTを上回る ☺ 同様に既存のポリゴンマスク生成手法を大きく上回る結果 物体の形状や位置関係の把握能力が向上

Slide 15

Slide 15 text

定性的結果(成功例)1/2:指示文から対象物体を適切に理解 - 15 - Ground Truth LAVT 提案手法 “In the 3rd level bathroom, there is a box of tissues to the left of the basin. Please fetch them here.”

Slide 16

Slide 16 text

定性的結果(成功例) 1/2 :指示文から対象物体を適切に理解 - 16 - Ground Truth  指示文中の対象物 体以外の物体に注目 ☺ 指示文から対象物体を理解 し適切にマスクを生成 LAVT 提案手法

Slide 17

Slide 17 text

- 17 - Ground Truth “Walk to the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” 定性的結果(成功例) 2/2 :複雑な参照表現を適切に理解 LAVT 提案手法

Slide 18

Slide 18 text

定性的結果(成功例) 2/2 :複雑な参照表現を適切に理解 - 18 - Ground Truth  対象物体とは 違う物体をマスク “Walk to the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” LAVT 提案手法

Slide 19

Slide 19 text

定性的結果(成功例) 2/2 :複雑な参照表現を適切に理解 - 19 - Ground Truth “Walk to the living room and fetch me the leftmost pillow on the smaller white sofa, the pillow closest to the plant on the small table.” ☺ 複雑な参照表現を 理解しマスクを生成 LAVT 提案手法

Slide 20

Slide 20 text

- 20 - Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU, [email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上 PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16 ± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74

Slide 21

Slide 21 text

PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16 ± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74 - 21 - +5.09 ☺ PMLは性能向上に有効 Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU, [email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上

Slide 22

Slide 22 text

PML OVA VCI mIoU↑ [%] [email protected]↑[%] ✓ ✓ ✓ 38.16 ± 2.46 48.85 ± 2.70 ✓ ✓ 35.27 ± 5.41 45.31 ± 7.64 ✓ ✓ 37.36 ± 2.55 48.11 ± 4.13 ✓ ✓ 33.07 ± 3.44 41.04 ± 6.74 - 22 - ☺ OVAにより画角外の 情報が得られた可能性 +0.8 Ablation Study : Polygon Matching Lossが性能向上に特に寄与 mIoU, [email protected]において、すべてのモジュールが性能向上に寄与 ☺ PML 、OVAによりそれぞれ5.09 、0.74ポイントの向上

Slide 23

Slide 23 text

まとめ - 23 - 背景 ◼ 自然言語の指示文からセグメンテーションマスクを生成するタスクに着目 手法 ◼ 最適輸送を用いたポリゴンマッチングによる効率的な学習 ◼ 画角外情報に対応するため、3D点群に対する基盤モデルの導入 ◼ MLLMによる言語を媒介とした画像特徴量 結果 ◼ 複雑な参照表現を理解し適切なマスクを生成

Slide 24

Slide 24 text

Appendix

Slide 25

Slide 25 text

エラー分析:テストセットでIoUの低い100サンプルを分析 - 25 - エラーカテゴリ エラー数 視覚情報と言語情報の扱いに関する深刻な理解誤り 43 言語情報における参照表現/外部照応に関する理解誤り 32 指示文内にある対象物以外の物体のマスクを生成 13 シーンナラティブハルシネーション 10 曖昧な指示文 2 合計 100 ◼ 対象物体と言語の接地がいまだに課題 ◼ SAMのマスク選択をAlpha-CLIP [Sun+, CVPR24]で行う

Slide 26

Slide 26 text

定性的結果 (失敗例):指示文が曖昧 - 26 - Ground Truth Baseline Ours Go to the closet in the bedroom with the orange comforter and bring me the second hanger on top.

Slide 27

Slide 27 text

定性的結果 (失敗例):指示文が曖昧 - 27 - Ground Truth Baseline Ours Go to the closet in the bedroom with the orange comforter and bring me the second hanger on top.

Slide 28

Slide 28 text

定性的結果 (失敗例):指示文が曖昧 - 28 - Ground Truth Baseline Ours  不正確なマスク Go to the closet in the bedroom with the orange comforter and bring me the second hanger on top.  過大なマスク “the second hanger” が指す物体が曖昧

Slide 29

Slide 29 text

提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 29 -  既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ 5つのモダリティの特徴量を統合、よりリッチな構造に

Slide 30

Slide 30 text

提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 30 -  既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ 5つのモダリティの特徴量を統合、よりリッチな構造に SAM [Kirillov+, ICCV23] 1.1Bのマスクで学習

Slide 31

Slide 31 text

提案手法2/3 : Segment-Based Attention Enhancer(SBAE) 大規模セグメンテーションモデルを利用 - 31 -  既存手法は、しばしば物体の輪郭の理解を誤る ◼ セグメンテーション画像を用いて、物体の形状/位置関係の理解を補助 ◼ 5つのモダリティの特徴量を統合、よりリッチな構造に : 点群由来のMultimodal特徴量 : 指示文の埋め込み : 言語を媒介とした画像特徴量 Seg画像特徴量 RGB画像の特徴量 すべての特徴量を cross-attentionで統合

Slide 32

Slide 32 text

LLM Paraphraser 指示文からの対象物体表現の特定は困難 - 32 -  The dining room … around the table. I want … on the opposite side from the sideboard the one 2nd from left as you stand behind facing the sideboard. ☺ Examine the chair on the opposite side of the dining room table. 複雑かつ複数の指示文 GPT-3.5を用いて, 指示文を結合&要約