[Journal club] Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance

Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance Phuc
D.A. Nguyen1, Tuan Duc Ngo1,4, Evangelos Kalogerakis4, Chuang Gan2,4, Anh Tran1, Cuong Pham1,3, Khoi Nguyen1 1Vin AI Research, 2MIT-IBM Watson AI Lab, 3Posts & Telecommunications Inst. Of Tech., 4UMASS Amherst Phuc D. A. Nguyen, Tuan Duc Ngo, Evangelos Kalogerakis, Chuang Gan, Anh Tran, Cuong Pham, and Khoi Nguyen. Open3dis: Open-vocabulary 3d instance segmentation with 2d mask guidance. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2024.6 慶應義塾⼤学杉浦孔明研究室鈴⽊駿太郎 CVPR 2024

背景（1/3）：OV-3DISにおける2D基盤モデルの活⽤は困難 - 2 - n Open-Vocabulary 3D Instance Segmentation (OV-3DIS)タスクにおける課題
L ⼩物体や幾何学的に曖昧な物体はsegment困難 L 2D基盤モデル利⽤では3D → 2D投影で特徴量がずれてしまう n 既存OV-3DIS⼿法 ① 3DISモデルで点群をsegment → 2Dに投影して特徴量埋め込み n OpenMask3D [Takmaz+, NeurIPS23] n OpenIns3D [Huang+, 23] ② 多視点画像で特徴量埋め込み → 3D点群に投影 n OVIR-3D [Lu+, CoRL23] n SAM3D [Yang+, 23] L OpenMask3D [Takmaz+, NeurIPS23] ではタオルの検出に失敗

背景（2/3）：既存OV-3DIS⼿法① - 3 - ① 3DISモデルで点群をsegment → 2D に投影、特徴量埋め込み n
幾何学的特徴をFully-Supervisedなモデル（Mask3D [Schult+, ICRA23]）で抽出 n 各Instance Segmentを2D投影後CLIP [Radford+, ICML21]特徴量埋め込み OpenMask3D [Takmaz+, NeurIPS23] J ⾼精度な3D Instance Segment L Pretrained に無い⼩物体や幾何学的に曖昧な形状はsegment困難

背景（3/3）：既存OV-3DIS⼿法② - 4 - ② 多視点画像で特徴量埋め込み → 3D 点群に投影 J
⼩物体をSegment可能 L 2D→3D投影で特徴量がずれてしまう n 2D Open-Vocabulary Instance Segmentation Model（Detic [Zhou+, ECCV22]）でSegment取得 n 特徴量を既知のカメラ⾏列により 3D点群へ投影 OVIR3D [Lu+, CoRL23]

背景（3/3）：既存OV-3DIS⼿法② - 5 - ② 多視点画像で特徴量埋め込み → 3D 点群に投影 J
⼩物体をSegment可能 L 2D→3D投影で特徴量がずれてしまう n 2D Open-Vocabulary Instance Segmentation Model（Detic [Zhou+, ECCV22]）でSegment取得 n 特徴量を既知のカメラ⾏列により 3D点群へ投影 OVIR3D [Lu+, CoRL23] → OV-3DISの２⼿法を融合すれば、幾何学的に曖昧な物体を⾼精度な3D Instance Segmentationで扱えるのでは？

関連研究 - 6 - ⼿法概要 ISBNet [Ngo+, CVPR23] Dynamic
Convolutionで点群クラスタ毎にカーネルを⽤意 Mask3D [Schult+, ICRA23] Transformerによる3D Instance Segmentation OVIR3D [Lu+, CoRL23] 2D Instance Segmentationをカメラ⾏列により3D投影 OpenMask3D [Takmaz+, NeurIPS23] 事前学習3DISモデルの出⼒マスクにCLIP特徴量埋め込み ISBNet [Ngo+, CVPR23] Mask3D [Schult+, ICRA23]

提案⼿法：Open-3DIS - 7 - 新規性既存3DISモデルによるInstance Mask候補⽣成を2D基盤モデルで拡張

提案⼿法：Open-3DIS - 8 - 新規性既存3DISモデルによるInstance Mask候補⽣成を2D基盤モデルで拡張⼿法① alike ⼿法②
alike

提案⼿法：Open-3DIS - 9 - 新規性既存3DISモデルによるInstance Mask候補⽣成を2D基盤モデルで拡張

提案⼿法：Superpoints （補⾜） - 10 - Superpoints [Felzenszwalb+, ICJV04] 古典的物体検出アルゴリズム 1.
全画素をノードとし、隣接画素間にエッジを張ったグラフを作成 2. 輝度差をエッジ重みとし、動的な閾値を超えないように最⼩全域⽊でクラスタリング → 物体の輪郭を正確に表現

提案⼿法：2D-Guided-3D Instance Proposal Module - 11 - 2D Instance Segmenter
2D基盤モデル（Grounded-SAM [Ren+, ICCV23]）により⼊⼒RGB映像の各フレームに対しInstance Segmentationを⽣成 2D-Guided-3D Instance Proposal Module 1. Superpointsと2D Instance Maskの統合 2. 3D Instance Maskの⽣成

2D基盤モデル（Grounded-SAM [Ren+, ICCV23]）により⼊⼒RGB映像の各フレームに対しInstance Segmentationを⽣成 2D-Guided-3D Instance Proposal Module 1. Superpointsと2D Instance Maskの統合 2. 3D Instance Maskの⽣成 1. Superpointsをカメラ⾏列で2D投影 2. Superpointsの内、2D Instance MaskとのIoUが閾値（τ!"# ）以上のものを選別 3. 事前学習3DISモデルで点群特徴量を取得（F$% ∈ ℝ&×%!"） 4. 選別Superpointsに対しf, f′ ∈ F$% 同⼠のCosSimが閾値（ τ(!) ）以上のものを結合

2D基盤モデル（Grounded-SAM [Ren+, ICCV23]）により⼊⼒RGB映像の各フレームに対しInstance Segmentationを⽣成 2D-Guided-3D Instance Proposal Module 1. Superpointと2D Instance Maskの統合 2. 3D Instance Maskの⽣成 n フレーム間のInstance Maskを 2D基盤モデル由来の点群特徴量によるCosSimで凝集型クラスタリング n 時間軸で階層的に統合

提案⼿法：3D Instance Segmenter - 14 - 3D Instance Segmenter n
既存3DISモデルによりInstance Mask⽣成（予測ラベルは破棄） n ISBNet [Ngo+, CVPR23], Mask3D [Schult+, ICRA23]を使⽤ 2D-Guided-3D Instance ProposalによりInstance Maskを拡張 Non-Maximum Suppression（NMS）により重複Instance Maskは除外（Instance同⼠のIoUが閾値以上の場合，スコアの低いInstanceを除外）

提案⼿法：Pointwise Feature Extraction - 15 - Pointwise Feature Extraction n
各Instance Maskに関して写っている⾯積の多い上位λ枚の視点を取得 n SAM [Kirillov+, ICCV23]によりSegmentし、CLIP特徴量を取得

実験設定：3種類の3Dデータセットを⽤いて評価 - 16 - n データセット n ScanNet200 [Rozenberszki+, ECCV22]
n Replica [Straub+, 19] n S3DIS [Armeni+, 17] n 評価指標 n AP (IoU 25%, 50%) n mAP (IoU 50~95%) n Backbone n 3D Segmenter ISBNet [Ngo+, CVPR23], Mask3D [Schult+, ICRA] n 2D Segmenter Grounded-SAM [Ren+, ICCV23] n CLIP特徴量 ViT-L/14 [Dosovitsky+, 20] ScanNet200 [Rozenberszki+, ECCV22] Replica [Straub+, 19]

定量的結果：OV-3DISにおいて既存⼿法を上回る - 17 - + 3.9ポイント + 8.3ポイント J ScanNet200において既存のOV-3DISモデルを全ての評価指標で上回る
J ⼩物体においてはFully-Supervisedな3DISモデルをも上回る ScanNet200 [Rozenberszki+, ECCV22]における3DIS

定性的結果：任意promptに対するSegmentation - 18 - JOpen-VocabularyなInstance Segmentationが可能（いずれのラベルもScanNet200に含まれない）

追試およびエラー分析：物体間の位置関係は扱えない - 19 - “pulled chair” “desk beneath the TV”
L 位置関係を考慮したInstance Segmentationに失敗 L 2D Segmenter，3D Segmenter共に物体間の相互関係は扱っていない正解正解

まとめ - 20 - n 背景 n 既存Open-Vocabulary 3D Instance
Segmentationは⼩物体や幾何学的に曖昧な物体への対応× n 2D基盤モデルの3D流⽤は特徴量投影がずれてしまう n 提案⼿法：Open-3DIS n 既存3DISモデルによる⾼精度な3D Instance Mask⽣成を2D基盤モデルで拡張 n ⼩物体へのSegmentationが可能 n 結果 n OV-3DISタスクにおいて全てのデータセットでSOTA n ⼩物体に対するSegmentationはFully-Supervised モデルをも凌駕

所感 - 21 - n Strength n ⼩物体のSegmentationではFully-Supervisedな⼿法をも上回る n マスク⽣成及び特徴量埋め込みの２段階で2D基盤モデルを利⽤している
n Weakness n ⼤物体へのSegmentationは3DISモデル依存である n 実験環境の記載がない n Open-Vocabularyと謳っているのに使⽤したText Encoderの記載がない n Comment n 2D Instance Segmentationの3D投影によるずれをSuperpointsで防いでいる点が⾯⽩かった n 3D投影はDepth予測モデルを使⽤したアプローチも可能？

APPENDIX：Pointwise Feature Extraction - 22 - Pointwise Feature Extraction n
各Instance Maskに関して写っている⾯積の多い上位λ枚の視点を取得 n SAM [Kirillov+, ICCV23]によりSegmentし、CLIP特徴量を取得 CLIP特徴量 𝐅𝐂𝐋𝐈𝐏 = 𝐍𝐕(∑𝒌 (∑𝒗 𝐯𝛌 ∗ 𝐟𝛌,𝒌 𝐂𝐋𝐈𝐏 ∗ 𝐦𝒌 𝟑𝐃) ∈ ℝ𝐍×𝐃𝐂𝐋𝐈𝐏 f5,6 789: ∈ ℝ%'()*：k番⽬インスタンスの視点λ枚⽬のCLIP特徴量 v5 ∈ {0,1}&：視点λ枚⽬の可視領域マスク(Nは点群数) m6 $% ∈ {0,1}&：k番⽬インスタンスのマスク（Nは点群数）

APPENDIX：定量的結果 - 23 - 𝐴𝑃;<=>? ：ScanNet20に含まれていないクラス 𝐴𝑃@AB> ：ScanNet20と似たクラス J いずれの評価指標でも既存OV-3DISモデルを上回る
Replicaとクラス分類の近いScanNet200はBackbone 3D Segmenterで既に学習されてしまっている J 完全なZero-ShotであるOurs(only 2D)でも既存OV-3DISモデルを上回る ScanNet200 [Rozenberszki+, ECCV22]での3DIS Replica [Straub+, 19]での3DIS

APPENDIX：定性的結果 - 24 - J良好な⼩物体のInstance Segmentation（タオル、キーボード、セーター、蛇⼝）

APPENDIX: Ablation Study（1/2） - 25 - 2D Instance Maskの3D投影⼿法 2D
Instance Maskの統合⼿法 J点群特徴によるSuperpointsの統合が有効 J時系列⽅向の階層的な凝集型クラスタリングが有効

APPENDIX: Ablation Study（2/2） - 26 - 3D Instance Segmenter 2D
Instance Segmenter J Grounded-SAM [Ren+, ICCV23]が有効な2Dセグメンテーションモデル

APPENDIX：データセットの詳細 - 27 - n ScanNet200[Rozenberszki+, ECCV22] n 1513シーン，約250万枚の多視点画像から構成 n
ScaneNet[Dai+, CVPR17]のクラス数を200クラスに拡張したデータセット n 200クラスは出現頻度に応じてHead, Common, Tailに分類される n Replica[Straub+, 19] n HDR形式の3D屋内環境18シーン，88クラス n S3DIS [Armeni+, 17] n Stanfordの3D屋内環境，6区画271部屋，13クラス

APPENDIX：評価指標 - 28 - n AP（Average Precision） n 予測Instance数に応じたPrecision-Recall曲線の⾯積 ;
C D 𝑝 𝑟 𝑑𝑟 (p: Precison, r: Recall) n mAP n クラスベルごとのAPの平均 n Intersection over Union（IoU) n 正解Instance領域および予測Instance領域間の重複度 n A：正解領域，B：予測領域 𝐼𝑜𝑈 = 𝐴 ∩ 𝐵 𝐴 ∪ 𝐵

[Journal club] Open3DIS: Open-Vocabulary 3D Ins...

[Journal club] Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance Phuc

背景（1/3）：OV-3DISにおける2D基盤モデルの活⽤は困難 - 2 - n Open-Vocabulary 3D Instance Segmentation (OV-3DIS)タスクにおける課題

背景（2/3）：既存OV-3DIS⼿法① - 3 - ① 3DISモデルで点群をsegment → 2D に投影、特徴量埋め込み n

背景（3/3）：既存OV-3DIS⼿法② - 4 - ② 多視点画像で特徴量埋め込み → 3D 点群に投影 J

背景（3/3）：既存OV-3DIS⼿法② - 5 - ② 多視点画像で特徴量埋め込み → 3D 点群に投影 J

関連研究 - 6 - ⼿法概要 ISBNet [Ngo+, CVPR23] Dynamic

提案⼿法：Open-3DIS - 7 - 新規性既存3DISモデルによるInstance Mask候補⽣成を2D基盤モデルで拡張

提案⼿法：Open-3DIS - 8 - 新規性既存3DISモデルによるInstance Mask候補⽣成を2D基盤モデルで拡張⼿法① alike ⼿法②

提案⼿法：Open-3DIS - 9 - 新規性既存3DISモデルによるInstance Mask候補⽣成を2D基盤モデルで拡張

提案⼿法：Superpoints （補⾜） - 10 - Superpoints [Felzenszwalb+, ICJV04] 古典的物体検出アルゴリズム 1.

提案⼿法：2D-Guided-3D Instance Proposal Module - 11 - 2D Instance Segmenter

提案⼿法：2D-Guided-3D Instance Proposal Module - 12 - 2D Instance Segmenter

提案⼿法：2D-Guided-3D Instance Proposal Module - 13 - 2D Instance Segmenter

提案⼿法：3D Instance Segmenter - 14 - 3D Instance Segmenter n

提案⼿法：Pointwise Feature Extraction - 15 - Pointwise Feature Extraction n

実験設定：3種類の3Dデータセットを⽤いて評価 - 16 - n データセット n ScanNet200 [Rozenberszki+, ECCV22]

定量的結果：OV-3DISにおいて既存⼿法を上回る - 17 - + 3.9ポイント + 8.3ポイント J ScanNet200において既存のOV-3DISモデルを全ての評価指標で上回る

定性的結果：任意promptに対するSegmentation - 18 - JOpen-VocabularyなInstance Segmentationが可能（いずれのラベルもScanNet200に含まれない）

追試およびエラー分析：物体間の位置関係は扱えない - 19 - “pulled chair” “desk beneath the TV”

まとめ - 20 - n 背景 n 既存Open-Vocabulary 3D Instance

所感 - 21 - n Strength n ⼩物体のSegmentationではFully-Supervisedな⼿法をも上回る n マスク⽣成及び特徴量埋め込みの２段階で2D基盤モデルを利⽤している

APPENDIX：Pointwise Feature Extraction - 22 - Pointwise Feature Extraction n

APPENDIX：定量的結果 - 23 - 𝐴𝑃;<=>? ：ScanNet20に含まれていないクラス 𝐴𝑃@AB> ：ScanNet20と似たクラス J いずれの評価指標でも既存OV-3DISモデルを上回る

APPENDIX：定性的結果 - 24 - J良好な⼩物体のInstance Segmentation（タオル、キーボード、セーター、蛇⼝）

APPENDIX: Ablation Study（1/2） - 25 - 2D Instance Maskの3D投影⼿法 2D

APPENDIX: Ablation Study（2/2） - 26 - 3D Instance Segmenter 2D

APPENDIX：データセットの詳細 - 27 - n ScanNet200[Rozenberszki+, ECCV22] n 1513シーン，約250万枚の多視点画像から構成 n

APPENDIX：評価指標 - 28 - n AP（Average Precision） n 予測Instance数に応じたPrecision-Recall曲線の⾯積 ;