Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] ReLaGS: Relational Language Gaus...

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

[Journal club] ReLaGS: Relational Language Gaussian Splatting

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 是方諒介 ReLaGS: Relational Language Gaussian Splatting CVPR 2026

    Xie, Y., Arafa, A., Javanmardi, A., Millerdurai, C., Hu, J., Wang, S., Pagani, A., Stricker, A. “ReLaGS: Relational Language Gaussian Splatting.” CVPR 2026. Yaxu Xie1,2∗, Abdalla Arafa1,2∗, Alireza Javanmardi1, Christen Millerdurai1, Jia Hu3, Shaoxiang Wang1,2, Alain Pagani1, Didier Stricker1,2 (1DFKI, 2RPTU University, 3University of Modena and Reggio Emilia)
  2. 概要 - 2 - 背景 ▪ Language Fieldは構造的・関係的なクエリが困難 提案:ReLaGS ▪

    階層的Gaussian表現 + 3D Scene Graph (3DSG) に基づくLanguage Field ▪ MLLM/GNNによるOpen-Vocabulary Inter/Intra-Object 3DSGの構築 結果 ▪ 3種類のOpen-Vocabulary 3D Understanding タスクで既存手法を凌駕(高速 & 省メモリ)
  3. 背景: Language Fieldは構造的・関係的なクエリへの対応が困難 - 3 - Language Field (e.g., LERF

    [Kerr+, ICCV23], LangSplatV2 [Li+, NeurIPS25]) ▪ NeRF/3DGS等の3D空間に言語特徴を持たせた連続表現(=言語クエリで検索可能) 課題:各エンティティが孤立し,意味の粒度が単一  構造的なクエリ(例:”the keyboard of the laptop”)  関係的なクエリ(例:”the cup next to the laptop”)  既存手法 [Dai+, ACM MM25] ☺ 提案手法 “towel hanging on bathroom cabinet”
  4. 関連研究:3D空間における物体の階層性・関係性が欠落 - 4 - RelationField 手法 概要 LangSplatV2 [Li+, NeurIPS25]

    LERF [Kerr+, ICCV23] NeRF/3DGS等の3D空間にCLIP等の言語特徴を持たせた連続表現  構造的・関係的なクエリへの対応が困難 RelationField [Koch+, CVPR25] Open3DSG [Koch+, CVPR24] 3D空間内における物体間の関係をScene Graph等で明示的に表現  構造的なクエリが課題,高計算コスト THGS [Dai+, ACM MM25] ConceptGraphs [Gu+, ICRA24] セグメンテーションに基づき3D空間を物体単位に分割して表現  関係的なクエリへの対応が課題 ConceptGraphs LERF
  5. 提案手法 (1/4): Relational Language Gaussian Splatting (ReLaGS) - 5 -

    新規性 1. 3D Scene Graph (3DSG) により構造的・関係的reasoningが可能なLanguage Field 2. Maximum Weight Pruning & Robust Outlier-Aware Feature Aggregationによる, 階層的Gaussian表現の幾何的・言語的な頑健性向上 3. MLLM/GNNに基づくOpen-Vocabulary Inter/Intra-Object 3DSGの構築
  6. 提案手法 (2/4):Maximum Weight Pruning (MWP) - 6 - ▪ Gaussianをクラスタリングして階層構造

    を構築(part -> object) ▪ cf. THGS [Dai+, ACM MM25]  課題:不要なGaussianがクラスタリングのノイズ ☺ MWP:Gaussian の最大寄与 が閾値 以下なら削除 :訓練時のカメラ視点集合 :各視点のピクセル集合 :Gaussian の不透明度
  7. 提案手法 (3/4): Robust Outlier-Aware Feature Aggregation (ROFA) - 7 -

     課題:同一クラスタの全視点からのCLIP特徴量 を平均 -> 外れ値の影響大 ☺ ROFA:特徴同士の類似度をZスコアに変換し,閾値未満の特徴量 を削除 :訓練時のカメラ視点数 :平均 :標準偏差
  8. 提案手法 (4/4):Open-Vocabulary Inter/Intra-Object 3DSG - 8 - ★ Inter- ☆

    Intra- ▪ 目標:物体間・物体内部で関係性の言語埋込 を取得 ▪ 方法A:2Dで予測(SoM [Yang+, 23] + MLLM)し3D変換 ☺ open-vocab.に関係性の言語生成 ▪ 方法B:GNNで幾何特徴 -> 言語特徴空間へ写像 ☺ 網羅性が高く,推論が高速 ★ Inter-Object 3DSG ☆ Intra-Object 3DSG :物体ノード集合 :物体間エッジ集合 :ノード特徴量 :エッジ特徴量 :パーツノード集合 :物体内エッジ集合 :物体 のクラスタ
  9. 実験設定: 3種類のOpen-Vocabulary 3D Understandingタスク - 9 - ① 3D Scene

    Graph Prediction ▪ ベンチマーク:3DSSG [Wald+, ICCV19] ▪ 評価指標:Recall@K ② Relationship-Guided 3D Instance Segmentation ▪ ベンチマーク:ScanNet++ [Yeshwanth+, ICCV23] ▪ 評価指標:mIoU ▪ 入力形式:<object, predicate, subject>(例:”cup next to bottle”) ③ Open-Vocabulary 3D Segmentation ▪ ベンチマーク: LERF-OVS [Kerr+, ICCV23], ScanNet [Dai+, CVPR17] ▪ 評価指標:mIoU, mAcc ▪ 入力形式:object(例:”cup”)
  10. 定量的結果 (1/2): 関係性の考慮が必要なタスクにおいて既存手法を上回った - 10 - 考察 ✓ 提案手法がpredicate(関係性)の予測で最良(GNNベースの方が良好) ✓

    関係性に関する表現がクエリに含まれる場合も,提案手法が最良 ① 3D Scene Graph Prediction ② Relationship-Guided 3D Instance Segmentation MH: Multi-Hierarchy VLM: SoM, pred.: GNN
  11. 定量的結果 (2/2):既存手法より高速 & 省メモリ - 11 - 考察 ✓ MWP,

    ROFAともに有効(前者の寄与が大きい) ✓ 訓練時間:1/4.7,ストレージ:1/7.6,VRAM:1/4.3(vs. RelationField [Koch+, CVPR25]) → ☺ 関係表現に関するシーン毎の学習が不要なため ③ Open-Vocabulary 3D Segmentation (Ablation Study) ① 3D Scene Graph Prediction (推論時間・リソース比較) : MWP, : ROFA
  12. まとめ - 13 - 背景 ▪ Language Fieldは構造的・関係的なクエリが困難 提案:ReLaGS ▪

    階層的Gaussian表現 + 3D Scene Graph (3DSG) に基づくLanguage Field ▪ MLLM/GNNによるOpen-Vocabulary Inter/Intra-Object 3DSGの構築 結果 ▪ 3種類のOpen-Vocabulary 3D Understanding タスクで既存手法を凌駕(高速 & 省メモリ)