Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 名字氏名 Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot Justin Yu*1, Kush Hari*1, Kishore Srinivas*1, Karim El-Refai1, Adam Rashid1, Chung Kim1, Justin Kerr1, Richard Cheng2, Muhammad Irshad2, Ashwin Balakrishna2, Thomas Kollar2, Ken Goldberg1 (1The AUTOLab at UC Berkeley, 2Toyota Research Institute) IROS 2024 慶應義塾大学 杉浦孔明研究室 是方諒介 Yu, J., Hari, K., Srinivas, K., El-Refai, K., Rashid, A., Kim, C., Kerr, J., Cheng, R., Irshad, M., Balakrishna, A., Kollar, T., Goldberg, K. "Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot." IROS 2024.

Slide 2

Slide 2 text

概要 背景 ✓ 大規模屋内環境におけるobject search 提案 ✓ 3D Gaussian Splattingにより多視点画像から open-vocabularyなsemantic mapを逐次構築 結果 ✓ 検索性能を保ちつつ, 既存手法より3.5倍以上高速に構築 2

Slide 3

Slide 3 text

背景:大規模屋内環境 (> 230m2) におけるobject search ◼ 利用例:食料品店,オフィス,工場,家庭等 ◼ タスク:open-vocabularyなクエリに基づき対象物体の位置を特定 → 3D semantic mapを構築 3

Slide 4

Slide 4 text

関連研究:3次元表現の大規模化にはレンダリング速度が課題 4 手法 概要 NeRF [Mildenhall+, ECCV20] NNを用いて多視点画像から3次元表現を再構成  レンダリングが低速 LERF [Kerr+, ICCV23] NeRF + CLIPにより,3次元空間を open-vocabularyなクエリで検索可能 3D Gaussian Splatting [Kerbl+, SIGGRAPH23] 3Dガウス分布でシーンを表現 ☺ レンダリングが高速 3D Gaussian Splatting LERF

Slide 5

Slide 5 text

提案手法:Language-Embedded Gaussian Splats (LEGS) ◼ 3D Gaussian Splattingにより,多視点画像からsemantic mapを逐次構築 ◼ CLIPによる言語特徴量埋め込みによりopen-vocabularyなクエリで検索可能 5

Slide 6

Slide 6 text

3D Gaussian Splattingに基づく逐次更新: Bundle Adjustment (BA) によるカメラ姿勢推定の最適化 ◼ pre-explorationにおいて,正面・左・右の3視点からRGBD画像を取得 ◼ DROID-SLAM [Teed+, NeurIPS21]:RNNに基づくvisual SLAM ◼ BA:投影点と観測点の再投影誤差を最小化 6 pre-explorationの様子

Slide 7

Slide 7 text

Language Embedded Gaussian Splats:CLIPによる3次元の特徴埋め込み ◼ マルチスケールなクロップ画像に対して適用 (cf. LERF [Kerr+, ICCV23]) ☺ 多様な物体サイズに頑健 ◼ open-vocabularyなクエリに対し,最も類似度が高い座標を出力 7 [Kerr+, ICCV23]

Slide 8

Slide 8 text

実験設定:実機実験 ◼ 屋内環境:4種類 ◼ キッチン,ダイニング,オフィス,食料品店 ◼ クエリ:GPT-4Vにより生成 ◼ 3単語未満 ◼ 実機:Fetch ◼ Realsense D455, ZED ◼ 計算機構成:2 NVIDIA 4090 ◼ (LEGS, DROID-SLAM) = (15 GB, 18GB) ◼ 探索経路はpre-defined 8

Slide 9

Slide 9 text

定量的結果:既存手法より高速に構築可能 ◼ 考察 ✓ 既存手法と比べて,検索性能を保ちつつ3.5倍以上高速に構築 ✓ 成功率:約66% 9

Slide 10

Slide 10 text

定性的結果 (1/2):成功例 ◼ 出力:heatmap + 3次元座標 10 e.g., “hearing protection”

Slide 11

Slide 11 text

定性的結果 (2/2):失敗例  撮影時に小さく写る物体 11  色の特徴が不明瞭 “scissors” “paper roll”

Slide 12

Slide 12 text

Ablation Study:BAにより再構成品質が向上 ◼ 評価指標:Peak Signal-Noise Ratio (PSNR) ↑ 12

Slide 13

Slide 13 text

まとめ 13 背景 ✓ 大規模屋内環境におけるobject search 提案 ✓ 3D Gaussian Splattingにより多視点画像から open-vocabularyなsemantic mapを逐次構築 結果 ✓ 検索性能を保ちつつ, 既存手法より3.5倍以上高速に構築