Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Language-Embedded Gaussian Splat...

[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 名字氏名 Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale

    Representations with a Mobile Robot Justin Yu*1, Kush Hari*1, Kishore Srinivas*1, Karim El-Refai1, Adam Rashid1, Chung Kim1, Justin Kerr1, Richard Cheng2, Muhammad Irshad2, Ashwin Balakrishna2, Thomas Kollar2, Ken Goldberg1 (1The AUTOLab at UC Berkeley, 2Toyota Research Institute) IROS 2024 慶應義塾大学 杉浦孔明研究室 是方諒介 Yu, J., Hari, K., Srinivas, K., El-Refai, K., Rashid, A., Kim, C., Kerr, J., Cheng, R., Irshad, M., Balakrishna, A., Kollar, T., Goldberg, K. "Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot." IROS 2024.
  2. 概要 背景 ✓ 大規模屋内環境におけるobject search 提案 ✓ 3D Gaussian Splattingにより多視点画像から

    open-vocabularyなsemantic mapを逐次構築 結果 ✓ 検索性能を保ちつつ, 既存手法より3.5倍以上高速に構築 2
  3. 関連研究:3次元表現の大規模化にはレンダリング速度が課題 4 手法 概要 NeRF [Mildenhall+, ECCV20] NNを用いて多視点画像から3次元表現を再構成  レンダリングが低速

    LERF [Kerr+, ICCV23] NeRF + CLIPにより,3次元空間を open-vocabularyなクエリで検索可能 3D Gaussian Splatting [Kerbl+, SIGGRAPH23] 3Dガウス分布でシーンを表現 ☺ レンダリングが高速 3D Gaussian Splatting LERF
  4. 3D Gaussian Splattingに基づく逐次更新: Bundle Adjustment (BA) によるカメラ姿勢推定の最適化 ◼ pre-explorationにおいて,正面・左・右の3視点からRGBD画像を取得 ◼

    DROID-SLAM [Teed+, NeurIPS21]:RNNに基づくvisual SLAM ◼ BA:投影点と観測点の再投影誤差を最小化 6 pre-explorationの様子
  5. Language Embedded Gaussian Splats:CLIPによる3次元の特徴埋め込み ◼ マルチスケールなクロップ画像に対して適用 (cf. LERF [Kerr+, ICCV23])

    ☺ 多様な物体サイズに頑健 ◼ open-vocabularyなクエリに対し,最も類似度が高い座標を出力 7 [Kerr+, ICCV23]
  6. 実験設定:実機実験 ◼ 屋内環境:4種類 ◼ キッチン,ダイニング,オフィス,食料品店 ◼ クエリ:GPT-4Vにより生成 ◼ 3単語未満 ◼

    実機:Fetch ◼ Realsense D455, ZED ◼ 計算機構成:2 NVIDIA 4090 ◼ (LEGS, DROID-SLAM) = (15 GB, 18GB) ◼ 探索経路はpre-defined 8
  7. まとめ 13 背景 ✓ 大規模屋内環境におけるobject search 提案 ✓ 3D Gaussian

    Splattingにより多視点画像から open-vocabularyなsemantic mapを逐次構築 結果 ✓ 検索性能を保ちつつ, 既存手法より3.5倍以上高速に構築