Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ25] Feasible RAG: Hierarchical Multimodal R...

[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 背景:Open-Vocabulary Mobile Manipulation (OVMM) ▪ OVMM [Yenamandra+, CoRL/NeurIPS23], [Liu+, 24]

    ▪ 自然言語指示に基づく物体操作 → 実世界検索 [Yashima+, RA-L25], [Kaneda+, RA-L/IROS24] ▪ 家庭や公共空間において言語で物体検索が可能 ▪ Motivation:行動実現性がより高い物体の特定 → 成功率向上に寄与 - 2 - ドライバの横にあるペンを 持ってきてください  既存手法は「視覚・言語的に」 正しい物体か否かのみを考慮
  2. 問題設定: 実世界のRAGに基づくOpen-Vocabulary Mobile Manipulation - 3 - ▪ 前提:環境の観測画像群はpre-explorationにより収集(RAG) ▪

    入力:物体操作指示文 ▪ 出力:対象物体を上位にランク付けした画像群 4x 4x ・・・ モデル ・・・ 画像群 指示文:“Please bring the paper towels to the kitchen counter.” Rank: 1 Rank: 2 Pick Place 物体操作
  3. 関連研究:行動実現性の考慮は不十分 - 4 - マルチモーダル検索に 基づく移動・物体操作 NLMap [Chen+, ICRA23], MultiRankIt

    [Kaneda+, RA-L/IROS24], RREx-BoT [Sigurdsson+, IROS23], RelaX-Former [Yashima+, RA-L25] 大規模画像・テキスト対 で訓練された基盤モデル CLIP [Radford+, ICML21], Long-CLIP [Zhang+, ECCV24], SigLIP [Zhai+, ICCV23], BLIP-2 [Li+, ICML23], BEiT-3 [Wang+, CVPR23] グラフ構造に基づく 実世界環境の表現 Embodied-RAG [Xie+, 24], MoMa-LLM [Honerkamp+, RA-L24], ConceptGraphs [Gu+, ICRA24], HOV-SG [Werby+, RSS24] RelaX-Former Embodied-RAG
  4. 提案手法 (2/3): Feasibility-Aware Embodied Memory(ボトムアップに構築) - 6 - Level 1-2:Affordance,

    Instance ▪ Visual Promptを用いたVLMにより, Affordance予測 (cf. [Yang+, 23]) Level 3:View ▪ 領域・視覚的な特徴を並列に統合 Level N:Zone, Area, Building ▪ 凝集型クラスタリング + LLM要約 ☺ 画角外contextや部屋の役割を考慮 :物体説明 :affordance (pick, place, …) :行動実現性スコア (0.0-1.0)
  5. :言語特徴量, :視覚特徴量 提案手法 (3/3): 階層型マルチモーダル検索(トップダウンに検索) - 7 - Step 1:Building

    -> Area -> Zone ▪ 指示文と要約文の類似度で再帰探索 Step 2:View ▪ 領域・視覚類似度に基づくRanking Step 3:Instance & Affordance ▪ 上位ノードについて,行動実現性 スコアを用いてReranking → Feasibility Score Reranking
  6. 実験設定: 大規模屋内環境を扱うマルチモーダル検索ベンチマークを構築 - 8 - 既存ベンチマークの課題  建物全体を扱わず小規模に限定 (e.g., [Yashima+,

    RA-L25])  テンプレート文 or 自動生成文 (e.g., [Yenamandra+, CoRL23]) → ☺ MP3D [Chang+, 3DV17] の環境全体に対して検索可能に大規模化 画像数 2,360 アノテータ数 116 指示文数 402 平均文長 15.9 語彙数 517 提案手法による 可視化→
  7. 定量的結果: 対象物体・配置目標ともにベースライン手法を上回る検索性能 [%] 手法 対象物体 配置目標 全体 R@10↑ R@20↑ R@10↑

    R@20↑ R@10↑ R@20↑ 提案手法 49.9 61.7 24.3 30.2 37.1 45.9 NLMap* [Chen+, ICRA23] 19.2 30.4 15.1 23.6 17.2 27.0 BEiT-3 [Wang+, CVPR23] 42.1 53.8 15.4 27.6 28.7 40.7 HomeRobot* [Yenamandra+, CoRL23] 10.2 12.9 3.9 8.4 7.0 10.7 SigLIP [Zhai+, ICCV23] 34.5 47.3 11.0 22.4 22.7 34.8 Embodied-RAG [Xie+, 24] 18.5 22.8 11.3 14.4 14.9 18.6 MM-Embed [Lin+, ICLR25] 24.4 36.8 11.6 22.3 18.0 29.5 - 9 - +7.8 +8.9 +8.4 評価指標:Recall@K (R@K)
  8. 実機実験 – 設定:Open-Vocabulary Mobile Manipulation - 10 - ▪ 実機:Stretch

    2 ▪ 物体:22種類 ▪ 試行回数:40回 ▪ 評価指標: ① Recall@5 ② タスク成功率 … 32x … … … … … … … Feasibility-Aware Embodied Memory
  9. 実機実験 – 結果 (1/2): 検索性能・タスク成功率ともにベースライン手法を上回った - 11 - ☺ 自由な形式の指示文に基づく物体把持・配置

    手法 [%] R@5↑ SR↑ 提案手法 94 85 提案手法 (w/o FSR) 94 70 BEiT-3 [Wang+, CVPR23] 79 45 ☺ Feasibility Score Reranking (FSR) によるタスク成功率向上 +15 +15
  10. 実機実験 – 結果 (2/2):Feasibility Score Reranking (FSR) に基づき,より行動実現性の高い物体を上位にランク付け - 12

    - 4x 4x 対象物体 配置目標 提案手法 “Please deliver a cup to the desk that has some coffee powder on it.”  配置困難  把持困難
  11. 関連研究 (1/3) ▪ Open-vocabulary物体検出を活用 ☺ ストレートかつ容易な手法 ☺ pre-defineされた物体のみ対応 ▪ Voxel

    map + CLIP-variants ☺ Implicitなsemantic理解にも有用  参照表現理解には不向き HomeRobot [Yenamandra+, CoRL23] UniTeam [Melnik+, 23] Open-Fusion [Yamazaki+, ICRA24] CLIP-Field [Shafiullah+, RSS23] - 15 -
  12. 関連研究 (2/3) ▪ 点群 + CLIP-variants ☺ 3D spatial understandingが可能

     スケーラビリティに課題 ▪ NeRF/3DGS + CLIP-variants ☺ mobile manipulatorとの相性  動的な環境への対応 LERF [Kerr+, ICCV23] LEGS [Yu+, IROS24] OpenScene [Peng+, CVPR23] ConceptFusion [Murthy+, RSS23] - 16 -
  13. 関連研究 (3/3) ▪ VLM/LLMに基づき言語空間でRAG ☺ open-vocab.なsemantic理解  推論速度に課題 ▪ Scene

    Graphの構築  物体同士の関係性を記述可能  ノードがclosed-vocab. SayPlan [Rana+, CoRL23] MoMa-LLM [Honerkamp+, RA-L24] Embodied-RAG [Xie+, 24] NavRAG [Wang+, 25] - 17 -