[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation

是方諒介1,2,3，Quanting Xie3，Yonatan Bisk3，杉浦孔明1,2 1慶應義塾大学，2慶應AIセンター，3Carnegie Mellon University 行動実現性を考慮した階層型マルチモーダル検索に基づく移動マニピュレーション

背景：Open-Vocabulary Mobile Manipulation (OVMM) ▪ OVMM [Yenamandra+, CoRL/NeurIPS23], [Liu+, 24]
▪ 自然言語指示に基づく物体操作 → 実世界検索 [Yashima+, RA-L25], [Kaneda+, RA-L/IROS24] ▪ 家庭や公共空間において言語で物体検索が可能 ▪ Motivation：行動実現性がより高い物体の特定 → 成功率向上に寄与 - 2 - ドライバの横にあるペンを持ってきてください  既存手法は「視覚・言語的に」正しい物体か否かのみを考慮

問題設定：実世界のRAGに基づくOpen-Vocabulary Mobile Manipulation - 3 - ▪ 前提：環境の観測画像群はpre-explorationにより収集（RAG） ▪
入力：物体操作指示文 ▪ 出力：対象物体を上位にランク付けした画像群 4x 4x ・・・モデル・・・画像群指示文：“Please bring the paper towels to the kitchen counter.” Rank: 1 Rank: 2 Pick Place 物体操作

関連研究：行動実現性の考慮は不十分 - 4 - マルチモーダル検索に基づく移動・物体操作 NLMap [Chen+, ICRA23], MultiRankIt
[Kaneda+, RA-L/IROS24], RREx-BoT [Sigurdsson+, IROS23], RelaX-Former [Yashima+, RA-L25] 大規模画像・テキスト対で訓練された基盤モデル CLIP [Radford+, ICML21], Long-CLIP [Zhang+, ECCV24], SigLIP [Zhai+, ICCV23], BLIP-2 [Li+, ICML23], BEiT-3 [Wang+, CVPR23] グラフ構造に基づく実世界環境の表現 Embodied-RAG [Xie+, 24], MoMa-LLM [Honerkamp+, RA-L24], ConceptGraphs [Gu+, ICRA24], HOV-SG [Werby+, RSS24] RelaX-Former Embodied-RAG

提案手法 (1/3)：行動実現性を考慮した階層型マルチモーダル検索 - 5 - ① Visual Promptを用いたVLMに基づくAffordance予測 ②
階層型マルチモーダル検索 + 行動実現性によるReranking

提案手法 (2/3)： Feasibility-Aware Embodied Memory（ボトムアップに構築） - 6 - Level 1-2：Affordance,
Instance ▪ Visual Promptを用いたVLMにより， Affordance予測 (cf. [Yang+, 23]) Level 3：View ▪ 領域・視覚的な特徴を並列に統合 Level N：Zone, Area, Building ▪ 凝集型クラスタリング + LLM要約 ☺ 画角外contextや部屋の役割を考慮：物体説明：affordance (pick, place, …) ：行動実現性スコア (0.0-1.0)

：言語特徴量，：視覚特徴量提案手法 (3/3)：階層型マルチモーダル検索（トップダウンに検索） - 7 - Step 1：Building
-> Area -> Zone ▪ 指示文と要約文の類似度で再帰探索 Step 2：View ▪ 領域・視覚類似度に基づくRanking Step 3：Instance & Affordance ▪ 上位ノードについて，行動実現性スコアを用いてReranking → Feasibility Score Reranking

実験設定：大規模屋内環境を扱うマルチモーダル検索ベンチマークを構築 - 8 - 既存ベンチマークの課題  建物全体を扱わず小規模に限定 (e.g., [Yashima+,
RA-L25])  テンプレート文 or 自動生成文 (e.g., [Yenamandra+, CoRL23]) → ☺ MP3D [Chang+, 3DV17] の環境全体に対して検索可能に大規模化画像数 2,360 アノテータ数 116 指示文数 402 平均文長 15.9 語彙数 517 提案手法による可視化→

定量的結果：対象物体・配置目標ともにベースライン手法を上回る検索性能 [%] 手法対象物体配置目標全体 R@10↑ R@20↑ R@10↑
R@20↑ R@10↑ R@20↑ 提案手法 49.9 61.7 24.3 30.2 37.1 45.9 NLMap* [Chen+, ICRA23] 19.2 30.4 15.1 23.6 17.2 27.0 BEiT-3 [Wang+, CVPR23] 42.1 53.8 15.4 27.6 28.7 40.7 HomeRobot* [Yenamandra+, CoRL23] 10.2 12.9 3.9 8.4 7.0 10.7 SigLIP [Zhai+, ICCV23] 34.5 47.3 11.0 22.4 22.7 34.8 Embodied-RAG [Xie+, 24] 18.5 22.8 11.3 14.4 14.9 18.6 MM-Embed [Lin+, ICLR25] 24.4 36.8 11.6 22.3 18.0 29.5 - 9 - +7.8 +8.9 +8.4 評価指標：Recall@K (R@K)

実機実験 – 設定：Open-Vocabulary Mobile Manipulation - 10 - ▪ 実機：Stretch
2 ▪ 物体：22種類 ▪ 試行回数：40回 ▪ 評価指標： ① Recall@5 ② タスク成功率 … 32x … … … … … … … Feasibility-Aware Embodied Memory

実機実験 – 結果 (1/2)：検索性能・タスク成功率ともにベースライン手法を上回った - 11 - ☺ 自由な形式の指示文に基づく物体把持・配置
手法 [%] R@5↑ SR↑ 提案手法 94 85 提案手法 (w/o FSR) 94 70 BEiT-3 [Wang+, CVPR23] 79 45 ☺ Feasibility Score Reranking (FSR) によるタスク成功率向上 +15 +15

実機実験 – 結果 (2/2)：Feasibility Score Reranking (FSR) に基づき，より行動実現性の高い物体を上位にランク付け - 12
- 4x 4x 対象物体配置目標提案手法 “Please deliver a cup to the desk that has some coffee powder on it.”  配置困難  把持困難

背景：Open-Vocabulary Mobile Manipulation ▪ 視覚言語的に正しいだけでなく，物体操作成功率が高い候補物体の特定はタスク成功率向上に寄与新規性 ▪ Visual Promptを用いたVLMに基づくAffordance予測
▪ 階層型マルチモーダル検索 + 行動実現性によるReranking Feasibility-Aware Embodied Memory まとめ - 13 -

Appendix

関連研究 (1/3) ▪ Open-vocabulary物体検出を活用 ☺ ストレートかつ容易な手法 ☺ pre-defineされた物体のみ対応 ▪ Voxel
map + CLIP-variants ☺ Implicitなsemantic理解にも有用  参照表現理解には不向き HomeRobot [Yenamandra+, CoRL23] UniTeam [Melnik+, 23] Open-Fusion [Yamazaki+, ICRA24] CLIP-Field [Shafiullah+, RSS23] - 15 -

関連研究 (2/3) ▪ 点群 + CLIP-variants ☺ 3D spatial understandingが可能
 スケーラビリティに課題 ▪ NeRF/3DGS + CLIP-variants ☺ mobile manipulatorとの相性  動的な環境への対応 LERF [Kerr+, ICCV23] LEGS [Yu+, IROS24] OpenScene [Peng+, CVPR23] ConceptFusion [Murthy+, RSS23] - 16 -

関連研究 (3/3) ▪ VLM/LLMに基づき言語空間でRAG ☺ open-vocab.なsemantic理解  推論速度に課題 ▪ Scene
Graphの構築  物体同士の関係性を記述可能  ノードがclosed-vocab. SayPlan [Rana+, CoRL23] MoMa-LLM [Honerkamp+, RA-L24] Embodied-RAG [Xie+, 24] NavRAG [Wang+, 25] - 17 -

[RSJ25] Feasible RAG: Hierarchical Multimodal R...

[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

是方諒介1,2,3，Quanting Xie3，Yonatan Bisk3，杉浦孔明1,2 1慶應義塾大学，2慶應AIセンター，3Carnegie Mellon University 行動実現性を考慮した階層型マルチモーダル検索に基づく移動マニピュレーション

背景：Open-Vocabulary Mobile Manipulation (OVMM) ▪ OVMM [Yenamandra+, CoRL/NeurIPS23], [Liu+, 24]

問題設定：実世界のRAGに基づくOpen-Vocabulary Mobile Manipulation - 3 - ▪ 前提：環境の観測画像群はpre-explorationにより収集（RAG） ▪

関連研究：行動実現性の考慮は不十分 - 4 - マルチモーダル検索に基づく移動・物体操作 NLMap [Chen+, ICRA23], MultiRankIt

提案手法 (1/3)：行動実現性を考慮した階層型マルチモーダル検索 - 5 - ① Visual Promptを用いたVLMに基づくAffordance予測 ②

提案手法 (2/3)： Feasibility-Aware Embodied Memory（ボトムアップに構築） - 6 - Level 1-2：Affordance,

：言語特徴量，：視覚特徴量提案手法 (3/3)：階層型マルチモーダル検索（トップダウンに検索） - 7 - Step 1：Building

実験設定：大規模屋内環境を扱うマルチモーダル検索ベンチマークを構築 - 8 - 既存ベンチマークの課題  建物全体を扱わず小規模に限定 (e.g., [Yashima+,

定量的結果：対象物体・配置目標ともにベースライン手法を上回る検索性能 [%] 手法対象物体配置目標全体 R@10↑ R@20↑ R@10↑

実機実験 – 設定：Open-Vocabulary Mobile Manipulation - 10 - ▪ 実機：Stretch

実機実験 – 結果 (1/2)：検索性能・タスク成功率ともにベースライン手法を上回った - 11 - ☺ 自由な形式の指示文に基づく物体把持・配置

実機実験 – 結果 (2/2)：Feasibility Score Reranking (FSR) に基づき，より行動実現性の高い物体を上位にランク付け - 12

背景：Open-Vocabulary Mobile Manipulation ▪ 視覚言語的に正しいだけでなく，物体操作成功率が高い候補物体の特定はタスク成功率向上に寄与新規性 ▪ Visual Promptを用いたVLMに基づくAffordance予測

Appendix

関連研究 (1/3) ▪ Open-vocabulary物体検出を活用 ☺ ストレートかつ容易な手法 ☺ pre-defineされた物体のみ対応 ▪ Voxel

関連研究 (2/3) ▪ 点群 + CLIP-variants ☺ 3D spatial understandingが可能

関連研究 (3/3) ▪ VLM/LLMに基づき言語空間でRAG ☺ open-vocab.なsemantic理解  推論速度に課題 ▪ Scene