Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] ReMEmbR: Building and Reasoning...

[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Abrar Anwar1, 2, John Welsh1, Joydeep Biswas1, 3, Soha Pouya1,

    Yan Chang1 1NVIDIA, 2University of Southern California, 3University of Texas at Austin ICRA 2025 慶應矩塟倧孊 杉浊孔明研究宀 B4 高科明哲 ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation Abrar Anwar, et al. ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation. ICRA 2025. pp. 2838-2845.
  2. 抂芁 - 2 - â—Œ 提案ReMEmbR â—Œ 長期間の走行ログ (画像・䜍眮・時刻) をキャプション

    + 埋め蟌みにより 怜玢可胜なメモリヌデヌタベヌスに栌玍 â—Œ LLM-agent が text / position / time の3皮類の怜玢関数を反埩実行し、 必芁な蚘憶だけを抜出しお回答を生成 â—Œ 結果 â—Œ 長時間動画ほど ReMEmbR が単玔なLLM手法を 䞊回る â—Œ 長時間動画でも掚論にかかる時間が短い
  3. 背景: 既存手法は長時間動画を扱えない - 3 - â—Œ ロボットは長期間における芳枬履歎の理解が重芁 â—Œ 自埋移動ロボットは 数十分〜数時間

    の行動履歎に基づいお 質問に回答する必芁がある â—Œ 既存手法 (MobilityVLA [Chiang+, CoRL25]) は 1-2 分皋床の短い動画のみを扱う â—Œ Transformer 系は動画時間が長くなれば, 蚈算コストが急増する → 長時間動画を扱うこずが困難
  4. 関連研究: 既存手法は長時間動画や時系列を扱えない - 4 - タスク・手法 特城 OpenEQA [Majumdar+, CVPR24]

    ロボットの芖芚芳枬に基づく質問応答タスク  30秒皋床の短い゚ピ゜ヌドを察象 Vision-and-Language Navigation [Anderson+, CVPR18] 未知環境に察するナビゲヌション  ロボットは環境を事前に探玢可胜な堎合が倚い 3D Semantic Scene Graphs [Wald+, CVPR20] Topological Memory [Savinov, ICLR18] オブゞェクト同士の意味的・空間的関係を捉える  時系列むベントや物䜓の動的な質問に察応できない MobilityVLA [Chiang+, CoRL25] long-context VLMを甚いた目暙地点ぞのナビゲヌション  長時間動画に察しおスケヌラブルでない 3D Semantic Scene Graphs MobilityVLA
  5. 問題蚭定: 長期履歎から質問に回答 - 5 - â—Œ 入力: 質問 𝑄ず長期履歎 𝐻

    = (𝐻𝐌 , 𝐻𝑃 , 𝐻𝑇 ) â—Œ 𝐻𝐌 : 画像履歎 â—Œ 𝐻𝑃 : ロボットの䜍眮履歎 â—Œ 𝐻𝑇 : 時刻履歎 â—Œ 出力: 回答 à·  𝐎 = 𝐹(𝑄, 𝐻) â—Œ 質問の皮類に応じお出力圢匏を固定 → ロボットにずっお actionable • Spatial: 座暙 (𝑥, 𝑊, z) • Temporal: 時刻や経過時間 • Descriptive: yes/no たたは自由蚘述
  6. 提案手法 (1/4)ReMEmbR - 6 - Retrieval-augmented Memory for Embodied Robots

    (ReMEmbR) â—Œ 長時間履歎 𝐻 から回答に必芁な郚分集合 𝑅 を怜玢しお掚論 â—Œ Step 1: Memory Building â—Œ Step 2: Querying â—Œ 新芏性 â—Œ 長期履歎 𝐻 を事前に 怜玢可胜なメモリ 𝑉 に倉換 â—Œ text / position / time の3皮の 怜玢により、回答に必芁な 履歎 𝐻 の郚分集合 𝑅 を取埗
  7. 提案手法 (2/4) ReMEmbR (Memory Building) - 7 - 怜玢可胜なベクトルデヌタベヌス 𝑉

    を構築 1. 動画を3秒ごずに分割 𝐻𝐌𝑖:𝑖+𝑡 (𝑡 = 3, 𝑖 ∈ {0, 3, 6, 
 } [s]) 2. 動画のキャプション生成 𝐿𝑖:𝑖+𝑡 = Captioner 𝐻𝐌𝑖:𝑖+𝑡 3. テキスト埋め蟌み 𝑒𝑖 = 𝐞 𝐿𝑖:𝑖+𝑡 4. メモリをベクトルDBに登録 𝑀𝑖 = (𝑒𝑖 , 𝐻𝑃𝑖:𝑖+𝑡 , 𝐻𝑇𝑖:𝑖+𝑡 ) ∈ 𝑉 𝐻𝐌 : 画像履歎 𝐻𝑃 : ロボットの䜍眮履歎 𝐻𝑇 : 時刻履歎 â—Œ キャプション埋め蟌みだけでなく 䜍眮・時刻も付䞎したメモリを構築
  8. 𝑅∗ = arg min 𝑅 𝑅 s.t. arg max 𝐎

    𝑝 𝐎 𝑅, 𝑄 = arg max 𝐎′ 𝑝 𝐎′ 𝐻, 𝑄 LLM-agent による逐次怜玢 1. LLM-agent が質問 𝑄 ず珟圚の文脈 𝑅𝑘 から 怜玢関数 𝒇∗ ずク゚リ 𝒒𝒌 を決定 2. Vector DB から怜玢結果 (𝒎 memories) を取埗 3. 取埗した memories を文脈 𝑹𝒌 に远加 𝑅𝑘+1 = 𝑅𝑘 ∪ 𝑓∗ 𝑞𝑘 , 𝑉 4. 回答に十分ず刀断するたで 1〜3 を繰り返す 5. 十分な文脈が集たったら最終回答を生成 â—Œ 回答に必芁な蚘憶だけを集めお掚論 → 長時間動画も扱える 提案手法 (3/4) ReMEmbR (Querying①) - 8 -
  9. 提案手法 (4/4) ReMEmbR (Querying②) - 9 - â—Œ 呌び出せる3皮類の怜玢関数 𝒇∗

    â—Œ Text retrieval: 𝑓𝑙 𝑞text , 𝑉 • テキストク゚リを埋め蟌み, それに近い memories を怜玢 â—Œ Position retrieval: 𝑓𝑝 𝑞pos , 𝑉 • 指定䜍眮に近い memories を怜玢 â—Œ Time retrieval: 𝑓𝑡 𝑞time , 𝑉 • 指定時刻に近い memories を怜玢 â—Œ 怜玢関数 𝑓∗ により 𝑚 memories を取埗 𝑓∗ 𝑞, 𝑉 → {𝑀1 , 
 , 𝑀𝑚 }, 𝑀𝑖 = 𝑒𝑖 , 𝑝𝑖 , 𝑡𝑖
  10. 実隓蚭定: デヌタセット NaVQA を構築し評䟡 - 10 - â—Œ 新芏デヌタセット: NaVQA

    â—Œ 長時間ナビゲヌションQAデヌタセット を構築 â—Œ short (0-2 min), medium (2-7 min), long (7+ min) â—Œ 30 問 × 7 sequences â—Œ 怜玢蚭定 â—Œ captioner: VILA1.5-13b [Lin+, CVPR24] (3秒の動画, 2 FPS) â—Œ embedder: mxbai-embed-large-v1 â—Œ 怜玢の繰り返し: 3回たで â—Œ 評䟡指暙 â—Œ Spatial: L2距離 (15m以内で正解) â—Œ Temporal: L1距離 (2分以内で正解) â—Œ Descriptive accuracy: LLM-Match
  11. 定量的結果 (2/2): 長時間動画でも短い時間で掚論可胜 - 12 - â—Œ 掚論速床 â—Œ ReMEmbR:

    25 sec / question (21.5 分の長時間動画) â—Œ VLM: 5.5 min / question (5.5 分の短い動画) â—Œ 怜玢機胜を呌び出すだけ → ☺ 掚論速床が動画の長さに䟝存しづらい â—Œ Ablation Study â—Œ 怜玢の反埩を行うこずで粟床向䞊 â—Œ 長い間隔で動画を分割するず 性胜が䜎䞋 â—Œ キャプショニングモデルの性胜 による圱響あり
  12. 実機実隓ず定性的結果: 実機でのナビゲヌション - 13 - â—Œ 実隓蚭定 â—Œ ロボット: Nova

    Carter robot • computer: Jetson Orin 32GB • LLM-agent: GPT-4o • captioner: VILA1.5-3b â—Œ Memory Building • 25分間ロボットを走らせお構築 â—Œ 定性的結果 ☺ 「眺めが綺麗な堎所」のような抜象的な 指瀺にも適切に察応  soda machine や water fountain ずいった オブゞェクト認識を誀る • 3Bモデルでのキャプション粟床の限界
  13. 远詊・゚ラヌ分析 (1/2): 再珟実隓の蚭定 - 14 - â—Œ モデル â—Œ 実隓環境

    â—Œ GPU: RTX 5090 â—Œ VRAM: 32 GB ▲ 動䜜確認に䜿甚した動画 (24倍速) captioner: VILA1.5-8b embedder: mxbai-embed-large-v1 LLM-agent: GPT-4o â—Œ 䜿甚したデヌタセット â—Œ 13.7分の動画 (CODa Sequence 0)
  14. 远詊・゚ラヌ分析 (2/2): 論文倀を再珟 - 15 - â—Œ 定量的結果 â—Œ 論文倀を再珟

    â—Œ 定性的結果 â—Œ 成功䟋 • Q: “Did you see a red fire hydrant?” A: “yes” • Q: “When did you first enter the building?” A: “4.5 min ago” • Q: “Where is the closest place to sit?” A: [-104, 170, -2.4] â—Œ 倱敗䟋 • Q: “Where is the nearest recycling bin?” • Q: “Are you stopped in a loading zone right now?”  キャプションによる情報の欠萜 Overall Correctness ↑ 掚論速床 (s) Short Medium Long 実隓倀 0.88 (7/8) 0.71 (5/7) 0.50 (5/10) 19.3 論文倀 0.72±0.5 0.56±0.5 0.61±0.5 25
  15. たずめ - 16 - â—Œ 提案ReMEmbR â—Œ 長期間の走行ログ (画像・䜍眮・時刻) をキャプション

    + 埋め蟌みにより 怜玢可胜なメモリヌデヌタベヌスに栌玍 â—Œ LLM-agent が text / position / time の3皮類の怜玢関数を反埩実行し、 必芁な蚘憶だけを抜出しお回答を生成 â—Œ 結果 â—Œ 長時間動画ほど ReMEmbR が単玔なLLM手法を 䞊回る â—Œ 長時間動画でも掚論にかかる時間が短い