Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] MemER: Scaling Up Memory for Rob...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
December 17, 2025
0
66
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
Semantic Machine Intelligence Lab., Keio Univ.
PRO
December 17, 2025
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
47
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
84
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
310
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
170
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
34
[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models
keio_smilab
PRO
0
9
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
66
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
94
[Journal club] Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
keio_smilab
PRO
0
150
Featured
See All Featured
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
Un-Boring Meetings
codingconduct
0
170
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
140
From π to Pie charts
rasagy
0
97
Test your architecture with Archunit
thirion
1
2.1k
Git: the NoSQL Database
bkeepers
PRO
432
66k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
1
880
Accessibility Awareness
sabderemane
0
28
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
180
Balancing Empowerment & Direction
lara
5
830
Transcript
M1 八島大地 MemER: Scaling Up Memory for Robot Control via
Experience Retrieval Sridhar, Ajay, et al. "MemER: Scaling Up Memory for Robot Control via Experience Retrieval." arXiv preprint arXiv:2510.20328 (2025). Ajay Sridhar*1, Jennifer Pan*1, Satvik Sharma1, Chelsea Finn1 1Stanford University
概要 2 • 背景 • VLAはatomic actionで学習されており,長系列タスクを解くことが困難 • Attentionによるコンテキストウィンドウの制限 •
手法: MemER • 高次のタスク計画を担うVLMと,低次のアクション実行を担うVLAを階層的に統合し, 長系列タスクに頑健なモデルを構築 • キーフレームを用いたメモリによる系列長の圧縮 • 結果 • 3種類の長系列タスクを1つのpolicyにてベースライン手法を上回る
関連研究: Memory-based VLA 3 手法 概要 SAM2Act [Fang+, ICML25] SAM2をbackboneにしたVLAを提案
メモリがないと解くのが難しいMemoryBench(simulation)を提案 [Torne+, CoRL25] Diffusion Policyに過去トークンを予測させた補助損失を組み込み,長系列タスク のimitation learningを可能に Mug replacement [Torne+, CoRL25] MemoryBench [Fang+, ICML25]
提案手法: MemER 4 • 長系列タスクを解くためのメモリを持ったVLMおよびVLAから構成される階層的 Policy • サブタスク生成およびキーフレーム抽出を行うためのHigh-Level Policy VLM
• 過去の画像系列の中からキーフレームを取得することによって情報を保持 • アクション実行のためのLow-Level Policy VLA
提案手法: High-Level Policy VLM 5 • Qwen2.5-VL-7Bをサブタスク生成およびキーフレーム抽出できるようにfinetune • 入力 •
高次のタスク指示 (e.g., “Can you get me a Chilli chicken sandwich?”) • 各カメラごとに最後のNフレーム • 過去のキーフレーム列 • 出力 • 時刻tでの低次のタスク指示 (e.g., “Go to Subway” -> “Pick up sandwich” -> ...) • キーフレーム候補 をVLAに入力し, を基にキーフレーム列を更新
提案手法: キーフレーム列の更新 6 • VLMが出力したキーフレーム候補列 はtemporal方向への冗長性を 排除できていない → 1D single-linkage
clustering • Merge distance = 5で中央値を代表キーフレームとして を取得
実験設定 7 • 環境: DROID [Khazatsky+, RSS24] • タスク: 記憶が必要な長系列タスク
• Object Search • Counting • Dust & Replace • 評価指標: task progress (e.g., Object Search: 1. 正しい物体を見つけて 物体把持できる(1点) 2. 最適なルート (1点)) Object Search
実験設定 8 • VLM: Qwen2.5-VL-7B • 各サブタスクの画像列からキーフレームを[first, last, no]でアノテーションを行いfinetune →
成否判定は最初と最後の画像から判断可能という発想 (i.e., [Goko+, CoRL24]) • 5000 stepほど学習するとサブタスク予測ができるようになるが,task recoveryなどに必要な generabilityが失われた → model merging • VLA: pi0.5 DROID finetuned [Black+, RSS25] • 3タスクから合計50軌道および10-15サンプル のinterventionデータでさらにfinetune pi*0.6 [Amin+, 25]
実験結果: 長系列タスクにおいて良好な結果 9 • pi0.5単体では何度も同じ 動作を繰り返して失敗 • 提案手法は人間によって 与えられたsubtask とほとんど同等の性能
Task: “search for milk carton" → "search for grapes" → "search for blue block"
実験結果: 画像および言語による記憶の比較 10 • 画像を用いたメモリが言語のみ,言語+画像 より良好な結果 • 言語を入れることで過度に言語にattentionが 当たり,視覚情報を無視している可能性 MemER
言語 memoryのみ Task: “put 3 scoops of peanuts in green bowl, and 3 scoops of jelly beans in blue bowl”
実験結果: メモリによる頑健性 11 • VLMによるタスク成否判定により,何度もVLAがサブタスク実行を行い失敗からリカバリ を行っている トマトを落とす ホコリ落としとボールを落とす
まとめ 12 • 背景 • VLAはatomic actionで学習されており,長系列タスクを解くことが困難 • Attentionによるコンテキストウィンドウの制限 •
手法: MemER • 高次のタスク計画を担うVLMと,低次のアクション実行を担うVLAを階層的に統合し, 長系列タスクに頑健なモデルを構築 • キーフレームを用いたメモリによる系列長の圧縮 • 結果 • 3種類の長系列タスクを1つのpolicyにてベースライン手法を上回る