Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] MemER: Scaling Up Memory for Rob...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Semantic Machine Intelligence Lab., Keio Univ.
PRO
December 17, 2025
0
89
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
Semantic Machine Intelligence Lab., Keio Univ.
PRO
December 17, 2025
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
7
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
71
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
140
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
340
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
210
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
48
[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models
keio_smilab
PRO
0
22
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
75
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
110
Featured
See All Featured
Ruling the World: When Life Gets Gamed
codingconduct
0
150
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
77
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
200
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
Context Engineering - Making Every Token Count
addyosmani
9
670
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
1
440
Building an army of robots
kneath
306
46k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
GraphQLの誤解/rethinking-graphql
sonatard
74
11k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
65
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
Transcript
M1 八島大地 MemER: Scaling Up Memory for Robot Control via
Experience Retrieval Sridhar, Ajay, et al. "MemER: Scaling Up Memory for Robot Control via Experience Retrieval." arXiv preprint arXiv:2510.20328 (2025). Ajay Sridhar*1, Jennifer Pan*1, Satvik Sharma1, Chelsea Finn1 1Stanford University
概要 2 • 背景 • VLAはatomic actionで学習されており,長系列タスクを解くことが困難 • Attentionによるコンテキストウィンドウの制限 •
手法: MemER • 高次のタスク計画を担うVLMと,低次のアクション実行を担うVLAを階層的に統合し, 長系列タスクに頑健なモデルを構築 • キーフレームを用いたメモリによる系列長の圧縮 • 結果 • 3種類の長系列タスクを1つのpolicyにてベースライン手法を上回る
関連研究: Memory-based VLA 3 手法 概要 SAM2Act [Fang+, ICML25] SAM2をbackboneにしたVLAを提案
メモリがないと解くのが難しいMemoryBench(simulation)を提案 [Torne+, CoRL25] Diffusion Policyに過去トークンを予測させた補助損失を組み込み,長系列タスク のimitation learningを可能に Mug replacement [Torne+, CoRL25] MemoryBench [Fang+, ICML25]
提案手法: MemER 4 • 長系列タスクを解くためのメモリを持ったVLMおよびVLAから構成される階層的 Policy • サブタスク生成およびキーフレーム抽出を行うためのHigh-Level Policy VLM
• 過去の画像系列の中からキーフレームを取得することによって情報を保持 • アクション実行のためのLow-Level Policy VLA
提案手法: High-Level Policy VLM 5 • Qwen2.5-VL-7Bをサブタスク生成およびキーフレーム抽出できるようにfinetune • 入力 •
高次のタスク指示 (e.g., “Can you get me a Chilli chicken sandwich?”) • 各カメラごとに最後のNフレーム • 過去のキーフレーム列 • 出力 • 時刻tでの低次のタスク指示 (e.g., “Go to Subway” -> “Pick up sandwich” -> ...) • キーフレーム候補 をVLAに入力し, を基にキーフレーム列を更新
提案手法: キーフレーム列の更新 6 • VLMが出力したキーフレーム候補列 はtemporal方向への冗長性を 排除できていない → 1D single-linkage
clustering • Merge distance = 5で中央値を代表キーフレームとして を取得
実験設定 7 • 環境: DROID [Khazatsky+, RSS24] • タスク: 記憶が必要な長系列タスク
• Object Search • Counting • Dust & Replace • 評価指標: task progress (e.g., Object Search: 1. 正しい物体を見つけて 物体把持できる(1点) 2. 最適なルート (1点)) Object Search
実験設定 8 • VLM: Qwen2.5-VL-7B • 各サブタスクの画像列からキーフレームを[first, last, no]でアノテーションを行いfinetune →
成否判定は最初と最後の画像から判断可能という発想 (i.e., [Goko+, CoRL24]) • 5000 stepほど学習するとサブタスク予測ができるようになるが,task recoveryなどに必要な generabilityが失われた → model merging • VLA: pi0.5 DROID finetuned [Black+, RSS25] • 3タスクから合計50軌道および10-15サンプル のinterventionデータでさらにfinetune pi*0.6 [Amin+, 25]
実験結果: 長系列タスクにおいて良好な結果 9 • pi0.5単体では何度も同じ 動作を繰り返して失敗 • 提案手法は人間によって 与えられたsubtask とほとんど同等の性能
Task: “search for milk carton" → "search for grapes" → "search for blue block"
実験結果: 画像および言語による記憶の比較 10 • 画像を用いたメモリが言語のみ,言語+画像 より良好な結果 • 言語を入れることで過度に言語にattentionが 当たり,視覚情報を無視している可能性 MemER
言語 memoryのみ Task: “put 3 scoops of peanuts in green bowl, and 3 scoops of jelly beans in blue bowl”
実験結果: メモリによる頑健性 11 • VLMによるタスク成否判定により,何度もVLAがサブタスク実行を行い失敗からリカバリ を行っている トマトを落とす ホコリ落としとボールを落とす
まとめ 12 • 背景 • VLAはatomic actionで学習されており,長系列タスクを解くことが困難 • Attentionによるコンテキストウィンドウの制限 •
手法: MemER • 高次のタスク計画を担うVLMと,低次のアクション実行を担うVLAを階層的に統合し, 長系列タスクに頑健なモデルを構築 • キーフレームを用いたメモリによる系列長の圧縮 • 結果 • 3種類の長系列タスクを1つのpolicyにてベースライン手法を上回る