Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] RAM: Retrieval-Based Affordance ...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 15, 2024
Technology
440
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 15, 2024
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
36
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
96
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
88
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
150
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.7k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
130
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
MCP Appsを作ってみよう
iwamot
PRO
4
340
ブロックチェーン / Blockchain
ks91
PRO
0
120
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
8
4.4k
Agentic Defenseとともにセキュリティエンジニアが輝き続けるには / How Security Engineers Can Keep Excelling with Agentic Defense
yuj1osm
0
140
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
990
AI活用を推進するために ファインディが下した、一つの小さな決断
starfish719
0
280
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
140
Agentic Web
dynamis
1
200
【Gen-AX】20260530開催_JJUG CCC 2026 Spring
genax
1
450
脆弱性対応、どこで線を引くか
rymiyamoto
0
190
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
200
やさしいA2A入門
minorun365
PRO
10
1.4k
Featured
See All Featured
Producing Creativity
orderedlist
PRO
348
40k
Ethics towards AI in product and experience design
skipperchong
2
310
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
AI: The stuff that nobody shows you
jnunemaker
PRO
8
700
Leo the Paperboy
mayatellez
7
1.8k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
My Coaching Mixtape
mlcsv
0
140
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Exploring anti-patterns in Rails
aemeredith
3
400
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
290
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
How GitHub (no longer) Works
holman
316
150k
Transcript
慶應義塾大学 杉浦孔明研究室 名字氏名 RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot
Robotic Manipulation Yuxuan Kuang1,2*, Junjie Ye1*, Haoran Geng2,3*, Jiageng Mao1, Congyue Deng3, Leonidas Guibas3, He Wang2, Yue Wang1 (1University of Southern California, 2Peking University, 3Stanford University) CoRL 2024 (Oral) 慶應義塾大学 杉浦孔明研究室 是方諒介 Kuang, Y., Ye, J, Geng, H., Mao, J., Deng, C., Guibas, J., Wang, H., Wang, Y. "RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation." CoRL 2024.
概要 背景 ✓ 言語指示に基づく,物体・環境・実機に依存 しない汎用的なzero-shotの物体操作 提案 ✓ out-of-domainデータからaffordance memory を構築し,検索
& 3D affordanceへ変換 結果 ✓ シミュレーション・実機実験で既存手法を 上回る成功率 & 多様な下流タスクへ応用 2
背景:物体・環境・実機に依存しない汎用的な物体操作 ◼ 遠隔操作等で大量のexpert demonstrationを収集して訓練 手動のためコストが大きく,十分な実データの収集が困難 ◼ インターネット規模で存在するout-of-domainデータの活用に期待 ☺ YouTube,人間の動画,AI生成の動画,スケッチ,etc
→ ドメインシフトが課題 3 DROID [Khazatsky+, 24] RT-X [O'Neil+, ICRA24] RT-Sketch [Sundaresan+, 24] HOI4D [Liu+, CVPR22]
関連研究:3D affordance予測をzero-shotで扱うことは難しい 4 手法 概要 Where2Act [Mo+, ICCV21] 点群を入力とし,学習ベースでpoint-wiseなactionabilityスコアを予測
depthカメラのノイズによるsim-to-realギャップ MOKA [Liu+, RSS24] VLM (GPT-4V) により,zero-shotで2D affordance (keypoint) を予測 事前に定義されたヒューリスティックな行動に依存 Robo-ABC [Ju+, ECCV24] human-object interaction (HOI) の動画から検索し,zero-shotで2D affordanceを予測 予測は把持点のみであり,3D affordanceを扱えない Where2Act MOKA Robo-ABC
提案手法:Retrieval-based Affordance transfer approach for generalizable zero-shot robotic Manipulation (RAM)
◼ out-of-domainデータから2D affordanceを抽出 → memoryを構築 ◼ 言語指示・観測視点の類似サンプルを検索 → 3D affordanceへ変換して実行 5
affordance memory :3種類のout-of-domainデータから構築 ① Robotデータ :DROID ◼ 動画からエンドエフェクタの軌道を抽出 ② HOIデータ
:HOI4D ◼ 動画から手のkeypointを検出し,軌道を抽出 ③ Customデータ :Google, YouTube, etc ◼ 画像に対し,開始・終了点をアノテーション 6 :動作開始前の静止画像 :タスクのカテゴリ(言語) :contact point :contact後の軌道
階層的なretrieval:3段階で類似サンプルを検索 ① Task Retrieval:指示文をLLMで解釈 ◼ タスクの種類と物体カテゴリを絞る ② Semantic Filtering:CLIPによる類似度計算 ◼
観測画像・指示文の両方で意味的な類似を考慮 ③ Geometrical Retrieval:視点の類似度計算 ◼ 背景:視覚基盤モデルは’orientation’の理解が困難 ◼ Stable Diffusionの特徴マップを用いた, Instance Matching Distance [Zhang+, CVPR24] を算出 7 Telling Left from Right [Zhang+, CVPR24] :ソース画像, :ターゲット画像, :物体名(言語)
2D affordance transfer:3D affordanceへの変換 ① RANSACを用いて を → へ変換 ②
深度マップを用いて → ③ 周辺の点群を切り取り,局所的な形状を把握 ④ 各点の法線ベクトルを推定し,K平均法でクラスタリング ⑤ 法線ベクトルを2Dへ投影し, と最も近い方向を選択 3D affordance獲得 8
定量的結果:シミュレーション・実機実験ともに既存手法を凌駕 ◼ シミュレータ:Isaac Gym [Makoviychuk+, NeurIPS21] ◼ 10カテゴリ70物体を用いて3種類 (Open/Close/Pickup) のタスクを50試行ずつ実施
◼ 実機:Franka Emika robotic arm + Real Sense D415 camera ◼ 考察 ✓ 正確なcontact point予測が必要なopenタスクにおける差が顕著 ✓ *: 2D → 3D変換のため,提案手法の一部を組み込んだことの寄与に留意 9 ① シミュレーション ② 実機
Ablation Study:各retrieval stepの有効性を検証 ◼ 追加の評価指標:Distance to Mask (DTM [Ju+, ECCV24])
→ contact pointに関するGTとのピクセル距離 ◼ 考察 ✓ Geometrical Retrievalの寄与が比較的大きい ✓ データ量50%以降は変化が緩やかなことから,RAMのデータ効率性を示唆 10 ③ retrieval条件の変更 ④ affordance memoryのデータ量を変更
定性的結果 (1/3):非ヒューリスティックかつzero-shotでの物体操作 11 “Open the drawer” “Open the microwave” “Pick
up the bowl” ☺ 既存手法より頑健なaffordance予測
定性的結果 (2/3):one-shot visual imitationへの応用 12 ☺ 人間がティッシュペーパーを取り出す動作をone-shotで模倣 ☺ 視覚基盤モデルの汎用性により,ドメインギャップに頑健
定性的結果 (3/3):LLM/VLMを用いたプランニングと統合可能 ◼ 実機:Unitree B1 robot dog + Unitree Z1
arm + RealSense D415 camera ◼ GPT-4Vによるタスク分解 & プランニング ◼ 例:Pickup_bottle() → move_to(trashcan_position) → release() ◼ Grounded-SAM [Ren+, 24] による対象物体のセグメンテーション 13 “Clear the table”
まとめ 背景 ✓ 言語指示に基づく,物体・環境・実機に依存 しない汎用的なzero-shotの物体操作 提案 ✓ out-of-domainデータからaffordance memory を構築し,検索
& 3D affordanceへ変換 結果 ✓ シミュレーション・実機実験で既存手法を 上回る成功率 & 多様な下流タスクへ応用 14
Appendix:Custom data affordanceの例 ◼ Google, YouTube, etc から収集 & 2D
affordanceアノテーション 15
Appendix:Instance Matching Distance (IMD [Zhang+, CVPR24]) 16 :ソース画像 :ターゲット画像 :ソースインスタンスのマスク
:nearest neighbor :ソース画像の特徴マップ :ターゲット画像の特徴マップ
Appendix:affordance memoryの統計情報 17
Appendix:LLM/VLMとの統合時のプロンプト例 18
Appendix:policy distillationの定量的結果 ◼ 考察 ✓ 提案手法により自動収集したdemonstrationが性能向上に寄与 19
Appendix:cluttered sceneにおける追加実験 ◼ 考察 ✓ 依然として提案手法が既存手法を上回った ✓ 成功率の減少幅は6.7ポイントに留まり,頑健性を示唆 20
Appendix:失敗例 21 扉の面が見えず,直線的に写る視点 把手の位置が影により暗く,視認が困難