[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation

慶應義塾大学杉浦孔明研究室名字氏名 RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot
Robotic Manipulation Yuxuan Kuang1,2*, Junjie Ye1*, Haoran Geng2,3*, Jiageng Mao1, Congyue Deng3, Leonidas Guibas3, He Wang2, Yue Wang1 (1University of Southern California, 2Peking University, 3Stanford University) CoRL 2024 (Oral) 慶應義塾大学杉浦孔明研究室是方諒介 Kuang, Y., Ye, J, Geng, H., Mao, J., Deng, C., Guibas, J., Wang, H., Wang, Y. "RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation." CoRL 2024.

概要背景 ✓ 言語指示に基づく，物体・環境・実機に依存しない汎用的なzero-shotの物体操作提案 ✓ out-of-domainデータからaffordance memory を構築し，検索
& 3D affordanceへ変換結果 ✓ シミュレーション・実機実験で既存手法を上回る成功率 & 多様な下流タスクへ応用 2

背景：物体・環境・実機に依存しない汎用的な物体操作 ◼ 遠隔操作等で大量のexpert demonstrationを収集して訓練  手動のためコストが大きく，十分な実データの収集が困難 ◼ インターネット規模で存在するout-of-domainデータの活用に期待 ☺ YouTube，人間の動画，AI生成の動画，スケッチ，etc
→  ドメインシフトが課題 3 DROID [Khazatsky+, 24] RT-X [O'Neil+, ICRA24] RT-Sketch [Sundaresan+, 24] HOI4D [Liu+, CVPR22]

関連研究：3D affordance予測をzero-shotで扱うことは難しい 4 手法概要 Where2Act [Mo+, ICCV21] 点群を入力とし，学習ベースでpoint-wiseなactionabilityスコアを予測 
depthカメラのノイズによるsim-to-realギャップ MOKA [Liu+, RSS24] VLM (GPT-4V) により，zero-shotで2D affordance (keypoint) を予測  事前に定義されたヒューリスティックな行動に依存 Robo-ABC [Ju+, ECCV24] human-object interaction (HOI) の動画から検索し，zero-shotで2D affordanceを予測  予測は把持点のみであり，3D affordanceを扱えない Where2Act MOKA Robo-ABC

提案手法：Retrieval-based Affordance transfer approach for generalizable zero-shot robotic Manipulation (RAM)
◼ out-of-domainデータから2D affordanceを抽出 → memoryを構築 ◼ 言語指示・観測視点の類似サンプルを検索 → 3D affordanceへ変換して実行 5

affordance memory ：3種類のout-of-domainデータから構築 ① Robotデータ：DROID ◼ 動画からエンドエフェクタの軌道を抽出 ② HOIデータ
：HOI4D ◼ 動画から手のkeypointを検出し，軌道を抽出 ③ Customデータ：Google, YouTube, etc ◼ 画像に対し，開始・終了点をアノテーション 6 ：動作開始前の静止画像：タスクのカテゴリ（言語）：contact point ：contact後の軌道

階層的なretrieval：3段階で類似サンプルを検索 ① Task Retrieval：指示文をLLMで解釈 ◼ タスクの種類と物体カテゴリを絞る ② Semantic Filtering：CLIPによる類似度計算 ◼
観測画像・指示文の両方で意味的な類似を考慮 ③ Geometrical Retrieval：視点の類似度計算 ◼ 背景：視覚基盤モデルは’orientation’の理解が困難 ◼ Stable Diffusionの特徴マップを用いた， Instance Matching Distance [Zhang+, CVPR24] を算出 7 Telling Left from Right [Zhang+, CVPR24] ：ソース画像，：ターゲット画像，：物体名（言語）

2D affordance transfer：3D affordanceへの変換 ① RANSACを用いてを → へ変換 ②
深度マップを用いて → ③ 周辺の点群を切り取り，局所的な形状を把握 ④ 各点の法線ベクトルを推定し，K平均法でクラスタリング ⑤ 法線ベクトルを2Dへ投影し，と最も近い方向を選択 3D affordance獲得 8

定量的結果：シミュレーション・実機実験ともに既存手法を凌駕 ◼ シミュレータ：Isaac Gym [Makoviychuk+, NeurIPS21] ◼ 10カテゴリ70物体を用いて3種類 (Open/Close/Pickup) のタスクを50試行ずつ実施
◼ 実機：Franka Emika robotic arm + Real Sense D415 camera ◼ 考察 ✓ 正確なcontact point予測が必要なopenタスクにおける差が顕著 ✓ *: 2D → 3D変換のため，提案手法の一部を組み込んだことの寄与に留意 9 ① シミュレーション ② 実機

Ablation Study：各retrieval stepの有効性を検証 ◼ 追加の評価指標：Distance to Mask (DTM [Ju+, ECCV24])
→ contact pointに関するGTとのピクセル距離 ◼ 考察 ✓ Geometrical Retrievalの寄与が比較的大きい ✓ データ量50%以降は変化が緩やかなことから，RAMのデータ効率性を示唆 10 ③ retrieval条件の変更 ④ affordance memoryのデータ量を変更

定性的結果 (1/3)：非ヒューリスティックかつzero-shotでの物体操作 11 “Open the drawer” “Open the microwave” “Pick
up the bowl” ☺ 既存手法より頑健なaffordance予測

定性的結果 (2/3)：one-shot visual imitationへの応用 12 ☺ 人間がティッシュペーパーを取り出す動作をone-shotで模倣 ☺ 視覚基盤モデルの汎用性により，ドメインギャップに頑健

定性的結果 (3/3)：LLM/VLMを用いたプランニングと統合可能 ◼ 実機：Unitree B1 robot dog + Unitree Z1
arm + RealSense D415 camera ◼ GPT-4Vによるタスク分解 & プランニング ◼ 例：Pickup_bottle() → move_to(trashcan_position) → release() ◼ Grounded-SAM [Ren+, 24] による対象物体のセグメンテーション 13 “Clear the table”

まとめ背景 ✓ 言語指示に基づく，物体・環境・実機に依存しない汎用的なzero-shotの物体操作提案 ✓ out-of-domainデータからaffordance memory を構築し，検索
& 3D affordanceへ変換結果 ✓ シミュレーション・実機実験で既存手法を上回る成功率 & 多様な下流タスクへ応用 14

Appendix：Custom data affordanceの例 ◼ Google, YouTube, etc から収集 & 2D
affordanceアノテーション 15

Appendix：Instance Matching Distance (IMD [Zhang+, CVPR24]) 16 ：ソース画像：ターゲット画像：ソースインスタンスのマスク
：nearest neighbor ：ソース画像の特徴マップ：ターゲット画像の特徴マップ

Appendix：affordance memoryの統計情報 17

Appendix：LLM/VLMとの統合時のプロンプト例 18

Appendix：policy distillationの定量的結果 ◼ 考察 ✓ 提案手法により自動収集したdemonstrationが性能向上に寄与 19

Appendix：cluttered sceneにおける追加実験 ◼ 考察 ✓ 依然として提案手法が既存手法を上回った ✓ 成功率の減少幅は6.7ポイントに留まり，頑健性を示唆 20

Appendix：失敗例 21  扉の面が見えず，直線的に写る視点  把手の位置が影により暗く，視認が困難

[Journal club] RAM: Retrieval-Based Affordance ...

[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室名字氏名 RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot

概要背景 ✓ 言語指示に基づく，物体・環境・実機に依存しない汎用的なzero-shotの物体操作提案 ✓ out-of-domainデータからaffordance memory を構築し，検索

関連研究：3D affordance予測をzero-shotで扱うことは難しい 4 手法概要 Where2Act [Mo+, ICCV21] 点群を入力とし，学習ベースでpoint-wiseなactionabilityスコアを予測 

提案手法：Retrieval-based Affordance transfer approach for generalizable zero-shot robotic Manipulation (RAM)

affordance memory ：3種類のout-of-domainデータから構築 ① Robotデータ：DROID ◼ 動画からエンドエフェクタの軌道を抽出 ② HOIデータ

階層的なretrieval：3段階で類似サンプルを検索 ① Task Retrieval：指示文をLLMで解釈 ◼ タスクの種類と物体カテゴリを絞る ② Semantic Filtering：CLIPによる類似度計算 ◼

2D affordance transfer：3D affordanceへの変換 ① RANSACを用いてを → へ変換 ②

定量的結果：シミュレーション・実機実験ともに既存手法を凌駕 ◼ シミュレータ：Isaac Gym [Makoviychuk+, NeurIPS21] ◼ 10カテゴリ70物体を用いて3種類 (Open/Close/Pickup) のタスクを50試行ずつ実施

Ablation Study：各retrieval stepの有効性を検証 ◼ 追加の評価指標：Distance to Mask (DTM [Ju+, ECCV24])

定性的結果 (1/3)：非ヒューリスティックかつzero-shotでの物体操作 11 “Open the drawer” “Open the microwave” “Pick

定性的結果 (2/3)：one-shot visual imitationへの応用 12 ☺ 人間がティッシュペーパーを取り出す動作をone-shotで模倣 ☺ 視覚基盤モデルの汎用性により，ドメインギャップに頑健

定性的結果 (3/3)：LLM/VLMを用いたプランニングと統合可能 ◼ 実機：Unitree B1 robot dog + Unitree Z1

まとめ背景 ✓ 言語指示に基づく，物体・環境・実機に依存しない汎用的なzero-shotの物体操作提案 ✓ out-of-domainデータからaffordance memory を構築し，検索

Appendix：Custom data affordanceの例 ◼ Google, YouTube, etc から収集 & 2D

Appendix：Instance Matching Distance (IMD [Zhang+, CVPR24]) 16 ：ソース画像：ターゲット画像：ソースインスタンスのマスク

Appendix：affordance memoryの統計情報 17

Appendix：LLM/VLMとの統合時のプロンプト例 18

Appendix：policy distillationの定量的結果 ◼ 考察 ✓ 提案手法により自動収集したdemonstrationが性能向上に寄与 19

Appendix：cluttered sceneにおける追加実験 ◼ 考察 ✓ 依然として提案手法が既存手法を上回った ✓ 成功率の減少幅は6.7ポイントに留まり，頑健性を示唆 20

Appendix：失敗例 21  扉の面が見えず，直線的に写る視点  把手の位置が影により暗く，視認が困難