Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 名字氏名 RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation Yuxuan Kuang1,2*, Junjie Ye1*, Haoran Geng2,3*, Jiageng Mao1, Congyue Deng3, Leonidas Guibas3, He Wang2, Yue Wang1 (1University of Southern California, 2Peking University, 3Stanford University) CoRL 2024 (Oral) 慶應義塾大学 杉浦孔明研究室 是方諒介 Kuang, Y., Ye, J, Geng, H., Mao, J., Deng, C., Guibas, J., Wang, H., Wang, Y. "RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation." CoRL 2024.

Slide 2

Slide 2 text

概要 背景 ✓ 言語指示に基づく,物体・環境・実機に依存 しない汎用的なzero-shotの物体操作 提案 ✓ out-of-domainデータからaffordance memory を構築し,検索 & 3D affordanceへ変換 結果 ✓ シミュレーション・実機実験で既存手法を 上回る成功率 & 多様な下流タスクへ応用 2

Slide 3

Slide 3 text

背景:物体・環境・実機に依存しない汎用的な物体操作 ◼ 遠隔操作等で大量のexpert demonstrationを収集して訓練  手動のためコストが大きく,十分な実データの収集が困難 ◼ インターネット規模で存在するout-of-domainデータの活用に期待 ☺ YouTube,人間の動画,AI生成の動画,スケッチ,etc →  ドメインシフトが課題 3 DROID [Khazatsky+, 24] RT-X [O'Neil+, ICRA24] RT-Sketch [Sundaresan+, 24] HOI4D [Liu+, CVPR22]

Slide 4

Slide 4 text

関連研究:3D affordance予測をzero-shotで扱うことは難しい 4 手法 概要 Where2Act [Mo+, ICCV21] 点群を入力とし,学習ベースでpoint-wiseなactionabilityスコアを予測  depthカメラのノイズによるsim-to-realギャップ MOKA [Liu+, RSS24] VLM (GPT-4V) により,zero-shotで2D affordance (keypoint) を予測  事前に定義されたヒューリスティックな行動に依存 Robo-ABC [Ju+, ECCV24] human-object interaction (HOI) の動画から検索し,zero-shotで2D affordanceを予測  予測は把持点のみであり,3D affordanceを扱えない Where2Act MOKA Robo-ABC

Slide 5

Slide 5 text

提案手法:Retrieval-based Affordance transfer approach for generalizable zero-shot robotic Manipulation (RAM) ◼ out-of-domainデータから2D affordanceを抽出 → memoryを構築 ◼ 言語指示・観測視点の類似サンプルを検索 → 3D affordanceへ変換して実行 5

Slide 6

Slide 6 text

affordance memory :3種類のout-of-domainデータから構築 ① Robotデータ :DROID ◼ 動画からエンドエフェクタの軌道を抽出 ② HOIデータ :HOI4D ◼ 動画から手のkeypointを検出し,軌道を抽出 ③ Customデータ :Google, YouTube, etc ◼ 画像に対し,開始・終了点をアノテーション 6 :動作開始前の静止画像 :タスクのカテゴリ(言語) :contact point :contact後の軌道

Slide 7

Slide 7 text

階層的なretrieval:3段階で類似サンプルを検索 ① Task Retrieval:指示文をLLMで解釈 ◼ タスクの種類と物体カテゴリを絞る ② Semantic Filtering:CLIPによる類似度計算 ◼ 観測画像・指示文の両方で意味的な類似を考慮 ③ Geometrical Retrieval:視点の類似度計算 ◼ 背景:視覚基盤モデルは’orientation’の理解が困難 ◼ Stable Diffusionの特徴マップを用いた, Instance Matching Distance [Zhang+, CVPR24] を算出 7 Telling Left from Right [Zhang+, CVPR24] :ソース画像, :ターゲット画像, :物体名(言語)

Slide 8

Slide 8 text

2D affordance transfer:3D affordanceへの変換 ① RANSACを用いて を → へ変換 ② 深度マップを用いて → ③ 周辺の点群を切り取り,局所的な形状を把握 ④ 各点の法線ベクトルを推定し,K平均法でクラスタリング ⑤ 法線ベクトルを2Dへ投影し, と最も近い方向を選択 3D affordance獲得 8

Slide 9

Slide 9 text

定量的結果:シミュレーション・実機実験ともに既存手法を凌駕 ◼ シミュレータ:Isaac Gym [Makoviychuk+, NeurIPS21] ◼ 10カテゴリ70物体を用いて3種類 (Open/Close/Pickup) のタスクを50試行ずつ実施 ◼ 実機:Franka Emika robotic arm + Real Sense D415 camera ◼ 考察 ✓ 正確なcontact point予測が必要なopenタスクにおける差が顕著 ✓ *: 2D → 3D変換のため,提案手法の一部を組み込んだことの寄与に留意 9 ① シミュレーション ② 実機

Slide 10

Slide 10 text

Ablation Study:各retrieval stepの有効性を検証 ◼ 追加の評価指標:Distance to Mask (DTM [Ju+, ECCV24]) → contact pointに関するGTとのピクセル距離 ◼ 考察 ✓ Geometrical Retrievalの寄与が比較的大きい ✓ データ量50%以降は変化が緩やかなことから,RAMのデータ効率性を示唆 10 ③ retrieval条件の変更 ④ affordance memoryのデータ量を変更

Slide 11

Slide 11 text

定性的結果 (1/3):非ヒューリスティックかつzero-shotでの物体操作 11 “Open the drawer” “Open the microwave” “Pick up the bowl” ☺ 既存手法より頑健なaffordance予測

Slide 12

Slide 12 text

定性的結果 (2/3):one-shot visual imitationへの応用 12 ☺ 人間がティッシュペーパーを取り出す動作をone-shotで模倣 ☺ 視覚基盤モデルの汎用性により,ドメインギャップに頑健

Slide 13

Slide 13 text

定性的結果 (3/3):LLM/VLMを用いたプランニングと統合可能 ◼ 実機:Unitree B1 robot dog + Unitree Z1 arm + RealSense D415 camera ◼ GPT-4Vによるタスク分解 & プランニング ◼ 例:Pickup_bottle() → move_to(trashcan_position) → release() ◼ Grounded-SAM [Ren+, 24] による対象物体のセグメンテーション 13 “Clear the table”

Slide 14

Slide 14 text

まとめ 背景 ✓ 言語指示に基づく,物体・環境・実機に依存 しない汎用的なzero-shotの物体操作 提案 ✓ out-of-domainデータからaffordance memory を構築し,検索 & 3D affordanceへ変換 結果 ✓ シミュレーション・実機実験で既存手法を 上回る成功率 & 多様な下流タスクへ応用 14

Slide 15

Slide 15 text

Appendix:Custom data affordanceの例 ◼ Google, YouTube, etc から収集 & 2D affordanceアノテーション 15

Slide 16

Slide 16 text

Appendix:Instance Matching Distance (IMD [Zhang+, CVPR24]) 16 :ソース画像 :ターゲット画像 :ソースインスタンスのマスク :nearest neighbor :ソース画像の特徴マップ :ターゲット画像の特徴マップ

Slide 17

Slide 17 text

Appendix:affordance memoryの統計情報 17

Slide 18

Slide 18 text

Appendix:LLM/VLMとの統合時のプロンプト例 18

Slide 19

Slide 19 text

Appendix:policy distillationの定量的結果 ◼ 考察 ✓ 提案手法により自動収集したdemonstrationが性能向上に寄与 19

Slide 20

Slide 20 text

Appendix:cluttered sceneにおける追加実験 ◼ 考察 ✓ 依然として提案手法が既存手法を上回った ✓ 成功率の減少幅は6.7ポイントに留まり,頑健性を示唆 20

Slide 21

Slide 21 text

Appendix:失敗例 21  扉の面が見えず,直線的に写る視点  把手の位置が影により暗く,視認が困難