Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] RAM: Retrieval-Based Affordance ...

[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 名字氏名 RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot

    Robotic Manipulation Yuxuan Kuang1,2*, Junjie Ye1*, Haoran Geng2,3*, Jiageng Mao1, Congyue Deng3, Leonidas Guibas3, He Wang2, Yue Wang1 (1University of Southern California, 2Peking University, 3Stanford University) CoRL 2024 (Oral) 慶應義塾大学 杉浦孔明研究室 是方諒介 Kuang, Y., Ye, J, Geng, H., Mao, J., Deng, C., Guibas, J., Wang, H., Wang, Y. "RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation." CoRL 2024.
  2. 概要 背景 ✓ 言語指示に基づく,物体・環境・実機に依存 しない汎用的なzero-shotの物体操作 提案 ✓ out-of-domainデータからaffordance memory を構築し,検索

    & 3D affordanceへ変換 結果 ✓ シミュレーション・実機実験で既存手法を 上回る成功率 & 多様な下流タスクへ応用 2
  3. 関連研究:3D affordance予測をzero-shotで扱うことは難しい 4 手法 概要 Where2Act [Mo+, ICCV21] 点群を入力とし,学習ベースでpoint-wiseなactionabilityスコアを予測 

    depthカメラのノイズによるsim-to-realギャップ MOKA [Liu+, RSS24] VLM (GPT-4V) により,zero-shotで2D affordance (keypoint) を予測  事前に定義されたヒューリスティックな行動に依存 Robo-ABC [Ju+, ECCV24] human-object interaction (HOI) の動画から検索し,zero-shotで2D affordanceを予測  予測は把持点のみであり,3D affordanceを扱えない Where2Act MOKA Robo-ABC
  4. 提案手法:Retrieval-based Affordance transfer approach for generalizable zero-shot robotic Manipulation (RAM)

    ◼ out-of-domainデータから2D affordanceを抽出 → memoryを構築 ◼ 言語指示・観測視点の類似サンプルを検索 → 3D affordanceへ変換して実行 5
  5. affordance memory :3種類のout-of-domainデータから構築 ① Robotデータ :DROID ◼ 動画からエンドエフェクタの軌道を抽出 ② HOIデータ

    :HOI4D ◼ 動画から手のkeypointを検出し,軌道を抽出 ③ Customデータ :Google, YouTube, etc ◼ 画像に対し,開始・終了点をアノテーション 6 :動作開始前の静止画像 :タスクのカテゴリ(言語) :contact point :contact後の軌道
  6. 階層的なretrieval:3段階で類似サンプルを検索 ① Task Retrieval:指示文をLLMで解釈 ◼ タスクの種類と物体カテゴリを絞る ② Semantic Filtering:CLIPによる類似度計算 ◼

    観測画像・指示文の両方で意味的な類似を考慮 ③ Geometrical Retrieval:視点の類似度計算 ◼ 背景:視覚基盤モデルは’orientation’の理解が困難 ◼ Stable Diffusionの特徴マップを用いた, Instance Matching Distance [Zhang+, CVPR24] を算出 7 Telling Left from Right [Zhang+, CVPR24] :ソース画像, :ターゲット画像, :物体名(言語)
  7. 2D affordance transfer:3D affordanceへの変換 ① RANSACを用いて を → へ変換 ②

    深度マップを用いて → ③ 周辺の点群を切り取り,局所的な形状を把握 ④ 各点の法線ベクトルを推定し,K平均法でクラスタリング ⑤ 法線ベクトルを2Dへ投影し, と最も近い方向を選択 3D affordance獲得 8
  8. 定量的結果:シミュレーション・実機実験ともに既存手法を凌駕 ◼ シミュレータ:Isaac Gym [Makoviychuk+, NeurIPS21] ◼ 10カテゴリ70物体を用いて3種類 (Open/Close/Pickup) のタスクを50試行ずつ実施

    ◼ 実機:Franka Emika robotic arm + Real Sense D415 camera ◼ 考察 ✓ 正確なcontact point予測が必要なopenタスクにおける差が顕著 ✓ *: 2D → 3D変換のため,提案手法の一部を組み込んだことの寄与に留意 9 ① シミュレーション ② 実機
  9. Ablation Study:各retrieval stepの有効性を検証 ◼ 追加の評価指標:Distance to Mask (DTM [Ju+, ECCV24])

    → contact pointに関するGTとのピクセル距離 ◼ 考察 ✓ Geometrical Retrievalの寄与が比較的大きい ✓ データ量50%以降は変化が緩やかなことから,RAMのデータ効率性を示唆 10 ③ retrieval条件の変更 ④ affordance memoryのデータ量を変更
  10. 定性的結果 (3/3):LLM/VLMを用いたプランニングと統合可能 ◼ 実機:Unitree B1 robot dog + Unitree Z1

    arm + RealSense D415 camera ◼ GPT-4Vによるタスク分解 & プランニング ◼ 例:Pickup_bottle() → move_to(trashcan_position) → release() ◼ Grounded-SAM [Ren+, 24] による対象物体のセグメンテーション 13 “Clear the table”
  11. まとめ 背景 ✓ 言語指示に基づく,物体・環境・実機に依存 しない汎用的なzero-shotの物体操作 提案 ✓ out-of-domainデータからaffordance memory を構築し,検索

    & 3D affordanceへ変換 結果 ✓ シミュレーション・実機実験で既存手法を 上回る成功率 & 多様な下流タスクへ応用 14
  12. Appendix:Instance Matching Distance (IMD [Zhang+, CVPR24]) 16 :ソース画像 :ターゲット画像 :ソースインスタンスのマスク

    :nearest neighbor :ソース画像の特徴マップ :ターゲット画像の特徴マップ