Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Seeing the Unseen: Visual Common...

[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 名字氏名 Seeing the Unseen: Visual Common Sense for

    Semantic Placement Ram Ramrakhya1, Aniruddha Kembhavi2, Dhruv Batra1, Zsolt Kira1, Kuo-Hao Zeng2, Luca Weihs2 (1Georgia Institute of Technology, 2PRIOR @ Allen Institute of AI) CVPR 2024 慶應義塾大学 杉浦孔明研究室 是方諒介 Ramrakhya, R., Kembhavi, A., Batra, D., Kira, Z., Zeng, K., Weihs, L. "Seeing the Unseen: Visual Common Sense for Semantic Placement." CVPR 2024.
  2. 概要 背景 ✓ 生活支援ロボットにとって,物体の望ましい 配置目標をsemanticに理解することは重要 提案 ✓ 常識的な配置目標をマスクで予測するSemantic Placementタスク ✓

    inpaintingに基づく”存在しない物体”のアノテーション 結果 ✓ 約1.3Mの画像から成る実画像データセットにおいて,マルチモーダルLLMを凌駕 ✓ 下流タスクとしてロボットの物体配置タスクへ応用し,既存手法を上回る成功率 2
  3. 関連研究:”存在しない物体”のaffordanceを考慮する研究は少ない 4 手法 概要 O2O-Afford [Mo+, CoRL21] 点群を入力とし,物体同士のaffordanceを予測  シミュレーション環境のみで訓練されており,汎化性能が低い

    ROSIE [Yu+, RSS23] 物体,背景,および障害物などのinpaintingによるデータセット拡張  画像中に既に存在する物体が対象 TidyBot [Wu+, AR/IROS23] 片付けタスクにおいて,LLMの常識的知識に基づきreceptacleを予測  headmapの粒度では予測不可能 O2O-Afford ROSIE
  4. 提案タスク:Semantic Placement (SP) ◼ 入力:画像 + 物体ラベル -> 出力:望ましい配置目標のマスク ◼

    inpaintingに基づく,LAION-SPデータセットの自動構築 ◼ LAION [Schuhmann+, NeurIPS22] から特定の物体を”削除” → “存在しない物体”のアノテーションを実現 ◼ 画像数:約1.3M,物体の種類数:9 5
  5. データセット構築手順 (1/2):対象物体をinpaintingにより消去 (A) LAIONデータセットから家庭環境の画像を抽出 (e.g., “kitchen”) (B) Detic + SAMにより,事前に定義した種類の物体マスクを獲得

    (C) 対象物体をinpainting [Suvorov+, CVPR21], [Rombach+, CVPR22] ◼ ランダムに,種類の異なる物体も消去 → 単なる空白領域予測問題になることを防ぐ 6
  6. 実験設定:SPタスク・配置動作を含むeSPタスクの両方を実施 ◼ 評価指標を新たに定義 ① Human Preference (HP) → 定性的に既存手法と比較し,最良を人間が選択 ②

    Target Precision (TrP) → GTマスクとの比較 ③ Receptacle Surface Precision (RSP) → 物体に対応する家具の配置可能領域との比較 ④ Receptacle Surface Recall (RSR) → RSPと同様 ◼ Embodied Semantic Placement (eSP) タスク ◼ 下流タスクとして,配置動作まで実施 ◼ Stretch [Kemp+, ICRA22] by Hello Robot 9 Intersection-over-Prediction (IoP) に準拠 GT 予測例1 予測例2 :マスク
  7. ◼ HSSDの未知環境において106試行 ◼ 評価指標:Success Rate [%] ◼ 考察 ✓ 2段階の訓練を行った提案手法が最良

    ✓ 失敗要因の割合は,navigation : place : mask = 53.5% : 31.0% : 15.5% → マスク予測に由来する失敗は少ない 定量的結果 (2/2):eSPタスクにおいて既存手法を凌駕 11
  8. まとめ 背景 ✓ 生活支援ロボットにとって,物体の望ましい 配置目標をsemanticに理解することは重要 提案 ✓ 常識的な配置目標をマスクで予測するSemantic Placementタスク ✓

    inpaintingに基づく”存在しない物体”のアノテーション 結果 ✓ 約1.3Mの画像から成る実画像データセットにおいて,マルチモーダルLLMを凌駕 ✓ 下流タスクとしてロボットの物体配置タスクへ応用し,既存手法を上回る成功率 14