Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 名字氏名 Seeing the Unseen: Visual Common Sense for Semantic Placement Ram Ramrakhya1, Aniruddha Kembhavi2, Dhruv Batra1, Zsolt Kira1, Kuo-Hao Zeng2, Luca Weihs2 (1Georgia Institute of Technology, 2PRIOR @ Allen Institute of AI) CVPR 2024 慶應義塾大学 杉浦孔明研究室 是方諒介 Ramrakhya, R., Kembhavi, A., Batra, D., Kira, Z., Zeng, K., Weihs, L. "Seeing the Unseen: Visual Common Sense for Semantic Placement." CVPR 2024.

Slide 2

Slide 2 text

概要 背景 ✓ 生活支援ロボットにとって,物体の望ましい 配置目標をsemanticに理解することは重要 提案 ✓ 常識的な配置目標をマスクで予測するSemantic Placementタスク ✓ inpaintingに基づく”存在しない物体”のアノテーション 結果 ✓ 約1.3Mの画像から成る実画像データセットにおいて,マルチモーダルLLMを凌駕 ✓ 下流タスクとしてロボットの物体配置タスクへ応用し,既存手法を上回る成功率 2

Slide 3

Slide 3 text

背景:物体の望ましい配置目標に関する常識的な理解 ◼ 生活支援ロボットによる物体配置タスク ◼ 物体の性質や環境の状況を踏まえた配置目標予測は重要 ◼ 例:”クッション”の配置目標  浴槽の中  既に物が置かれている椅子 ☺ 余白のあるソファの座面 3

Slide 4

Slide 4 text

関連研究:”存在しない物体”のaffordanceを考慮する研究は少ない 4 手法 概要 O2O-Afford [Mo+, CoRL21] 点群を入力とし,物体同士のaffordanceを予測  シミュレーション環境のみで訓練されており,汎化性能が低い ROSIE [Yu+, RSS23] 物体,背景,および障害物などのinpaintingによるデータセット拡張  画像中に既に存在する物体が対象 TidyBot [Wu+, AR/IROS23] 片付けタスクにおいて,LLMの常識的知識に基づきreceptacleを予測  headmapの粒度では予測不可能 O2O-Afford ROSIE

Slide 5

Slide 5 text

提案タスク:Semantic Placement (SP) ◼ 入力:画像 + 物体ラベル -> 出力:望ましい配置目標のマスク ◼ inpaintingに基づく,LAION-SPデータセットの自動構築 ◼ LAION [Schuhmann+, NeurIPS22] から特定の物体を”削除” → “存在しない物体”のアノテーションを実現 ◼ 画像数:約1.3M,物体の種類数:9 5

Slide 6

Slide 6 text

データセット構築手順 (1/2):対象物体をinpaintingにより消去 (A) LAIONデータセットから家庭環境の画像を抽出 (e.g., “kitchen”) (B) Detic + SAMにより,事前に定義した種類の物体マスクを獲得 (C) 対象物体をinpainting [Suvorov+, CVPR21], [Rombach+, CVPR22] ◼ ランダムに,種類の異なる物体も消去 → 単なる空白領域予測問題になることを防ぐ 6

Slide 7

Slide 7 text

データセット構築手順 (2/2):inpainting後の画像品質向上 (D) 対象物体が正しく消去されているサンプルをフィルタリング ◼ Deticを用いたインスタンスマッチング (IoU>0.9) (E) img2img手法により高解像度化するaugmentation ◼ 本手順を除くと過学習してしまうことが実験的に判明 7

Slide 8

Slide 8 text

提案手法:CLIP-UNet ◼ CLIP + U-Net構造(cf. CLIPort [Shridhar+, CoRL21]) ◼ 画像の中間特徴量に対し,言語特徴量の要素積による条件付け ◼ 2段階の訓練 ① LAION-SPでpretraining → ② HSSD [Khanna+, CVPR24] でfine-tuning 8

Slide 9

Slide 9 text

実験設定:SPタスク・配置動作を含むeSPタスクの両方を実施 ◼ 評価指標を新たに定義 ① Human Preference (HP) → 定性的に既存手法と比較し,最良を人間が選択 ② Target Precision (TrP) → GTマスクとの比較 ③ Receptacle Surface Precision (RSP) → 物体に対応する家具の配置可能領域との比較 ④ Receptacle Surface Recall (RSR) → RSPと同様 ◼ Embodied Semantic Placement (eSP) タスク ◼ 下流タスクとして,配置動作まで実施 ◼ Stretch [Kemp+, ICRA22] by Hello Robot 9 Intersection-over-Prediction (IoP) に準拠 GT 予測例1 予測例2 :マスク

Slide 10

Slide 10 text

◼ HP以外の評価指標は正確なGTが必要なため,これらはHSSDのみで測定 ◼ 補足:HSSDでは,シミュレータの設定によりinpaintingを用いず物体を削除可能 ◼ 考察 ✓ HPおよびTrPにおいて,提案手法が最良 ✓ receptacleの表面周辺にマスクが予測されることがあり,RSPが低下 定量的結果 (1/2):SPタスクにおいて既存手法を凌駕 10

Slide 11

Slide 11 text

◼ HSSDの未知環境において106試行 ◼ 評価指標:Success Rate [%] ◼ 考察 ✓ 2段階の訓練を行った提案手法が最良 ✓ 失敗要因の割合は,navigation : place : mask = 53.5% : 31.0% : 15.5% → マスク予測に由来する失敗は少ない 定量的結果 (2/2):eSPタスクにおいて既存手法を凌駕 11

Slide 12

Slide 12 text

定性的結果 (1/2): LAION-SPにおけるSPタスク ☺ 提案手法が最も精緻な マスクを予測  マルチモーダルLLMは, ピクセル単位の予測が困難 12

Slide 13

Slide 13 text

定性的結果 (2/2):HSSDにおけるeSPタスク 13 ◼ 移動:離散空間,配置:連続空間 ☺ クッションを,ソファの座面に配置 ☺ 鉢植えを,机上の空白領域に配置

Slide 14

Slide 14 text

まとめ 背景 ✓ 生活支援ロボットにとって,物体の望ましい 配置目標をsemanticに理解することは重要 提案 ✓ 常識的な配置目標をマスクで予測するSemantic Placementタスク ✓ inpaintingに基づく”存在しない物体”のアノテーション 結果 ✓ 約1.3Mの画像から成る実画像データセットにおいて,マルチモーダルLLMを凌駕 ✓ 下流タスクとしてロボットの物体配置タスクへ応用し,既存手法を上回る成功率 14

Slide 15

Slide 15 text

Appendix:inpaintingの失敗例 15

Slide 16

Slide 16 text

Appendix:eSPタスクにおけるpolicy ◼ navigationおよびplaceに独立したpolicyを採用 16

Slide 17

Slide 17 text

Appendix:物体と家具に関する種類の対応関係 17

Slide 18

Slide 18 text

Appendix:Ablation Study ◼ pretrainingの条件を変更 ◼ 考察 ✓ LAION-SPでpretraining → HSSDでfine-tuningの場合が, TrPにおいて最良の汎化性能 18

Slide 19

Slide 19 text

Appendix:提案手法の成功例 ◼ LAION-SP 19 ◼ HSSD

Slide 20

Slide 20 text

Appendix:提案手法の失敗例 20