Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 是方諒介 IFOR: Iterative Flow Minimization for Robotic Object Rearrangement Ankit Goyal1,2, Arsalan Mousavian1, Chris Paxton1, Yu-Wei Chao1, Brian Okorn1,3, Jia Deng2, Dieter Fox1 (1NVIDIA, 2Princeton University, 3Carnegie Mellon University) CVPR 2022 慶應義塾大学 杉浦孔明研究室 是方諒介 Goyal, A., Mousavian, A., Paxton, C., Chao, Y., Okorn, B., Deng, J., Fox, D. "IFOR: Iterative Flow Minimization for Robotic Object Rearrangement." CVPR 2022.

Slide 2

Slide 2 text

概要 背景 ✓ rearrangementタスクは,日常動作を行うembodied agentに不可欠なスキル ✓ ゴール状態が画像で与えられる設定で,物体の角度まで考慮できる手法は少数 提案 ✓ optical flow推定を応用し,物体の並進・回転に対応 ✓ 実環境へのゼロショット転移が可能な合成データセット 結果 ✓ 同設定のrearrangementタスクにおいて,SOTAを上回った 2

Slide 3

Slide 3 text

背景:rearrangementタスクは生活支援ロボットに不可欠なスキル ◼ object rearrangement [Batra+, 20] ◼ 現在の状態から望ましいゴール状態へ変化させる物体操作 ◼ 例:食卓を整える,机上を片付ける等 3 ゴール状態の与え方は多様↑

Slide 4

Slide 4 text

関連研究:ゴール状態の与え方を多様に定義 4 手法 概要 NeRP [Qureshi+, RSS21] ・ゴール状態:RGB-D画像 → 本研究と同様  物体の角度を合わせることはできない CLIPort [Shridhar+, CoRL21] ・ゴール状態:自然言語 ・言語条件付き模倣学習による物体配置 VRR [Weihs+, CVPR21] ・ゴール状態:幾何的な状態表現 VRR CLIPort NeRP 

Slide 5

Slide 5 text

提案手法: Iterative Flow Minimization for Unseen Object Rearrangement (IFOR) ◼ RGB-D画像によるゴール状態に向けて,optical flow推定をもとに物体操作 ◼ 物体の「位置」と「角度」の両方を合わせることが可能 ◼ シミュレーションデータセットから実環境へのゼロショット転移を実現 5

Slide 6

Slide 6 text

optical flow推定 (1/2):rearrangementタスク向けに問題設定を変更 6 RAFT ◼ optical flow:時間的な連続画像間の画素対応関係をベクトルで表現  一般的に,動画のフレーム間のような微小な変化を想定 ◼ RAFT [Teed+, ECCV20]:全画素間の比較によりoptical flowを推定 ☺ 構造はそのまま,物体変化の大きなrearrangementタスク向けに訓練可能

Slide 7

Slide 7 text

optical flow推定 (2/2):合成データセットを用いてRAFTを訓練 ◼ photo-realisticなレンダラ:NViSII [Morrical+, 21] ◼ 光源,背景,支持物体のテクスチャ、カメラ視点等を無作為に変更 ◼ 支持物体:ShapeNet [Chang+, 15] ◼ 机,ベッド等 ◼ 把持物体:Google Scanned Dataset ◼ サンプル数:(train, test) = (54k, 1k) 7

Slide 8

Slide 8 text

未知物体のセグメンテーション:「物体らしさ」の情報を獲得 ◼ UCN [Xiang+, CoRL20]:RGB-D画像を入力とするセグメンテーション手法 ◼ 同物体のピクセルに対して似た埋め込み表現を与え,インスタンスをクラスタリング ◼ 目的:optical flowに欠ける物体形状に関する情報を補足 8 UCN

Slide 9

Slide 9 text

transformation optimization:剛体変換後の誤差を最小化 ◼ 深度画像 + カメラの内部パラメータ → 各ピクセルを3次元マッピング ◼ optical flow + セグメンテーション → 誤差を最小化するようにrotation , translation を推定 9 :現在の状態における 物体の3次元座標 :ゴール状態における 物体の3次元座標

Slide 10

Slide 10 text

プランニング:pick-and-placeタスクの実行 ◼ 衝突しない物体のうち,変換が大きい(= スコア が高い)ものから実行 ◼ 衝突予測:SceneCollisionNet [Danielczuk+, ICRA20] ◼ 未知物体の把持点推定:Contact-GraspNet [Sundermeyer+, ICRA21] 10 :回転角 :並進距離 :パラメータ

Slide 11

Slide 11 text

実験設定:実機・シミュレーションの両環境で評価 ① 実機:SOTAであるNeRP [Qureshi+, RSS21] と比較 ◼ 2-5個の未知物体を含む6シーンを使用 ◼ ロボット:Franka EMIKA Panda Robot ◼ 評価指標:ユーザによる採点 ◼ ゴール状態との差分を正確に測定できないため ② シミュレーション:ablation study ◼ 1-9個の物体を含む200シーンを使用 ◼ 評価指標 ◼ Median rotation error [°] ◼ Median position error [cm] ◼ 位置および角度の差分が閾値未満である(= rearrangementに成功している)物体の割合 [%] 11 https://www.directindustry.com/ja/prod/franka-emika/product-187686-1906234.html

Slide 12

Slide 12 text

定量的結果(実験①):ユーザによる評価でSOTA手法を上回る ◼ 考察 ✓ 4段階評価において,提案手法は3以上のスコアが多数派 ✓ 評価基準が「位置ずれのみ」か「角度ずれも含める」かにかかわらず,既存手法より良好 12

Slide 13

Slide 13 text

Ablation Study(実験②):RAFTのrearrangementタスク用訓練が最重要 ◼ 考察 ✓ 合成データセットによるRAFTの訓練が有効 ✓ RANSAC適用時に「物体の回転はz軸周りのみ」と仮定したことで成功率が向上 ✓ SceneCollisionNetを用いた学習ベース衝突予測の正確性がボトルネック 13

Slide 14

Slide 14 text

定性的結果(実験①):よりゴール状態に近い位置・角度で終了 14 終了状態

Slide 15

Slide 15 text

まとめ 背景 ✓ rearrangementタスクは,日常動作を行うembodied agentに不可欠なスキル ✓ ゴール状態が画像で与えられる設定で,物体の角度まで考慮できる手法は少数 提案 ✓ optical flow推定を応用し,物体の並進・回転に対応 ✓ 実環境へのゼロショット転移が可能な合成データセット 結果 ✓ 同設定のrearrangementタスクにおいて,SOTAを上回った 15

Slide 16

Slide 16 text

Appendix:RANSAC [Fischler+, ACM81] ◼ 外れ値の影響を抑制 ◼ 大幅に誤った対応点を予測したケース(= 多数存在)に対処 16 変換例

Slide 17

Slide 17 text

Appendix:プランニングの疑似コード 17

Slide 18

Slide 18 text

Appendix:その他の定性的結果 18

Slide 19

Slide 19 text

Appendix:物体の種類ごとのエラー分析 19