[Journal club] IFOR: Iterative Flow Minimization for Robotic Object Rearrangement

慶應義塾大学杉浦孔明研究室是方諒介 IFOR: Iterative Flow Minimization for Robotic Object
Rearrangement Ankit Goyal1,2, Arsalan Mousavian1, Chris Paxton1, Yu-Wei Chao1, Brian Okorn1,3, Jia Deng2, Dieter Fox1 (1NVIDIA, 2Princeton University, 3Carnegie Mellon University) CVPR 2022 慶應義塾大学杉浦孔明研究室是方諒介 Goyal, A., Mousavian, A., Paxton, C., Chao, Y., Okorn, B., Deng, J., Fox, D. "IFOR: Iterative Flow Minimization for Robotic Object Rearrangement." CVPR 2022.

概要背景 ✓ rearrangementタスクは，日常動作を行うembodied agentに不可欠なスキル ✓ ゴール状態が画像で与えられる設定で，物体の角度まで考慮できる手法は少数提案 ✓ optical
flow推定を応用し，物体の並進・回転に対応 ✓ 実環境へのゼロショット転移が可能な合成データセット結果 ✓ 同設定のrearrangementタスクにおいて，SOTAを上回った 2

背景：rearrangementタスクは生活支援ロボットに不可欠なスキル ◼ object rearrangement [Batra+, 20] ◼ 現在の状態から望ましいゴール状態へ変化させる物体操作 ◼ 例：食卓を整える，机上を片付ける等
3 ゴール状態の与え方は多様↑

関連研究：ゴール状態の与え方を多様に定義 4 手法概要 NeRP [Qureshi+, RSS21] ・ゴール状態：RGB-D画像 → 本研究と同様
 物体の角度を合わせることはできない CLIPort [Shridhar+, CoRL21] ・ゴール状態：自然言語・言語条件付き模倣学習による物体配置 VRR [Weihs+, CVPR21] ・ゴール状態：幾何的な状態表現 VRR CLIPort NeRP 

提案手法： Iterative Flow Minimization for Unseen Object Rearrangement (IFOR) ◼
RGB-D画像によるゴール状態に向けて，optical flow推定をもとに物体操作 ◼ 物体の「位置」と「角度」の両方を合わせることが可能 ◼ シミュレーションデータセットから実環境へのゼロショット転移を実現 5

optical flow推定 (1/2)：rearrangementタスク向けに問題設定を変更 6 RAFT ◼ optical flow：時間的な連続画像間の画素対応関係をベクトルで表現  一般的に，動画のフレーム間のような微小な変化を想定
◼ RAFT [Teed+, ECCV20]：全画素間の比較によりoptical flowを推定 ☺ 構造はそのまま，物体変化の大きなrearrangementタスク向けに訓練可能

optical flow推定 (2/2)：合成データセットを用いてRAFTを訓練 ◼ photo-realisticなレンダラ：NViSII [Morrical+, 21] ◼ 光源，背景，支持物体のテクスチャ、カメラ視点等を無作為に変更 ◼
支持物体：ShapeNet [Chang+, 15] ◼ 机，ベッド等 ◼ 把持物体：Google Scanned Dataset ◼ サンプル数：(train, test) = (54k, 1k) 7

未知物体のセグメンテーション：「物体らしさ」の情報を獲得 ◼ UCN [Xiang+, CoRL20]：RGB-D画像を入力とするセグメンテーション手法 ◼ 同物体のピクセルに対して似た埋め込み表現を与え，インスタンスをクラスタリング ◼ 目的：optical flowに欠ける物体形状に関する情報を補足
8 UCN

transformation optimization：剛体変換後の誤差を最小化 ◼ 深度画像 + カメラの内部パラメータ → 各ピクセルを3次元マッピング ◼ optical
flow + セグメンテーション → 誤差を最小化するようにrotation , translation を推定 9 ：現在の状態における物体の3次元座標：ゴール状態における物体の3次元座標

プランニング：pick-and-placeタスクの実行 ◼ 衝突しない物体のうち，変換が大きい（= スコアが高い）ものから実行 ◼ 衝突予測：SceneCollisionNet [Danielczuk+, ICRA20] ◼
未知物体の把持点推定：Contact-GraspNet [Sundermeyer+, ICRA21] 10 ：回転角：並進距離：パラメータ

実験設定：実機・シミュレーションの両環境で評価 ① 実機：SOTAであるNeRP [Qureshi+, RSS21] と比較 ◼ 2-5個の未知物体を含む6シーンを使用 ◼ ロボット：Franka
EMIKA Panda Robot ◼ 評価指標：ユーザによる採点 ◼ ゴール状態との差分を正確に測定できないため ② シミュレーション：ablation study ◼ 1-9個の物体を含む200シーンを使用 ◼ 評価指標 ◼ Median rotation error [°] ◼ Median position error [cm] ◼ 位置および角度の差分が閾値未満である（= rearrangementに成功している）物体の割合 [%] 11 https://www.directindustry.com/ja/prod/franka-emika/product-187686-1906234.html

定量的結果（実験①）：ユーザによる評価でSOTA手法を上回る ◼ 考察 ✓ 4段階評価において，提案手法は3以上のスコアが多数派 ✓ 評価基準が「位置ずれのみ」か「角度ずれも含める」かにかかわらず，既存手法より良好 12

Ablation Study（実験②）：RAFTのrearrangementタスク用訓練が最重要 ◼ 考察 ✓ 合成データセットによるRAFTの訓練が有効 ✓ RANSAC適用時に「物体の回転はz軸周りのみ」と仮定したことで成功率が向上 ✓ SceneCollisionNetを用いた学習ベース衝突予測の正確性がボトルネック
13

定性的結果（実験①）：よりゴール状態に近い位置・角度で終了 14 終了状態

まとめ背景 ✓ rearrangementタスクは，日常動作を行うembodied agentに不可欠なスキル ✓ ゴール状態が画像で与えられる設定で，物体の角度まで考慮できる手法は少数提案 ✓ optical
flow推定を応用し，物体の並進・回転に対応 ✓ 実環境へのゼロショット転移が可能な合成データセット結果 ✓ 同設定のrearrangementタスクにおいて，SOTAを上回った 15

Appendix：RANSAC [Fischler+, ACM81] ◼ 外れ値の影響を抑制 ◼ 大幅に誤った対応点を予測したケース（= 多数存在）に対処 16 変換例

Appendix：プランニングの疑似コード 17

Appendix：その他の定性的結果 18

Appendix：物体の種類ごとのエラー分析 19

[Journal club] IFOR: Iterative Flow Minimizatio...

[Journal club] IFOR: Iterative Flow Minimization for Robotic Object Rearrangement

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室是方諒介 IFOR: Iterative Flow Minimization for Robotic Object

概要背景 ✓ rearrangementタスクは，日常動作を行うembodied agentに不可欠なスキル ✓ ゴール状態が画像で与えられる設定で，物体の角度まで考慮できる手法は少数提案 ✓ optical

背景：rearrangementタスクは生活支援ロボットに不可欠なスキル ◼ object rearrangement [Batra+, 20] ◼ 現在の状態から望ましいゴール状態へ変化させる物体操作 ◼ 例：食卓を整える，机上を片付ける等

関連研究：ゴール状態の与え方を多様に定義 4 手法概要 NeRP [Qureshi+, RSS21] ・ゴール状態：RGB-D画像 → 本研究と同様

提案手法： Iterative Flow Minimization for Unseen Object Rearrangement (IFOR) ◼

optical flow推定 (1/2)：rearrangementタスク向けに問題設定を変更 6 RAFT ◼ optical flow：時間的な連続画像間の画素対応関係をベクトルで表現  一般的に，動画のフレーム間のような微小な変化を想定

optical flow推定 (2/2)：合成データセットを用いてRAFTを訓練 ◼ photo-realisticなレンダラ：NViSII [Morrical+, 21] ◼ 光源，背景，支持物体のテクスチャ、カメラ視点等を無作為に変更 ◼

transformation optimization：剛体変換後の誤差を最小化 ◼ 深度画像 + カメラの内部パラメータ → 各ピクセルを3次元マッピング ◼ optical

プランニング：pick-and-placeタスクの実行 ◼ 衝突しない物体のうち，変換が大きい（= スコアが高い）ものから実行 ◼ 衝突予測：SceneCollisionNet [Danielczuk+, ICRA20] ◼

実験設定：実機・シミュレーションの両環境で評価 ① 実機：SOTAであるNeRP [Qureshi+, RSS21] と比較 ◼ 2-5個の未知物体を含む6シーンを使用 ◼ ロボット：Franka