Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] IFOR: Iterative Flow Minimization for Robotic Object Rearrangement

[Journal club] IFOR: Iterative Flow Minimization for Robotic Object Rearrangement

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室
    是方諒介
    IFOR: Iterative Flow Minimization
    for Robotic Object Rearrangement
    Ankit Goyal1,2, Arsalan Mousavian1, Chris Paxton1, Yu-Wei Chao1,
    Brian Okorn1,3, Jia Deng2, Dieter Fox1
    (1NVIDIA, 2Princeton University, 3Carnegie Mellon University)
    CVPR 2022
    慶應義塾大学 杉浦孔明研究室
    是方諒介
    Goyal, A., Mousavian, A., Paxton, C., Chao, Y., Okorn, B., Deng, J., Fox, D. "IFOR: Iterative Flow Minimization for Robotic Object Rearrangement." CVPR 2022.

    View full-size slide

  2. 概要
    背景
    ✓ rearrangementタスクは,日常動作を行うembodied agentに不可欠なスキル
    ✓ ゴール状態が画像で与えられる設定で,物体の角度まで考慮できる手法は少数
    提案
    ✓ optical flow推定を応用し,物体の並進・回転に対応
    ✓ 実環境へのゼロショット転移が可能な合成データセット
    結果
    ✓ 同設定のrearrangementタスクにおいて,SOTAを上回った
    2

    View full-size slide

  3. 背景:rearrangementタスクは生活支援ロボットに不可欠なスキル
    ◼ object rearrangement [Batra+, 20]
    ◼ 現在の状態から望ましいゴール状態へ変化させる物体操作
    ◼ 例:食卓を整える,机上を片付ける等
    3
    ゴール状態の与え方は多様↑

    View full-size slide

  4. 関連研究:ゴール状態の与え方を多様に定義
    4
    手法 概要
    NeRP
    [Qureshi+, RSS21]
    ・ゴール状態:RGB-D画像 → 本研究と同様
     物体の角度を合わせることはできない
    CLIPort
    [Shridhar+, CoRL21]
    ・ゴール状態:自然言語
    ・言語条件付き模倣学習による物体配置
    VRR [Weihs+, CVPR21] ・ゴール状態:幾何的な状態表現
    VRR
    CLIPort
    NeRP

    View full-size slide

  5. 提案手法:
    Iterative Flow Minimization for Unseen Object Rearrangement (IFOR)
    ◼ RGB-D画像によるゴール状態に向けて,optical flow推定をもとに物体操作
    ◼ 物体の「位置」と「角度」の両方を合わせることが可能
    ◼ シミュレーションデータセットから実環境へのゼロショット転移を実現
    5

    View full-size slide

  6. optical flow推定 (1/2):rearrangementタスク向けに問題設定を変更
    6
    RAFT
    ◼ optical flow:時間的な連続画像間の画素対応関係をベクトルで表現
     一般的に,動画のフレーム間のような微小な変化を想定
    ◼ RAFT [Teed+, ECCV20]:全画素間の比較によりoptical flowを推定
    ☺ 構造はそのまま,物体変化の大きなrearrangementタスク向けに訓練可能

    View full-size slide

  7. optical flow推定 (2/2):合成データセットを用いてRAFTを訓練
    ◼ photo-realisticなレンダラ:NViSII [Morrical+, 21]
    ◼ 光源,背景,支持物体のテクスチャ、カメラ視点等を無作為に変更
    ◼ 支持物体:ShapeNet [Chang+, 15]
    ◼ 机,ベッド等
    ◼ 把持物体:Google Scanned Dataset
    ◼ サンプル数:(train, test) = (54k, 1k)
    7

    View full-size slide

  8. 未知物体のセグメンテーション:「物体らしさ」の情報を獲得
    ◼ UCN [Xiang+, CoRL20]:RGB-D画像を入力とするセグメンテーション手法
    ◼ 同物体のピクセルに対して似た埋め込み表現を与え,インスタンスをクラスタリング
    ◼ 目的:optical flowに欠ける物体形状に関する情報を補足
    8
    UCN

    View full-size slide

  9. transformation optimization:剛体変換後の誤差を最小化
    ◼ 深度画像 + カメラの内部パラメータ → 各ピクセルを3次元マッピング
    ◼ optical flow + セグメンテーション
    → 誤差を最小化するようにrotation , translation を推定
    9
    :現在の状態における
    物体の3次元座標
    :ゴール状態における
    物体の3次元座標

    View full-size slide

  10. プランニング:pick-and-placeタスクの実行
    ◼ 衝突しない物体のうち,変換が大きい(= スコア が高い)ものから実行
    ◼ 衝突予測:SceneCollisionNet [Danielczuk+, ICRA20]
    ◼ 未知物体の把持点推定:Contact-GraspNet [Sundermeyer+, ICRA21]
    10
    :回転角
    :並進距離
    :パラメータ

    View full-size slide

  11. 実験設定:実機・シミュレーションの両環境で評価
    ① 実機:SOTAであるNeRP [Qureshi+, RSS21] と比較
    ◼ 2-5個の未知物体を含む6シーンを使用
    ◼ ロボット:Franka EMIKA Panda Robot
    ◼ 評価指標:ユーザによる採点
    ◼ ゴール状態との差分を正確に測定できないため
    ② シミュレーション:ablation study
    ◼ 1-9個の物体を含む200シーンを使用
    ◼ 評価指標
    ◼ Median rotation error [°]
    ◼ Median position error [cm]
    ◼ 位置および角度の差分が閾値未満である(= rearrangementに成功している)物体の割合 [%]
    11
    https://www.directindustry.com/ja/prod/franka-emika/product-187686-1906234.html

    View full-size slide

  12. 定量的結果(実験①):ユーザによる評価でSOTA手法を上回る
    ◼ 考察
    ✓ 4段階評価において,提案手法は3以上のスコアが多数派
    ✓ 評価基準が「位置ずれのみ」か「角度ずれも含める」かにかかわらず,既存手法より良好
    12

    View full-size slide

  13. Ablation Study(実験②):RAFTのrearrangementタスク用訓練が最重要
    ◼ 考察
    ✓ 合成データセットによるRAFTの訓練が有効
    ✓ RANSAC適用時に「物体の回転はz軸周りのみ」と仮定したことで成功率が向上
    ✓ SceneCollisionNetを用いた学習ベース衝突予測の正確性がボトルネック
    13

    View full-size slide

  14. 定性的結果(実験①):よりゴール状態に近い位置・角度で終了
    14
    終了状態

    View full-size slide

  15. まとめ
    背景
    ✓ rearrangementタスクは,日常動作を行うembodied agentに不可欠なスキル
    ✓ ゴール状態が画像で与えられる設定で,物体の角度まで考慮できる手法は少数
    提案
    ✓ optical flow推定を応用し,物体の並進・回転に対応
    ✓ 実環境へのゼロショット転移が可能な合成データセット
    結果
    ✓ 同設定のrearrangementタスクにおいて,SOTAを上回った
    15

    View full-size slide

  16. Appendix:RANSAC [Fischler+, ACM81]
    ◼ 外れ値の影響を抑制
    ◼ 大幅に誤った対応点を予測したケース(= 多数存在)に対処
    16
    変換例

    View full-size slide

  17. Appendix:プランニングの疑似コード
    17

    View full-size slide

  18. Appendix:その他の定性的結果
    18

    View full-size slide

  19. Appendix:物体の種類ごとのエラー分析
    19

    View full-size slide