Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Collision Prediction and Visual Explanation Generation for Object Placement Task by Domestic Service Robots

Collision Prediction and Visual Explanation Generation for Object Placement Task by Domestic Service Robots

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 既存研究:生活支援ロボットが行うべき代表的なサブタスク 4 サブタスク 代表的研究 概要 Pick & Place [Zeng+, ICRA18]

    新規の物体を把持して認識可能 Grasping DIRL [Tanwani+, CoRL20] 敵対的学習を用いた実環境転用 Placing PonNet [Magassouba+, AR21] Transformer PonNet [植田+, JSAI21] Attention Branch Network [Fukui+, CVPR19] を 用いて物体同士の衝突確率を予測 DIRL Transformer PonNet [Zeng+, ICRA18]
  2. ✓ Feature Extractor ( FE ) 配置領域・対象物体のRGBD画像の特徴量を ResNet18 の前半部分で抽出 構造

    ( 2/4 ):配置領域と対象物体画像の特徴量抽出 9 切り出し ゼロ埋め 𝒙 𝑘 dst 𝒙 𝑘 trg 𝑘 ∈ {rgb, depth} FE FE 配置領域 対象物体
  3. 構造 ( 3/4 ):衝突に関連する部分に注目して重み付け ✓ Attention Branch ( AB )

    𝑤𝑘∈{rgb,depth} = 1 + 𝑎𝑘 ⨀ 𝑓𝑘 10 Attention Map 𝑎𝑘
  4. 構造 ( 4/4 ):RGBとdepthの特徴量を融合して衝突確率を予測 ✓ Transformer Perception Branch ( TPB

    ) ABNのPerception branch構造にTransformerを導入 [ 植田+, JSAI21 ] 11 𝑸(i)= 𝑊 𝑞 (𝑖)𝑜 𝑘 (𝑖), 𝑲(i) = 𝑊 𝑘 (𝑖)𝑜 𝑘 (𝑖), 𝑽(i) = 𝑊𝑣 (𝑖)𝑜 𝑘 (𝑖) 𝜔𝑘 = 𝑽(𝑖) softmax 𝑸(i) 𝑲 𝑖 T 𝑑𝑘 , 𝑑𝑘 = 𝐻 𝐴 𝑚𝑘 = 𝑸(i) + 𝛼 ⨀ 𝒉(i) 𝐻 は入力𝑜 𝑘 (𝑖)の次元数 𝐴 はヘッド数を表す
  5. 新規性:Attention map と 平面検出による安全領域 𝑠 の可視化 𝑠 = 𝑎rgb +

    𝑎depth 2 ⨀ℎ ℎ :平面と検出されたピクセルの集合 ⊕ ⨀ Plane detection ℎ [Wang+, 3DV18] 安全領域 𝑠 12 𝑎rgb 𝑎depth
  6. 実験設定:simulation 環境によるデータセット 各配置場所はシミュレータによって自動的にラベル付け 13 PonNet-A-Sim データセット − 中心領域のみに配置 − 約

    12,000 の衝突サンプルが記録 PonNet-B-Sim データセット − 9 領域に配置 − 各領域 1,500,合計約 13,500 の衝突サンプルが記録 − 家具,明るさ,背景の異なる 5 種類の場面を使用
  7. Method Accuracy Train : A-Sim Test : A-Sim Train :

    B-Sim Test : B-Sim Plane detection [Wang+, 3DV18] 82.5 72.30 PonNet [Magassouba+, AR21] 90.94±0.22 82.29±0.68 Transformer PonNet [植田+, JSAI21] パラメータ数:約2600万 91.26±0.21 82.10±0.52 Ours パラメータ数:約900万 91.23±0.32 82.28±1.77 定量的結果:ベースラインと同等または上回る結果 ✓ 提案手法はパラメータ数を削減しつつベースライン手法と同等の精度 15
  8. エラー分析:透過物体や人から見ても判断が難しい例 入力画像 ( RGB ) 16 Attention map ( RGB

    ) Attention map ( Depth ) 例1 例2 正解:衝突 予測:非衝突  透過物体を捉える 人の目から見ても 判断が難しい衝突
  9. 追加実験:実機環境によるデータ収集・実験 17 • トヨタの生活支援ロボット Human Support Robot ( HSR )

    を使用 • 収集した 200 個のデータを Train / Test 用に分割 ✓ 実機環境への転用の可能性を示唆 Method Accuracy Train : A-Sim + Real ( 100 ) Test : Real ( 100 ) Ours 87.39±3.12