Collision Prediction and Visual Explanation Generation for Object Placement Task by Domestic Service Robots

Slide 1

Slide 1 text

畑中駿平1，上田雄斗1，植田有咲1，平川翼2，山下隆義2，藤吉弘亘2，杉浦孔明1 1慶應義塾大学，2中部大学生活支援ロボットによる物体配置タスクにおける危険性予測および視覚的説明生成

Slide 2

Slide 2 text

背景：生活支援ロボットは安全にものを置くことが求められる • 人手不足の解決策として生活支援ロボットは有望視 • 生活支援ロボットの基本的動作のひとつに物体配置 − 安全配置のために衝突回避は重要 2 https://global.toyota/jp/download/8725215

Slide 3

Slide 3 text

問題設定：軽微な接触の連鎖から生じる衝突を予測することは難しい 1. ロボットのアームがペットボトルに接触 2. ペットボトルがマヨネーズに接触 3. マヨネーズが落下する危険な衝突が発生物体同士の物理的相互作用の連鎖の予測は難しい 3 ✓ 衝突確率の予測 ✓ 安全領域の可視化本研究のタスク

Slide 4

Slide 4 text

既存研究：生活支援ロボットが行うべき代表的なサブタスク 4 サブタスク代表的研究概要 Pick & Place [Zeng+, ICRA18] 新規の物体を把持して認識可能 Grasping DIRL [Tanwani+, CoRL20] 敵対的学習を用いた実環境転用 Placing PonNet [Magassouba+, AR21] Transformer PonNet [植田+, JSAI21] Attention Branch Network [Fukui+, CVPR19] を用いて物体同士の衝突確率を予測 DIRL Transformer PonNet [Zeng+, ICRA18]

Slide 5

Slide 5 text

既存手法の問題点：安全である領域のみを可視化することができない  Transformer PonNet では安全領域と危険領域が混合して可視化されていた − ユーザに安全領域を事前に提示できれば，物体配置の最終的な判断を仰ぐことが可能 5 安全領域危険領域安全領域のみ可視化する手法を提案 • ABN の特徴：画像内のどの領域に注目しているかを示す attention map を可視化

Slide 6

Slide 6 text

提案手法：対象物体を配置する際の衝突確率の予測・安全領域の可視化 6 入力：対象物体と配置場所のRGBD画像出力：衝突確率・安全領域の可視化画像

Slide 7

Slide 7 text

デモ動画：衝突確率を予測し、安全である場合に物体を配置 7

Slide 8

Slide 8 text

構造 ( 1/4 )：3つのモジュールから構成 8 ①Feature Extractor，②Attention Branch，③Transformer Perception Branch の３つから構成 ① ② ③

Slide 9

Slide 9 text

✓ Feature Extractor ( FE ) 配置領域・対象物体のRGBD画像の特徴量を ResNet18 の前半部分で抽出構造 ( 2/4 )：配置領域と対象物体画像の特徴量抽出 9 切り出しゼロ埋め 𝒙 𝑘 dst 𝒙 𝑘 trg 𝑘 ∈ {rgb, depth} FE FE 配置領域対象物体

Slide 10

Slide 10 text

構造 ( 3/4 )：衝突に関連する部分に注目して重み付け ✓ Attention Branch ( AB ) 𝑤𝑘∈{rgb,depth} = 1 + 𝑎𝑘 ⨀ 𝑓𝑘 10 Attention Map 𝑎𝑘

Slide 11

Slide 11 text

構造 ( 4/4 )：RGBとdepthの特徴量を融合して衝突確率を予測 ✓ Transformer Perception Branch ( TPB ) ABNのPerception branch構造にTransformerを導入 [ 植田+, JSAI21 ] 11 𝑸(i)= 𝑊 𝑞 (𝑖)𝑜 𝑘 (𝑖), 𝑲(i) = 𝑊 𝑘 (𝑖)𝑜 𝑘 (𝑖), 𝑽(i) = 𝑊𝑣 (𝑖)𝑜 𝑘 (𝑖) 𝜔𝑘 = 𝑽(𝑖) softmax 𝑸(i) 𝑲 𝑖 T 𝑑𝑘 , 𝑑𝑘 = 𝐻 𝐴 𝑚𝑘 = 𝑸(i) + 𝛼 ⨀ 𝒉(i) 𝐻 は入力𝑜 𝑘 (𝑖)の次元数 𝐴 はヘッド数を表す

Slide 12

Slide 12 text

新規性：Attention map と平面検出による安全領域 𝑠 の可視化 𝑠 = 𝑎rgb + 𝑎depth 2 ⨀ℎ ℎ ：平面と検出されたピクセルの集合 ⊕ ⨀ Plane detection ℎ [Wang+, 3DV18] 安全領域 𝑠 12 𝑎rgb 𝑎depth

Slide 13

Slide 13 text

実験設定：simulation 環境によるデータセット各配置場所はシミュレータによって自動的にラベル付け 13 PonNet-A-Sim データセット − 中心領域のみに配置 − 約 12,000 の衝突サンプルが記録 PonNet-B-Sim データセット − 9 領域に配置 − 各領域 1,500，合計約 13,500 の衝突サンプルが記録 − 家具，明るさ，背景の異なる 5 種類の場面を使用

Slide 14

Slide 14 text

定性的結果：シミュレーションデータの成功例 ✓ 障害物を避けた領域を安全領域として獲得 RGB 画像安全領域 𝒔 TN ( 非衝突 ) TP ( 衝突 ) 14 ✓ 顕著な安全領域は可視化されない

Slide 15

Slide 15 text

Method Accuracy Train : A-Sim Test : A-Sim Train : B-Sim Test : B-Sim Plane detection [Wang+, 3DV18] 82.5 72.30 PonNet [Magassouba+, AR21] 90.94±0.22 82.29±0.68 Transformer PonNet [植田+, JSAI21] パラメータ数：約2600万 91.26±0.21 82.10±0.52 Ours パラメータ数：約900万 91.23±0.32 82.28±1.77 定量的結果：ベースラインと同等または上回る結果 ✓ 提案手法はパラメータ数を削減しつつベースライン手法と同等の精度 15

Slide 16

Slide 16 text

エラー分析：透過物体や人から見ても判断が難しい例入力画像 ( RGB ) 16 Attention map ( RGB ) Attention map ( Depth ) 例1 例2 正解：衝突予測：非衝突  透過物体を捉える 人の目から見ても判断が難しい衝突

Slide 17

Slide 17 text

追加実験：実機環境によるデータ収集・実験 17 • トヨタの生活支援ロボット Human Support Robot ( HSR ) を使用 • 収集した 200 個のデータを Train / Test 用に分割 ✓ 実機環境への転用の可能性を示唆 Method Accuracy Train : A-Sim + Real ( 100 ) Test : Real ( 100 ) Ours 87.39±3.12

Slide 18

Slide 18 text

結論：衝突確率の低い安全領域を可視化する手法の提案本研究のポイント ✓ Attention mapと平面検出を組み合わせて安全な領域の候補を可視化 18