[RSJ22] Collision Prediction and Visual Explanation Generation Using Structural Knowledge in Object Placement Tasks

Slide 1

Slide 1 text

物体配置タスクにおける構造的知識を用いた衝突予測および視覚的説明生成松尾榛夏¹ 畑中駿平¹ 平川翼² 山下隆義² 藤吉弘亘² 杉浦孔明¹ ¹慶應義塾大学 ²中部大学 1

Slide 2

Slide 2 text

背景：生活支援ロボットの物体配置には高い安全性が求められる • 介助従事者不足の解決策の一つとして生活支援ロボットが有望視 • 物体配置は生活支援ロボットの基本的動作の一つ – 高い安全性が必要 2

Slide 3

Slide 3 text

対象タスク：物体間の衝突に関する衝突予測タスク •  軽微な接触の連鎖による物体の転倒や落下の可能性 – 連鎖の予測は困難 • 物体間の衝突に関する衝突予測タスク – 衝突確率の予測 3 軽微な接触 (アームと物体) 軽微な接触 (物体と物体) 物体の落下

Slide 4

Slide 4 text

既存研究：物体配置分野はこれまでにも広く研究されている 4 代表的研究概要 [Jiang+, IJRR12] 物体間の幾何学的関係や配置における人間の意向など複数の性質を扱うグラフィカルなモデル [Gualtieri+, ICRA18] 深層強化学習に基づく物体配置動作計画の研究 PonNet [Magassouba+, AR21] Transformer PonNet [植田+, JSAI21] Attention Branch Network ( ABN ) [Fukui+, CVPR19] を用いて物体同士の衝突確率を予測 [Jiang+, IJRR12] [Gualtieri+, ICRA18] Transformer PonNet

Slide 5

Slide 5 text

• Transformer PonNet [植田+, JSAI21] – 入力：対象物体と配置領域のRGBD画像 – 出力：衝突確率 •  構造的知識を用いていない – 構造的知識：障害物の位置情報および画像特徴量同士の関係 •  配置方策を行っていない ⇒ 構造的知識も考慮した手法の提案＆配置方策を導入既存手法の問題点：構造的知識と配置方策を扱っていない 5 RGB depth 配置領域対象物体 RGB depth

Slide 6

Slide 6 text

全体構造：Transformer PonNetに新たなモジュールを追加 • Transformer PonNetの拡張： Structural Causal Encoder を追加 • 5種類のモジュール – Transformer PonNetの 4種類のモジュール – Structural Causal Encoder 6

Slide 7

Slide 7 text

• Attention Branch Network (ABN) [Fukui+, CVPR19] attention mapから特徴量に対して重み付けを行う構造 (1/4)：衝突に関連する部分に注目して重み付け 7 7 ABN [Fukui+, CVPR19] Attention Map 𝒘rgb = (1 + 𝒂rgb )⨀𝒉rgb 𝒘depth = (1 + 𝒂depth )⨀𝒉depth

Slide 8

Slide 8 text

構造 (2/4)：位置情報・画像特徴量の埋め込み処理 • Structural Causal Encoder (SCE)：埋め込み処理 Faster R-CNN [Ren+, PAMI16] から各障害物の位置情報・画像特徴量を得て埋め込む 8 画像特徴量位置情報 ResNet ×障害物数 [ bboxの座標，幅，高さ，面積 ] 新規性

Slide 9

Slide 9 text

構造 (3/4)：特徴量を transformer で算出 • Structural Causal Encoder (SCE)：transformer transformer を導入し構造的知識に関する特徴量を算出する 9 障害物同士の attention を計算 → 構造的知識の獲得新規性

Slide 10

Slide 10 text

構造 (4/4)：Transformer の decoder により attention を計算 • Transformer Perception Branch (TPB) transformer の decoder によって SCE の出力との間の attention を計算 10 𝑸(𝑖) = 𝑾𝑞 (𝑖)𝜶. , 𝑲(i) = 𝑾 𝑘 (𝑖)𝒉obstmha , 𝑽(i)= 𝑾 𝑣 (𝑖)𝒉obstmha 𝒇(𝑖) = softmax 𝑸(𝑖) 𝑲 𝑖 T 𝑑 𝑽(𝑖) , 𝑑 = 𝑸(𝑖)の次元数ヘッド数 Transformer decoder

Slide 11

Slide 11 text

配置方策：安全な位置に配置 • データセットを作成する際に配置方策を導入 – 既存手法より安全な位置に配置 – 実用時の条件に近いデータセット • Transformer PonNet [植田+, JSAI21] を使用 • 衝突すると予測した場合 – Attentionが低い場所に配置 • 衝突しないと予測した場合 – Attentionが高い場所に配置 11

Slide 12

Slide 12 text

実験：Simulation データセット • BILA-S データセット – 配置方策を導入 – 約 12,000 サンプル – シミュレータによって自動的にラベル付け – Faster R-CNN [Ren+, PAMI16] による物体検出の学習 • COCOデータセットで事前学習済み Faster R-CNN を使用 • BILA-S データセットで finetuning 12

Slide 13

Slide 13 text

実験：実機環境によるデータセット • トヨタの生活支援ロボット Human Support Robot (HSR) を使用 • BILA-Real データセット – 中心領域のみに配置 – 約 2,000 サンプル 13 x100

Slide 14

Slide 14 text

定量的結果：ベースラインを精度で上回る結果 • 提案手法はBILA-Sデータセットにおいてベースライン手法を精度で上回る • Real Datasetではunseenのみ上回る • タスク成功率も提案手法が上回る Method 精度タスク成功率 Sim Real (seen) Real (unseen) Transformer PonNet [植田+, JSAI21] 77.64±2.32 62.30±0.06 61.70±0.06 52.0% (482/940) 提案手法 80.74±0.53 58.90±0.05 63.90±0.04 61.9% (70/113) 14 +3.10 +9.9

Slide 15

Slide 15 text

定性的結果：シミュレーションデータの成功例 (TP (衝突)) 15 入力画像 ( RGB ) 物体検出した矩形領域 Attention map ( RGB ) Attention map ( depth ) 入力画像 ( depth ) 既存手法提案手法  広い範囲に注目  重要ではない一部に注目 ☺ 障害物がある領域に注目 ☺ すべての障害物を正しく認識

Slide 16

Slide 16 text

定性的結果：シミュレーションデータの成功例 (TN (非衝突)) 16 入力画像 ( RGB ) Attention map ( RGB ) Attention map ( depth ) 入力画像 ( depth ) 物体検出した矩形領域既存手法提案手法 ☺ すべての障害物を正しく認識  置けない部分に注目  物体がある部分にも注目 ☺ 障害物が無い配置可能な領域に注目

Slide 17

Slide 17 text

Ablation Study：Structural Causal Encoder モジュールの有効性 • TPB 内の decoder が無くなる、または画像サイズの縮小で精度は低下 • Transfomer PonNet に SCE を加えると精度は向上 ⇒ Structural Causal Encoder モジュールを加えることが最も重要 17 TPB の decoder 層 Destination 画像サイズ精度 Type1 384×384 80.43±0.66 Type2 ✔ 192×192 80.59±0.55 Ours ✔ 384×384 80.74±0.53

Slide 18

Slide 18 text

結論：構造的知識を考慮した衝突確率の予測の提案 • 本研究のポイント – 構造的知識を扱うために Transformer PonNet を拡張 – 配置方策を導入 – ベースライン手法を精度・タスク成功率の両方で上回る 18

Slide 19

Slide 19 text

Appendix：シミュレーションデータの失敗例（上 : FP, 下 : FN） 19 物体検出した矩形領域 Attention map ( RGB ) Attention map ( depth ) 入力画像 ( RGB ) 入力画像 ( depth )  誤って衝突と予測  誤って衝突しないと予測

Slide 20

Slide 20 text

Appendix：エラー分析（人間が見ても判断が難しい例、透過物体） • 衝突と予測した予測誤り – 軽微な接触 • 衝突しないと予測した予測誤り – 障害物と対象物体の衝突 – 障害物とアームの衝突 • 透過物体との衝突 – depth画像で透過部分が消える 20 入力画像 ( RGB ) 入力画像 ( depth )

Slide 21

Slide 21 text

Appendix : タスク成功率に関する定性的結果 21 Attention map ( RGB ) Attention map ( depth ) 物体検出した矩形領域既存手法提案手法 ☺ 缶に注目できている → 予測成功＝配置成功  物体に注目できていない → 予測失敗＝配置失敗