Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ22] Collision Prediction and Visual Explana...

[RSJ22] Collision Prediction and Visual Explanation Generation Using Structural Knowledge in Object Placement Tasks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 既存研究:物体配置分野はこれまでにも広く研究されている 4 代表的研究 概要 [Jiang+, IJRR12] 物体間の幾何学的関係や配置における人間の意向など 複数の性質を扱うグラフィカルなモデル [Gualtieri+, ICRA18]

    深層強化学習に基づく物体配置動作計画の研究 PonNet [Magassouba+, AR21] Transformer PonNet [植田+, JSAI21] Attention Branch Network ( ABN ) [Fukui+, CVPR19] を 用いて物体同士の衝突確率を予測 [Jiang+, IJRR12] [Gualtieri+, ICRA18] Transformer PonNet
  2. • Transformer PonNet [植田+, JSAI21] – 入力:対象物体と配置領域のRGBD画像 – 出力:衝突確率 •

     構造的知識を用いていない – 構造的知識:障害物の位置情報および画像特徴量同士の関係 •  配置方策を行っていない ⇒ 構造的知識も考慮した手法の提案 & 配置方策を導入 既存手法の問題点:構造的知識と配置方策を扱っていない 5 RGB depth 配置領域 対象物体 RGB depth
  3. 全体構造:Transformer PonNetに新たなモジュールを追加 • Transformer PonNetの拡張: Structural Causal Encoder を 追加

    • 5種類のモジュール – Transformer PonNetの 4種類のモジュール – Structural Causal Encoder 6
  4. • Attention Branch Network (ABN) [Fukui+, CVPR19] attention mapから特徴量に対して重み付けを行う 構造

    (1/4):衝突に関連する部分に注目して重み付け 7 7 ABN [Fukui+, CVPR19] Attention Map 𝒘rgb = (1 + 𝒂rgb )⨀𝒉rgb <dest> 𝒘depth = (1 + 𝒂depth )⨀𝒉depth <dest>
  5. 構造 (2/4):位置情報・画像特徴量の埋め込み処理 • Structural Causal Encoder (SCE):埋め込み処理 Faster R-CNN [Ren+,

    PAMI16] から各障害物の位置情報・画像特徴量を得て埋め込む 8 画像特徴量 位置情報 ResNet ×障害物数 [ bboxの座標,幅,高さ,面積 ] 新規性
  6. 構造 (3/4):特徴量を transformer で算出 • Structural Causal Encoder (SCE):transformer transformer

    を導入し構造的知識に関する特徴量を算出する 9 障害物同士の attention を計算 → 構造的知識の獲得 新規性
  7. 構造 (4/4):Transformer の decoder により attention を計算 • Transformer Perception

    Branch (TPB) transformer の decoder によって SCE の出力との間の attention を計算 10 𝑸(𝑖) = 𝑾𝑞 (𝑖)𝜶. , 𝑲(i) = 𝑾 𝑘 (𝑖)𝒉obstmha , 𝑽(i)= 𝑾 𝑣 (𝑖)𝒉obstmha 𝒇(𝑖) = softmax 𝑸(𝑖) 𝑲 𝑖 T 𝑑 𝑽(𝑖) , 𝑑 = 𝑸(𝑖)の次元数 ヘッド数 Transformer decoder
  8. 配置方策:安全な位置に配置 • データセットを作成する際に配置方策を導入 – 既存手法より安全な位置に配置 – 実用時の条件に近いデータセット • Transformer PonNet

    [植田+, JSAI21] を使用 • 衝突すると予測した場合 – Attentionが低い場所に配置 • 衝突しないと予測した場合 – Attentionが高い場所に配置 11
  9. 実験:Simulation データセット • BILA-S データセット – 配置方策を導入 – 約 12,000

    サンプル – シミュレータによって自動的にラベル付け – Faster R-CNN [Ren+, PAMI16] による物体検出の学習 • COCOデータセットで事前学習済み Faster R-CNN を使用 • BILA-S データセットで finetuning 12
  10. 定量的結果:ベースラインを精度で上回る結果 • 提案手法はBILA-Sデータセットにおいてベースライン手法を精度で上回る • Real Datasetではunseenのみ上回る • タスク成功率も提案手法が上回る Method 精度

    タスク成功率 Sim Real (seen) Real (unseen) Transformer PonNet [植田+, JSAI21] 77.64±2.32 62.30±0.06 61.70±0.06 52.0% (482/940) 提案手法 80.74±0.53 58.90±0.05 63.90±0.04 61.9% (70/113) 14 +3.10 +9.9
  11. 定性的結果:シミュレーションデータの成功例 (TP (衝突)) 15 入力画像 ( RGB ) 物体検出した 矩形領域

    Attention map ( RGB ) Attention map ( depth ) 入力画像 ( depth ) 既存手法 提案手法  広い範囲に注目  重要ではない 一部に注目 ☺ 障害物がある領域に注目 ☺ すべての障害物を 正しく認識
  12. 定性的結果:シミュレーションデータの成功例 (TN (非衝突)) 16 入力画像 ( RGB ) Attention map

    ( RGB ) Attention map ( depth ) 入力画像 ( depth ) 物体検出した 矩形領域 既存手法 提案手法 ☺ すべての障害物を 正しく認識  置けない部分に注目  物体がある 部分にも注目 ☺ 障害物が無い配置可能な 領域に注目
  13. Ablation Study:Structural Causal Encoder モジュールの有効性 • TPB 内の decoder が無くなる、または画像サイズの縮小で精度は低下

    • Transfomer PonNet に SCE を加えると精度は向上 ⇒ Structural Causal Encoder モジュールを加えることが最も重要 17 TPB の decoder 層 Destination 画像サイズ 精度 Type1 384×384 80.43±0.66 Type2 ✔ 192×192 80.59±0.55 Ours ✔ 384×384 80.74±0.53
  14. Appendix:シミュレーションデータの失敗例(上 : FP, 下 : FN) 19 物体検出した 矩形領域 Attention

    map ( RGB ) Attention map ( depth ) 入力画像 ( RGB ) 入力画像 ( depth )  誤って衝突と予測  誤って衝突しないと予測
  15. Appendix : タスク成功率に関する定性的結果 21 Attention map ( RGB ) Attention

    map ( depth ) 物体検出した 矩形領域 既存手法 提案手法 ☺ 缶に注目できている → 予測成功=配置成功  物体に注目できていない → 予測失敗=配置失敗