Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ23]Trimodal Cross-Attentional Transformer f...

[RSJ23]Trimodal Cross-Attentional Transformer for Rearrangement Target Detection Using Visual Foundation Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 問題設定:Rearrangement Target Detection (RTD) - 3 - ▪ 目標状態及び現在の状態画像から再配置すべき物体を検出 ▪

    再配置対象 ▪ 位置,向きが変化した物体&開閉した引き出し及び扉 目標状態 現在の状態 マスク画像
  2. 既存研究:RTDに似たタスクにScene Change Detectionがある - 6 - タスク名 既存研究 Scene Change

    Detection CSCDNet [Sakurada+, ICRA20] C-3PO [Wang+, PR23] Rearrangement Target Detection [松尾+, JSAI23] CSCDNet [Sakurada+, ICRA20] C-3PO [Wang+, PR23]
  3. 既存手法の問題点: RTDのためにはセグメンテーションの性能が不十分 - 8 - 画素値比較 [松尾, JSAI23] 画素値比較 

    影や明るさ変化に対応できない [松尾+, JSAI23]  ドア開閉の深度変化や小物体に対する性能は不十分 影の変化をマスク 小物体を誤検出 ドアの開閉に課題
  4. - 9 - 新規性: RGBD画像及びSAM [Kirillov+, 23]で 生成したセグメンテーション画像を扱う Trimodal Cross-Attentional

    Encoder 提案手法: Trimodal Cross-Attentional Transformer及びSAMの導入 ☺深度とセグメント情報の統合及び (Trimodal) 目標、現在の状態関係性のモデル化 (Cross-Attentional Encoder)
  5. - 12 - ▪ 入力:RGBD画像の組 ▪ SAM [Kirillov+, 23] ▪

    セグメンテーション画像 ▪ Serial Encoder ▪ Trimodal Cross-Attentional Encoder ▪ Decoder ▪ 出力:再配置物体のマスク画像 提案手法:主に3 つのモジュールをもつ
  6. Serial Encoder:CoaT [Xu+, ICCV21] による視覚情報の強化 - 13 - RGBD画像を 結合

    番目のserial block ➀パッチ埋め込み層でダウンサンプリング ②平坦化&CLSトークンを結合 ③Conv-Attention Module [Xu+, ICCV21]を 適用 ④画像トークンとCLSトークンを分離& 画像トークンを変形 ☺ Serial Encoder [Xu+, ICCV21]を用いて複数次元の画像特徴量を抽出
  7. Conv-Attention Module [Xu+, ICCV21] 時間,空間計算量を削減したattention構造 - 14 - CoaT [Xu+,

    ICCV21] -Convolutional Position Encoding 畳み込みをPosition embeddingとして利用 -Factorized Attention ☺計算量の削減
  8. 提案手法: Trimodal Cross-Attentional Transformer トリモーダル特徴抽出機構 - 15 - =1 serial

    blockの出力と セグメンテーション画像の行列和 =2 画像の連結のみ =3,4 目標状態と現在の状態に対する Cross-Attention →2つの状態の変化の特徴量を得る
  9. RTDDデータセットの構築:大規模な再配置検出データセット - 16 - ◼ AI2-THOR [Kolve+, 17]で作成 ◼ 目標,現在の状態のRGBD画像

    ◼ 正解マスク画像 ◼ 12000サンプル(10:1:1) ◼ ランダムに対象を配置 ◼ 30cm以上の移動 ◼ 60%以上の開閉
  10. 定量的結果:ベースライン手法をmIoU及びF1-scoreで上回る ▪ Trimodal Cross-Attentional Encoderを使用した手法の精度が最高 ▪ 深度画像の寄与が大きい ▪ ベースライン手法をmIoU及びF1 -score

    で上回った (P<0.05) 手法 深度画像 mask mIoU [%] F1 -score [%] ベースライン手法 [松尾, JSAI23] - - 59.0±0.5 85.2±0.3 提案手法 ✓ 73.4±0.6 91.3±0.2 ✓ 58.3±0.7 84.9±0.3 ✓ ✓ 73.5±0.3 91.3±0.1 - 17 - +6.1 +14.5
  11. 定性的結果:物体内部をより適切にマスク - 19 - 目標状態 現在の状態 GT [松尾, JSAI23] 提案手法

    ☺ 大きな物体の内部をより適切にマスク 内部領域の 予測が不精確 ☺mIoU 4.5↑
  12. 失敗例 : depth画像の寄与度が大きい - 20 - 目標状態 現在の状態 GT 提案手法

    depth画像に透明な物体が存在しない 瓶のマスク画像が 生成されない
  13. エラー分析 : depth画像に関連したエラーが多い - 21 - エラー種類 サンプル数 depthマップ上で違いが分かりにくい物体 41

    変化距離が短い物体 32 過小または過大な領域予測 21 アノテーション誤り 20 ◼ depth画像の寄与度が高い ◼ 透明、薄い物体がdepth画像上に存在しない ◼ 変化距離の検出に課題
  14. まとめ - 22 - ▪ 背景 ✓ 生活支援ロボットに変化検出は重要 ▪ 提案

    ✓ RGBD画像及びSAMで生成した セグメンテーション画像を扱う Trimodal Cross-Attentional Encoder ▪ 結果 ✓ ベースラインをmIoU及びF1 -scoreにおいて上回る ✓ドアの開閉&机上の小物体の検出で良好な結果
  15. Google Bard 2/2 : 存在しないものを参照 - 24 -  Disappeared:

    The computer mouse has disappeared.  Added: There is a small plant on the table. ☺ Moved: The position of the keyboard has changed slightly.