$30 off During Our Annual Pro Sale. View Details »

[RSJ23]Trimodal Cross-Attentional Transformer for Rearrangement Target Detection Using Visual Foundation Models

[RSJ23]Trimodal Cross-Attentional Transformer for Rearrangement Target Detection Using Visual Foundation Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 視覚的基盤モデルを用いた
    Trimodal Cross-Attentional Transformer
    に基づく再配置対象の検出
    慶應義塾大学
    西村喬行,松尾榛夏,杉浦孔明

    View Slide

  2. 背景:生活支援ロボットにおけるRearrangementタスク
    ■ 生活支援ロボット
    ■ 高齢化社会における在宅介助者不足解消に期待
    ■ Rearrangement (再配置)タスクができれば便利
    ■ 変化検出が重要
    - 2 -
    片付けしといて
    片付けるべき
    オブジェクトを特定
    CVPR23 Scene Understanding Challenge

    View Slide

  3. 問題設定:Rearrangement Target Detection (RTD)
    - 3 -
    ■ 目標状態及び現在の状態画像から再配置すべき物体を検出
    ■ 再配置対象
    ■ 位置,向きが変化した物体&開閉した引き出し及び扉
    目標状態 現在の状態 マスク画像

    View Slide

  4. 問題設定:RTDタスクは人間にとっても容易ではない
    - 4 -
    現在の状態
    目標状態

    View Slide

  5. 問題設定:RTDタスクは人間にとっても容易ではない
    - 5 -
    目標状態 現在の状態 マスク画像

    View Slide

  6. 既存研究:RTDに似たタスクにScene Change Detectionがある
    - 6 -
    タスク名 既存研究
    Scene Change Detection CSCDNet [Sakurada+, ICRA20]
    C-3PO [Wang+, PR23]
    Rearrangement Target Detection [松尾+, JSAI23]
    CSCDNet [Sakurada+, ICRA20] C-3PO [Wang+, PR23]

    View Slide

  7. 既存研究:RTDに似たタスクにScene Change Detectionがある
    - 7 -

    View Slide

  8. 既存手法の問題点:
    RTDのためにはセグメンテーションの性能が不十分
    - 8 -
    画素値比較 [松尾, JSAI23]
    画素値比較
     影や明るさ変化に対応できない
    [松尾+, JSAI23]
     ドア開閉の深度変化や小物体に対する性能は不十分
    影の変化をマスク
    小物体を誤検出
    ドアの開閉に課題

    View Slide

  9. - 9 -
    新規性:
    RGBD画像及びSAM [Kirillov+, 23]で
    生成したセグメンテーション画像を扱う
    Trimodal Cross-Attentional Encoder
    提案手法:
    Trimodal Cross-Attentional Transformer及びSAMの導入
    ☺深度とセグメント情報の統合及び
    (Trimodal)
    目標、現在の状態関係性のモデル化
    (Cross-Attentional Encoder)

    View Slide

  10. ■ SAM [Kirillov+, 23]
    ☺ 各物体の領域情報を与えることができる
    →小物体や領域予測に役立つ
    Mask2Former [Cheng+, CVPR21]はSAMと比べ性能が劣る
    - 10 -
    対象画像 Mask2Former SAM
    一部正確に領域予測
    出来ていない ☺小物体も正確に予測

    View Slide

  11. 提案手法: モデル図の全体像
    - 11 -
    Serial Encoder
    Serial Encoder
    Decoder
    Trimodal Cross-Attentional Transformer

    View Slide

  12. - 12 -
    ■ 入力:RGBD画像の組
    ■ SAM [Kirillov+, 23]
    ■ セグメンテーション画像
    ■ Serial Encoder
    ■ Trimodal Cross-Attentional Encoder
    ■ Decoder
    ■ 出力:再配置物体のマスク画像
    提案手法:主に3 つのモジュールをもつ

    View Slide

  13. Serial Encoder:CoaT [Xu+, ICCV21] による視覚情報の強化
    - 13 -
    RGBD画像を
    結合
    番目のserial block
    ➀パッチ埋め込み層でダウンサンプリング
    ②平坦化&CLSトークンを結合
    ③Conv-Attention Module [Xu+, ICCV21]を
    適用
    ④画像トークンとCLSトークンを分離&
    画像トークンを変形
    ☺ Serial Encoder [Xu+, ICCV21]を用いて複数次元の画像特徴量を抽出

    View Slide

  14. Conv-Attention Module [Xu+, ICCV21]
    時間,空間計算量を削減したattention構造
    - 14 -
    CoaT [Xu+, ICCV21]
    -Convolutional Position Encoding
    畳み込みをPosition embeddingとして利用
    -Factorized Attention
    ☺計算量の削減

    View Slide

  15. 提案手法: Trimodal Cross-Attentional Transformer
    トリモーダル特徴抽出機構
    - 15 -
    =1
    serial blockの出力と
    セグメンテーション画像の行列和
    =2
    画像の連結のみ
    =3,4
    目標状態と現在の状態に対する
    Cross-Attention
    →2つの状態の変化の特徴量を得る

    View Slide

  16. RTDDデータセットの構築:大規模な再配置検出データセット
    - 16 -
    ◼ AI2-THOR [Kolve+, 17]で作成
    ◼ 目標,現在の状態のRGBD画像
    ◼ 正解マスク画像
    ◼ 12000サンプル(10:1:1)
    ◼ ランダムに対象を配置
    ◼ 30cm以上の移動
    ◼ 60%以上の開閉

    View Slide

  17. 定量的結果:ベースライン手法をmIoU及びF1-scoreで上回る
    ■ Trimodal Cross-Attentional Encoderを使用した手法の精度が最高
    ■ 深度画像の寄与が大きい
    ■ ベースライン手法をmIoU及びF1
    -score で上回った (P<0.05)
    手法 深度画像 mask mIoU [%] F1
    -score [%]
    ベースライン手法
    [松尾, JSAI23]
    - - 59.0±0.5 85.2±0.3
    提案手法
    ✓ 73.4±0.6 91.3±0.2
    ✓ 58.3±0.7 84.9±0.3
    ✓ ✓ 73.5±0.3 91.3±0.1
    - 17 -
    +6.1
    +14.5

    View Slide

  18. 定性的結果:課題であるドアの開閉&小物体で良好な結果
    ☺ 引き出しの開閉&机上の小物体の検出でより適切にセグメンテーション
    - 18 -
    目標状態 現在の状態 GT [松尾, JSAI23] 提案手法
    扉の領域が不精確
    ☺小物体の予測

    View Slide

  19. 定性的結果:物体内部をより適切にマスク
    - 19 -
    目標状態 現在の状態 GT [松尾, JSAI23] 提案手法
    ☺ 大きな物体の内部をより適切にマスク
    内部領域の
    予測が不精確
    ☺mIoU 4.5↑

    View Slide

  20. 失敗例 : depth画像の寄与度が大きい
    - 20 -
    目標状態 現在の状態 GT 提案手法
    depth画像に透明な物体が存在しない
    瓶のマスク画像が
    生成されない

    View Slide

  21. エラー分析 : depth画像に関連したエラーが多い
    - 21 -
    エラー種類 サンプル数
    depthマップ上で違いが分かりにくい物体 41
    変化距離が短い物体 32
    過小または過大な領域予測 21
    アノテーション誤り 20
    ◼ depth画像の寄与度が高い
    ◼ 透明、薄い物体がdepth画像上に存在しない
    ◼ 変化距離の検出に課題

    View Slide

  22. まとめ
    - 22 -
    ■ 背景
    ✓ 生活支援ロボットに変化検出は重要
    ■ 提案
    ✓ RGBD画像及びSAMで生成した
    セグメンテーション画像を扱う
    Trimodal Cross-Attentional Encoder
    ■ 結果
    ✓ ベースラインをmIoU及びF1
    -scoreにおいて上回る
    ✓ドアの開閉&机上の小物体の検出で良好な結果

    View Slide

  23. Appendix

    View Slide

  24. Google Bard 2/2 : 存在しないものを参照
    - 24 -
     Disappeared: The computer mouse has disappeared.
     Added: There is a small plant on the table.
    ☺ Moved: The position of the keyboard has changed slightly.

    View Slide