[RSJ23]Trimodal Cross-Attentional Transformer for Rearrangement Target Detection Using Visual Foundation Models

Slide 1

Slide 1 text

視覚的基盤モデルを用いた Trimodal Cross-Attentional Transformer に基づく再配置対象の検出慶應義塾大学西村喬行，松尾榛夏，杉浦孔明

Slide 2

Slide 2 text

背景：生活支援ロボットにおけるRearrangementタスク ■ 生活支援ロボット ■ 高齢化社会における在宅介助者不足解消に期待 ■ Rearrangement (再配置)タスクができれば便利 ■ 変化検出が重要 - 2 - 片付けしといて片付けるべきオブジェクトを特定 CVPR23 Scene Understanding Challenge

Slide 3

Slide 3 text

問題設定：Rearrangement Target Detection (RTD) - 3 - ■ 目標状態及び現在の状態画像から再配置すべき物体を検出 ■ 再配置対象 ■ 位置,向きが変化した物体&開閉した引き出し及び扉目標状態現在の状態マスク画像

Slide 4

Slide 4 text

問題設定：RTDタスクは人間にとっても容易ではない - 4 - 現在の状態目標状態

Slide 5

Slide 5 text

問題設定：RTDタスクは人間にとっても容易ではない - 5 - 目標状態現在の状態マスク画像

Slide 6

Slide 6 text

既存研究：RTDに似たタスクにScene Change Detectionがある - 6 - タスク名既存研究 Scene Change Detection CSCDNet [Sakurada+, ICRA20] C-3PO [Wang+, PR23] Rearrangement Target Detection [松尾+, JSAI23] CSCDNet [Sakurada+, ICRA20] C-3PO [Wang+, PR23]

Slide 7

Slide 7 text

既存研究：RTDに似たタスクにScene Change Detectionがある - 7 -

Slide 8

Slide 8 text

既存手法の問題点： RTDのためにはセグメンテーションの性能が不十分 - 8 - 画素値比較 [松尾, JSAI23] 画素値比較  影や明るさ変化に対応できない [松尾+, JSAI23]  ドア開閉の深度変化や小物体に対する性能は不十分 影の変化をマスク 小物体を誤検出 ドアの開閉に課題

Slide 9

Slide 9 text

- 9 - 新規性： RGBD画像及びSAM [Kirillov+, 23]で生成したセグメンテーション画像を扱う Trimodal Cross-Attentional Encoder 提案手法： Trimodal Cross-Attentional Transformer及びSAMの導入 ☺深度とセグメント情報の統合及び (Trimodal) 目標、現在の状態関係性のモデル化 (Cross-Attentional Encoder)

Slide 10

Slide 10 text

■ SAM [Kirillov+, 23] ☺ 各物体の領域情報を与えることができる →小物体や領域予測に役立つ Mask2Former [Cheng+, CVPR21]はSAMと比べ性能が劣る - 10 - 対象画像 Mask2Former SAM 一部正確に領域予測出来ていない ☺小物体も正確に予測

Slide 11

Slide 11 text

提案手法：モデル図の全体像 - 11 - Serial Encoder Serial Encoder Decoder Trimodal Cross-Attentional Transformer

Slide 12

Slide 12 text

- 12 - ■ 入力：RGBD画像の組 ■ SAM [Kirillov+, 23] ■ セグメンテーション画像 ■ Serial Encoder ■ Trimodal Cross-Attentional Encoder ■ Decoder ■ 出力：再配置物体のマスク画像提案手法：主に3 つのモジュールをもつ

Slide 13

Slide 13 text

Serial Encoder：CoaT [Xu+, ICCV21] による視覚情報の強化 - 13 - RGBD画像を結合番目のserial block ➀パッチ埋め込み層でダウンサンプリング ②平坦化＆CLSトークンを結合 ③Conv-Attention Module [Xu+, ICCV21]を適用 ④画像トークンとCLSトークンを分離＆画像トークンを変形 ☺ Serial Encoder [Xu+, ICCV21]を用いて複数次元の画像特徴量を抽出

Slide 14

Slide 14 text

Conv-Attention Module [Xu+, ICCV21] 時間,空間計算量を削減したattention構造 - 14 - CoaT [Xu+, ICCV21] -Convolutional Position Encoding 畳み込みをPosition embeddingとして利用 -Factorized Attention ☺計算量の削減

Slide 15

Slide 15 text

提案手法： Trimodal Cross-Attentional Transformer トリモーダル特徴抽出機構 - 15 - =1 serial blockの出力とセグメンテーション画像の行列和 =2 画像の連結のみ =3,4 目標状態と現在の状態に対する Cross-Attention →２つの状態の変化の特徴量を得る

Slide 16

Slide 16 text

RTDDデータセットの構築:大規模な再配置検出データセット - 16 - ◼ AI2-THOR [Kolve+, 17]で作成 ◼ 目標,現在の状態のRGBD画像 ◼ 正解マスク画像 ◼ 12000サンプル(10:1:1) ◼ ランダムに対象を配置 ◼ 30cm以上の移動 ◼ 60%以上の開閉

Slide 17

Slide 17 text

定量的結果：ベースライン手法をmIoU及びF1-scoreで上回る ■ Trimodal Cross-Attentional Encoderを使用した手法の精度が最高 ■ 深度画像の寄与が大きい ■ ベースライン手法をmIoU及びF1 -score で上回った (P<0.05) 手法深度画像 mask mIoU [%] F1 -score [%] ベースライン手法 [松尾, JSAI23] - - 59.0±0.5 85.2±0.3 提案手法 ✓ 73.4±0.6 91.3±0.2 ✓ 58.3±0.7 84.9±0.3 ✓ ✓ 73.5±0.3 91.3±0.1 - 17 - +6.1 +14.5

Slide 18

Slide 18 text

定性的結果：課題であるドアの開閉＆小物体で良好な結果 ☺ 引き出しの開閉＆机上の小物体の検出でより適切にセグメンテーション - 18 - 目標状態現在の状態 GT [松尾, JSAI23] 提案手法 扉の領域が不精確 ☺小物体の予測

Slide 19

Slide 19 text

定性的結果：物体内部をより適切にマスク - 19 - 目標状態現在の状態 GT [松尾, JSAI23] 提案手法 ☺ 大きな物体の内部をより適切にマスク 内部領域の予測が不精確 ☺mIoU 4.5↑

Slide 20

Slide 20 text

失敗例 : depth画像の寄与度が大きい - 20 - 目標状態現在の状態 GT 提案手法 depth画像に透明な物体が存在しない 瓶のマスク画像が生成されない

Slide 21

Slide 21 text

エラー分析 : depth画像に関連したエラーが多い - 21 - エラー種類サンプル数 depthマップ上で違いが分かりにくい物体 41 変化距離が短い物体 32 過小または過大な領域予測 21 アノテーション誤り 20 ◼ depth画像の寄与度が高い ◼ 透明、薄い物体がdepth画像上に存在しない ◼ 変化距離の検出に課題

Slide 22

Slide 22 text

まとめ - 22 - ■ 背景 ✓ 生活支援ロボットに変化検出は重要 ■ 提案 ✓ RGBD画像及びSAMで生成したセグメンテーション画像を扱う Trimodal Cross-Attentional Encoder ■ 結果 ✓ ベースラインをmIoU及びF1 -scoreにおいて上回る ✓ドアの開閉＆机上の小物体の検出で良好な結果

Slide 23

Slide 23 text

Appendix

Slide 24

Slide 24 text

Google Bard 2/2 : 存在しないものを参照 - 24 -  Disappeared: The computer mouse has disappeared.  Added: There is a small plant on the table. ☺ Moved: The position of the keyboard has changed slightly.