[RSJ23]Trimodal Cross-Attentional Transformer for Rearrangement Target Detection Using Visual Foundation Models

視覚的基盤モデルを用いた Trimodal Cross-Attentional Transformer に基づく再配置対象の検出慶應義塾大学西村喬行，松尾榛夏，杉浦孔明

背景：生活支援ロボットにおけるRearrangementタスク ▪ 生活支援ロボット ▪ 高齢化社会における在宅介助者不足解消に期待 ▪ Rearrangement (再配置)タスクができれば便利 ▪ 変化検出が重要
- 2 - 片付けしといて片付けるべきオブジェクトを特定 CVPR23 Scene Understanding Challenge

問題設定：Rearrangement Target Detection (RTD) - 3 - ▪ 目標状態及び現在の状態画像から再配置すべき物体を検出 ▪
再配置対象 ▪ 位置,向きが変化した物体&開閉した引き出し及び扉目標状態現在の状態マスク画像

問題設定：RTDタスクは人間にとっても容易ではない - 4 - 現在の状態目標状態

問題設定：RTDタスクは人間にとっても容易ではない - 5 - 目標状態現在の状態マスク画像

既存研究：RTDに似たタスクにScene Change Detectionがある - 6 - タスク名既存研究 Scene Change
Detection CSCDNet [Sakurada+, ICRA20] C-3PO [Wang+, PR23] Rearrangement Target Detection [松尾+, JSAI23] CSCDNet [Sakurada+, ICRA20] C-3PO [Wang+, PR23]

既存研究：RTDに似たタスクにScene Change Detectionがある - 7 -

既存手法の問題点： RTDのためにはセグメンテーションの性能が不十分 - 8 - 画素値比較 [松尾, JSAI23] 画素値比較 
影や明るさ変化に対応できない [松尾+, JSAI23]  ドア開閉の深度変化や小物体に対する性能は不十分 影の変化をマスク 小物体を誤検出 ドアの開閉に課題

- 9 - 新規性： RGBD画像及びSAM [Kirillov+, 23]で生成したセグメンテーション画像を扱う Trimodal Cross-Attentional
Encoder 提案手法： Trimodal Cross-Attentional Transformer及びSAMの導入 ☺深度とセグメント情報の統合及び (Trimodal) 目標、現在の状態関係性のモデル化 (Cross-Attentional Encoder)

▪ SAM [Kirillov+, 23] ☺ 各物体の領域情報を与えることができる →小物体や領域予測に役立つ Mask2Former [Cheng+, CVPR21]はSAMと比べ性能が劣る
- 10 - 対象画像 Mask2Former SAM 一部正確に領域予測出来ていない ☺小物体も正確に予測

提案手法：モデル図の全体像 - 11 - Serial Encoder Serial Encoder Decoder
Trimodal Cross-Attentional Transformer

- 12 - ▪ 入力：RGBD画像の組 ▪ SAM [Kirillov+, 23] ▪
セグメンテーション画像 ▪ Serial Encoder ▪ Trimodal Cross-Attentional Encoder ▪ Decoder ▪ 出力：再配置物体のマスク画像提案手法：主に3 つのモジュールをもつ

Serial Encoder：CoaT [Xu+, ICCV21] による視覚情報の強化 - 13 - RGBD画像を結合
番目のserial block ➀パッチ埋め込み層でダウンサンプリング ②平坦化＆CLSトークンを結合 ③Conv-Attention Module [Xu+, ICCV21]を適用 ④画像トークンとCLSトークンを分離＆画像トークンを変形 ☺ Serial Encoder [Xu+, ICCV21]を用いて複数次元の画像特徴量を抽出

Conv-Attention Module [Xu+, ICCV21] 時間,空間計算量を削減したattention構造 - 14 - CoaT [Xu+,
ICCV21] -Convolutional Position Encoding 畳み込みをPosition embeddingとして利用 -Factorized Attention ☺計算量の削減

提案手法： Trimodal Cross-Attentional Transformer トリモーダル特徴抽出機構 - 15 - =1 serial
blockの出力とセグメンテーション画像の行列和 =2 画像の連結のみ =3,4 目標状態と現在の状態に対する Cross-Attention →２つの状態の変化の特徴量を得る

RTDDデータセットの構築:大規模な再配置検出データセット - 16 - ◼ AI2-THOR [Kolve+, 17]で作成 ◼ 目標,現在の状態のRGBD画像
◼ 正解マスク画像 ◼ 12000サンプル(10:1:1) ◼ ランダムに対象を配置 ◼ 30cm以上の移動 ◼ 60%以上の開閉

定量的結果：ベースライン手法をmIoU及びF1-scoreで上回る ▪ Trimodal Cross-Attentional Encoderを使用した手法の精度が最高 ▪ 深度画像の寄与が大きい ▪ ベースライン手法をmIoU及びF1 -score
で上回った (P<0.05) 手法深度画像 mask mIoU [%] F1 -score [%] ベースライン手法 [松尾, JSAI23] - - 59.0±0.5 85.2±0.3 提案手法 ✓ 73.4±0.6 91.3±0.2 ✓ 58.3±0.7 84.9±0.3 ✓ ✓ 73.5±0.3 91.3±0.1 - 17 - +6.1 +14.5

定性的結果：課題であるドアの開閉＆小物体で良好な結果 ☺ 引き出しの開閉＆机上の小物体の検出でより適切にセグメンテーション - 18 - 目標状態現在の状態 GT [松尾,
JSAI23] 提案手法 扉の領域が不精確 ☺小物体の予測

定性的結果：物体内部をより適切にマスク - 19 - 目標状態現在の状態 GT [松尾, JSAI23] 提案手法
☺ 大きな物体の内部をより適切にマスク 内部領域の予測が不精確 ☺mIoU 4.5↑

失敗例 : depth画像の寄与度が大きい - 20 - 目標状態現在の状態 GT 提案手法
depth画像に透明な物体が存在しない 瓶のマスク画像が生成されない

エラー分析 : depth画像に関連したエラーが多い - 21 - エラー種類サンプル数 depthマップ上で違いが分かりにくい物体 41
変化距離が短い物体 32 過小または過大な領域予測 21 アノテーション誤り 20 ◼ depth画像の寄与度が高い ◼ 透明、薄い物体がdepth画像上に存在しない ◼ 変化距離の検出に課題

まとめ - 22 - ▪ 背景 ✓ 生活支援ロボットに変化検出は重要 ▪ 提案
✓ RGBD画像及びSAMで生成したセグメンテーション画像を扱う Trimodal Cross-Attentional Encoder ▪ 結果 ✓ ベースラインをmIoU及びF1 -scoreにおいて上回る ✓ドアの開閉＆机上の小物体の検出で良好な結果

Appendix

Google Bard 2/2 : 存在しないものを参照 - 24 -  Disappeared:
The computer mouse has disappeared.  Added: There is a small plant on the table. ☺ Moved: The position of the keyboard has changed slightly.

[RSJ23]Trimodal Cross-Attentional Transformer f...

[RSJ23]Trimodal Cross-Attentional Transformer for Rearrangement Target Detection Using Visual Foundation Models

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

視覚的基盤モデルを用いた Trimodal Cross-Attentional Transformer に基づく再配置対象の検出慶應義塾大学西村喬行，松尾榛夏，杉浦孔明

背景：生活支援ロボットにおけるRearrangementタスク ▪ 生活支援ロボット ▪ 高齢化社会における在宅介助者不足解消に期待 ▪ Rearrangement (再配置)タスクができれば便利 ▪ 変化検出が重要

問題設定：Rearrangement Target Detection (RTD) - 3 - ▪ 目標状態及び現在の状態画像から再配置すべき物体を検出 ▪

問題設定：RTDタスクは人間にとっても容易ではない - 4 - 現在の状態目標状態

問題設定：RTDタスクは人間にとっても容易ではない - 5 - 目標状態現在の状態マスク画像

既存研究：RTDに似たタスクにScene Change Detectionがある - 6 - タスク名既存研究 Scene Change

既存研究：RTDに似たタスクにScene Change Detectionがある - 7 -

既存手法の問題点： RTDのためにはセグメンテーションの性能が不十分 - 8 - 画素値比較 [松尾, JSAI23] 画素値比較 

- 9 - 新規性： RGBD画像及びSAM [Kirillov+, 23]で生成したセグメンテーション画像を扱う Trimodal Cross-Attentional

▪ SAM [Kirillov+, 23] ☺ 各物体の領域情報を与えることができる →小物体や領域予測に役立つ Mask2Former [Cheng+, CVPR21]はSAMと比べ性能が劣る

提案手法：モデル図の全体像 - 11 - Serial Encoder Serial Encoder Decoder

- 12 - ▪ 入力：RGBD画像の組 ▪ SAM [Kirillov+, 23] ▪

Serial Encoder：CoaT [Xu+, ICCV21] による視覚情報の強化 - 13 - RGBD画像を結合

Conv-Attention Module [Xu+, ICCV21] 時間,空間計算量を削減したattention構造 - 14 - CoaT [Xu+,

提案手法： Trimodal Cross-Attentional Transformer トリモーダル特徴抽出機構 - 15 - =1 serial

RTDDデータセットの構築:大規模な再配置検出データセット - 16 - ◼ AI2-THOR [Kolve+, 17]で作成 ◼ 目標,現在の状態のRGBD画像

定量的結果：ベースライン手法をmIoU及びF1-scoreで上回る ▪ Trimodal Cross-Attentional Encoderを使用した手法の精度が最高 ▪ 深度画像の寄与が大きい ▪ ベースライン手法をmIoU及びF1 -score

定性的結果：課題であるドアの開閉＆小物体で良好な結果 ☺ 引き出しの開閉＆机上の小物体の検出でより適切にセグメンテーション - 18 - 目標状態現在の状態 GT [松尾,

定性的結果：物体内部をより適切にマスク - 19 - 目標状態現在の状態 GT [松尾, JSAI23] 提案手法

失敗例 : depth画像の寄与度が大きい - 20 - 目標状態現在の状態 GT 提案手法

エラー分析 : depth画像に関連したエラーが多い - 21 - エラー種類サンプル数 depthマップ上で違いが分かりにくい物体 41

まとめ - 22 - ▪ 背景 ✓ 生活支援ロボットに変化検出は重要 ▪ 提案

Appendix

Google Bard 2/2 : 存在しないものを参照 - 24 -  Disappeared: