視覚的基盤モデルを用いたTrimodal Cross-Attentional Transformerに基づく再配置対象の検出慶應義塾大学西村喬行,松尾榛夏,杉浦孔明
View Slide
背景:生活支援ロボットにおけるRearrangementタスク■ 生活支援ロボット■ 高齢化社会における在宅介助者不足解消に期待■ Rearrangement (再配置)タスクができれば便利■ 変化検出が重要- 2 -片付けしといて片付けるべきオブジェクトを特定CVPR23 Scene Understanding Challenge
問題設定:Rearrangement Target Detection (RTD)- 3 -■ 目標状態及び現在の状態画像から再配置すべき物体を検出■ 再配置対象■ 位置,向きが変化した物体&開閉した引き出し及び扉目標状態 現在の状態 マスク画像
問題設定:RTDタスクは人間にとっても容易ではない- 4 -現在の状態目標状態
問題設定:RTDタスクは人間にとっても容易ではない- 5 -目標状態 現在の状態 マスク画像
既存研究:RTDに似たタスクにScene Change Detectionがある- 6 -タスク名 既存研究Scene Change Detection CSCDNet [Sakurada+, ICRA20]C-3PO [Wang+, PR23]Rearrangement Target Detection [松尾+, JSAI23]CSCDNet [Sakurada+, ICRA20] C-3PO [Wang+, PR23]
既存研究:RTDに似たタスクにScene Change Detectionがある- 7 -
既存手法の問題点:RTDのためにはセグメンテーションの性能が不十分- 8 -画素値比較 [松尾, JSAI23]画素値比較 影や明るさ変化に対応できない[松尾+, JSAI23] ドア開閉の深度変化や小物体に対する性能は不十分影の変化をマスク小物体を誤検出ドアの開閉に課題
- 9 -新規性:RGBD画像及びSAM [Kirillov+, 23]で生成したセグメンテーション画像を扱うTrimodal Cross-Attentional Encoder提案手法:Trimodal Cross-Attentional Transformer及びSAMの導入☺深度とセグメント情報の統合及び(Trimodal)目標、現在の状態関係性のモデル化(Cross-Attentional Encoder)
■ SAM [Kirillov+, 23]☺ 各物体の領域情報を与えることができる→小物体や領域予測に役立つMask2Former [Cheng+, CVPR21]はSAMと比べ性能が劣る- 10 -対象画像 Mask2Former SAM一部正確に領域予測出来ていない ☺小物体も正確に予測
提案手法: モデル図の全体像- 11 -Serial EncoderSerial EncoderDecoderTrimodal Cross-Attentional Transformer
- 12 -■ 入力:RGBD画像の組■ SAM [Kirillov+, 23]■ セグメンテーション画像■ Serial Encoder■ Trimodal Cross-Attentional Encoder■ Decoder■ 出力:再配置物体のマスク画像提案手法:主に3 つのモジュールをもつ
Serial Encoder:CoaT [Xu+, ICCV21] による視覚情報の強化- 13 -RGBD画像を結合番目のserial block➀パッチ埋め込み層でダウンサンプリング②平坦化&CLSトークンを結合③Conv-Attention Module [Xu+, ICCV21]を適用④画像トークンとCLSトークンを分離&画像トークンを変形☺ Serial Encoder [Xu+, ICCV21]を用いて複数次元の画像特徴量を抽出
Conv-Attention Module [Xu+, ICCV21]時間,空間計算量を削減したattention構造- 14 -CoaT [Xu+, ICCV21]-Convolutional Position Encoding畳み込みをPosition embeddingとして利用-Factorized Attention☺計算量の削減
提案手法: Trimodal Cross-Attentional Transformerトリモーダル特徴抽出機構- 15 -=1serial blockの出力とセグメンテーション画像の行列和=2画像の連結のみ=3,4目標状態と現在の状態に対するCross-Attention→2つの状態の変化の特徴量を得る
RTDDデータセットの構築:大規模な再配置検出データセット- 16 -◼ AI2-THOR [Kolve+, 17]で作成◼ 目標,現在の状態のRGBD画像◼ 正解マスク画像◼ 12000サンプル(10:1:1)◼ ランダムに対象を配置◼ 30cm以上の移動◼ 60%以上の開閉
定量的結果:ベースライン手法をmIoU及びF1-scoreで上回る■ Trimodal Cross-Attentional Encoderを使用した手法の精度が最高■ 深度画像の寄与が大きい■ ベースライン手法をmIoU及びF1-score で上回った (P<0.05)手法 深度画像 mask mIoU [%] F1-score [%]ベースライン手法[松尾, JSAI23]- - 59.0±0.5 85.2±0.3提案手法✓ 73.4±0.6 91.3±0.2✓ 58.3±0.7 84.9±0.3✓ ✓ 73.5±0.3 91.3±0.1- 17 -+6.1+14.5
定性的結果:課題であるドアの開閉&小物体で良好な結果☺ 引き出しの開閉&机上の小物体の検出でより適切にセグメンテーション- 18 -目標状態 現在の状態 GT [松尾, JSAI23] 提案手法扉の領域が不精確☺小物体の予測
定性的結果:物体内部をより適切にマスク- 19 -目標状態 現在の状態 GT [松尾, JSAI23] 提案手法☺ 大きな物体の内部をより適切にマスク内部領域の予測が不精確☺mIoU 4.5↑
失敗例 : depth画像の寄与度が大きい- 20 -目標状態 現在の状態 GT 提案手法depth画像に透明な物体が存在しない瓶のマスク画像が生成されない
エラー分析 : depth画像に関連したエラーが多い- 21 -エラー種類 サンプル数depthマップ上で違いが分かりにくい物体 41変化距離が短い物体 32過小または過大な領域予測 21アノテーション誤り 20◼ depth画像の寄与度が高い◼ 透明、薄い物体がdepth画像上に存在しない◼ 変化距離の検出に課題
まとめ- 22 -■ 背景✓ 生活支援ロボットに変化検出は重要■ 提案✓ RGBD画像及びSAMで生成したセグメンテーション画像を扱うTrimodal Cross-Attentional Encoder■ 結果✓ ベースラインをmIoU及びF1-scoreにおいて上回る✓ドアの開閉&机上の小物体の検出で良好な結果
Appendix
Google Bard 2/2 : 存在しないものを参照- 24 - Disappeared: The computer mouse has disappeared. Added: There is a small plant on the table.☺ Moved: The position of the keyboard has changed slightly.