Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ23] Referring Expression Segmentation Based...

[RSJ23] Referring Expression Segmentation Based on Multimodal Foundation Models and Diffusion Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 背景:生活支援ロボットによる介助者不足解消への期待 2 冷蔵庫のペットボトルのお茶持ってきて うす • 少子高齢社会では、被介助者が増加 – 介助者不足が社会問題に – 2025年の日本では約32万人の不足が予測

    • 『第8期介護保険事業計画に基づく介護職員の 必要数について』, 厚生労働省, 2021 • 生活支援ロボットに期待 – 人間からの命令文を理解できれば便利
  2. “the pillow with stripes on the sofa” Inputs: 画像, 参照表現

    問題設定:参照表現セグメンテーション+命令文理解 • 対象タスク:Object Segmentation from Manipulation Instructions(OSMI) – 命令文と画像から対象物のセグメンテーションマスクを予測 – 長い命令文から、動作対象物の特定が必要 3 Output:マスク RES
  3. “the pillow with stripes on the sofa” Inputs: 画像, 参照表現

    問題設定:参照表現セグメンテーション+命令文理解 • 対象タスク:Object Segmentation from Manipulation Instructions(OSMI) – 命令文と画像から対象物のセグメンテーションマスクを予測 – 長い命令文から、動作対象物の特定が必要 4 Go to the family room and pick the pillow with stripes on the sofa to me Inputs: 画像, 命令文 Output:マスク OSMI
  4. タスク 手法 概要 RES LAVT [Yang+, CVPR22] 中間層で言語と画像の特徴量を 早期にマージ CRIS

    [Wang+, CVPR22] CLIP [Radford+, PMLR21] の持つ知識を テキストとピクセルの対応に活用 OSMI MDSM [Iioka+, IROS23] LAVTとDDPM [Ho+, NeurIPS20]による2段階 のセグメンテーション 関連研究:既存手法では命令文理解や対象物の領域予測が不十分 5 [Yang+, CVPR22] [Iioka, IROS23]
  5. タスク 手法 概要 RES LAVT [Yang+, CVPR22] 中間層で言語と画像の特徴量を 早期にマージ CRIS

    [Wang+, CVPR22] CLIP [Radford+, PMLR21] の持つ知識を テキストとピクセルの対応に活用 OSMI MDSM [Iioka+, IROS23] LAVTとDDPM [Ho+, NeurIPS20]による2段階 のセグメンテーション 関連研究:既存手法では命令文理解や対象物の領域予測が不十分 6 [Yang+, CVPR22] [Iioka, IROS23] “Go to the living room and bring me the light brown pillow next to the plant“ Ground-Truth LAVT MDSM
  6. タスク 手法 概要 RES LAVT [Yang+, CVPR22] 中間層で言語と画像の特徴量を 早期にマージ CRIS

    [Wang+, CVPR22] CLIP [Radford+, PMLR21] の持つ知識を テキストとピクセルの対応に活用 OSMI MDSM [Iioka+, IROS23] LAVTとDDPM [Ho+, NeurIPS20]による2段階 のセグメンテーション 関連研究:既存手法では命令文理解や対象物の領域予測が不十分 7 [Yang+, CVPR22] [Iioka, IROS23] `昨今話題となっている SEEM [Zou+, 23]でも OSMIタスクを解くのは難しい Ground-Truth “Pick up the plant in front of the mirror”
  7. MDSM [Iioka, IROS23] を拡張 1st Step : Intermediate Training Step

    (ITS) • 並列クロスモーダル特徴抽出機構を導入 2nd Step : Diffusion Step (DS) • 拡散モデルのDDPM [Ho+, NeurIPS20] を拡張 • マルチモーダル特徴量によるマスク洗練 提案手法 (1/2):並列特徴抽出+マルチモーダル特徴量によるマスク洗練 新規性 8 Intermediate Training Step Grab the box furthest from … and bring it to me Diffusion Step CLIP image encoder PMAM MRM Swin-B
  8. • – PWAM [Yang+, CVPR22] によってマルチモーダル特徴量を作成 • 最も浅い層のみにPWAMを作用 – マルチモーダル特徴量+

    ITSで得た特徴量によって、再構成されたマスクを予測 DS:拡散モデルを拡張、マルチモーダル特徴量によるマスク洗練 13
  9. • – PWAM [Yang+, CVPR22] によってマルチモーダル特徴量を作成 • 最も浅い層のみにPWAMを作用 – マルチモーダル特徴量+

    ITSで得た特徴量によって、再構成されたマスクを予測 DS:拡散モデルを拡張、マルチモーダル特徴量によるマスク洗練 14
  10. • – PWAM [Yang+, CVPR22] によってマルチモーダル特徴量を作成 • 最も浅い層のみにPWAMを作用 – マルチモーダル特徴量+

    ITSで得た特徴量によって、再構成されたマスクを予測 DS:拡散モデルを拡張、マルチモーダル特徴量によるマスク洗練 15
  11. 実験設定:実世界の室内環境データセットSHIMRIEを利用 • SHIMRIEデータセット [Iioka+, IROS23] – 命令文,対応する画像,および 対象物のマスク画像が含まれる – REVERIE

    [Qi+, CVPR20]および Matterport3D [Chang+, IEEE18]を用いて構築 16 画像数 命令文数 語彙サイズ 平均文長 4,341 11,371 3,558 18.8
  12. 定量的結果:全ての評価尺度で既存手法の性能を上回る • 評価指標 – mIoU(mean IoU), oIoU(overall IoU), [email protected] 17

    [%] mIoU oIoU [email protected] (i) LAVT [Yang+, CVPR22] 24.27±3.15 22.25±2.85 21.27±5.66 (ii) MDSM [Iioka+, IROS23] 33.02±5.51 30.25±4.92 32.76±5.28 (iii) Ours 36.15±5.95 33.18±5.12 36.63±6.92 11.88ポイント↑ 3.13ポイント↑
  13. 定性的結果(成功例):参照表現理解性能の向上 18 LAVT MDSM Ours “Go to the bathroom on

    level 3 and bring me the picture frame that‘s further into the room” Ground-Truth
  14. 定性的結果(成功例):参照表現理解性能の向上 20 LAVT MDSM Ground-Truth Ours “Go to the bathroom

    on level 3 and bring me the picture frame that‘s further into the room” [提案手法]  正しい絵画を予測
  15. 定性的結果(成功例):命令文に適したセグメンテーションマスクの生成 22 LAVT MDSM Ours “Empty the tissue box in

    the bathroom on level one” Ground-Truth [ベースライン手法]  “Tissue”のみを予測
  16. • ベースライン手法、提案手法ともに間違って予測 – 予測対象のクラスは正しいが、参照表現理解に誤り 定性的結果(失敗例):参照表現中の画角外物体による失敗 26 “Visit the level 1

    bathroom and bring me the picture nearest the toilet”  入力画像には存在しない [改善案] OpenScene [Peng+, CVPR23] 環境の3D点群全体を扱う
  17. • 各評価指標において、提案手法の寄与が確認 Ablation Study : PMAM・MRMの導入による性能向上 Method PMAM Layer w/

    MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 27
  18. • 各評価指標において、提案手法の寄与が確認 Ablation Study : PMAM・MRMの導入による性能向上 Method PMAM Layer w/

    MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 28 Encoderの第𝑁𝑁層にPMAMを挿入
  19. • 各評価指標において、提案手法の寄与が確認 Ablation Study : PMAM・MRMの導入による性能向上 Method PMAM Layer w/

    MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 29 +8.75pt  PMAM自体の有用性
  20. • 各評価指標において、提案手法の寄与が確認 Ablation Study : PMAM・MRMの導入による性能向上 Method PMAM Layer w/

    MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 30 +5.36pt  Encoderの深い層ほど性能向上
  21. • 各評価指標において、提案手法の寄与が確認 Ablation Study : PMAM・MRMの導入による性能向上 Method PMAM Layer w/

    MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 31 +3.13pt  MRMの有用性
  22. まとめ 32 • 背景 – 在宅介助者不足に対する生活支援ロボットへの期待 • 提案 – 並列に特徴抽出を行うモジュール

    – 拡散モデルの画像特徴と言語特徴の交差注意機構 • 結果 – 全ての評価尺度でベースライン手法を上回る
  23. Appendix : ボトルネックは参照表現理解能力 33 • テスト集合のmIoU下位100サンプルに対しエラー分析を実施 エラー要因 エラー数 全く異なる物体領域を予測 30

    参照表現を誤って理解し,対象物と同カテゴリの別物体領域を予測 19 対象物体に加えて,異なる領域も予測 17 過剰もしくは過少な領域を予測 15 対象物以外で命令文に含まれる物体の領域を予測 8 予測される領域が存在しない 7 その他のエラー 4 合計 100
  24. Appendix : 評価指標 35 • 評価指標 – Mean IoU (mIoU):全サンプルにおけるIoUの平均

    – Overall IoU (oIoU):全サンプルのunion areaの合計とintersection areaの合計の比 – Precision@ (P@ ):IoUが を超えるサンプルの割合