[RSJ23] Referring Expression Segmentation Based on Multimodal Foundation Models and Diffusion Models

マルチモーダル基盤モデルと拡散モデルに基づく対象物体の参照表現セグメンテーション慶應義塾大学今井悠人，飯岡雄偉，畑中駿平，九曜克之，杉浦孔明

背景：生活支援ロボットによる介助者不足解消への期待 2 冷蔵庫のペットボトルのお茶持ってきてうす • 少子高齢社会では、被介助者が増加 – 介助者不足が社会問題に – 2025年の日本では約32万人の不足が予測
• 『第８期介護保険事業計画に基づく介護職員の必要数について』, 厚生労働省, 2021 • 生活支援ロボットに期待 – 人間からの命令文を理解できれば便利

“the pillow with stripes on the sofa” Inputs: 画像, 参照表現
問題設定：参照表現セグメンテーション＋命令文理解 • 対象タスク：Object Segmentation from Manipulation Instructions（OSMI） – 命令文と画像から対象物のセグメンテーションマスクを予測 – 長い命令文から、動作対象物の特定が必要 3 Output：マスク RES

“the pillow with stripes on the sofa” Inputs: 画像, 参照表現
問題設定：参照表現セグメンテーション＋命令文理解 • 対象タスク：Object Segmentation from Manipulation Instructions（OSMI） – 命令文と画像から対象物のセグメンテーションマスクを予測 – 長い命令文から、動作対象物の特定が必要 4 Go to the family room and pick the pillow with stripes on the sofa to me Inputs: 画像, 命令文 Output：マスク OSMI

タスク手法概要 RES LAVT [Yang+, CVPR22] 中間層で言語と画像の特徴量を早期にマージ CRIS
[Wang+, CVPR22] CLIP [Radford+, PMLR21] の持つ知識をテキストとピクセルの対応に活用 OSMI MDSM [Iioka+, IROS23] LAVTとDDPM [Ho+, NeurIPS20]による2段階のセグメンテーション関連研究：既存手法では命令文理解や対象物の領域予測が不十分 5 [Yang+, CVPR22] [Iioka, IROS23]

[Wang+, CVPR22] CLIP [Radford+, PMLR21] の持つ知識をテキストとピクセルの対応に活用 OSMI MDSM [Iioka+, IROS23] LAVTとDDPM [Ho+, NeurIPS20]による2段階のセグメンテーション関連研究：既存手法では命令文理解や対象物の領域予測が不十分 6 [Yang+, CVPR22] [Iioka, IROS23] “Go to the living room and bring me the light brown pillow next to the plant“ Ground-Truth LAVT MDSM

[Wang+, CVPR22] CLIP [Radford+, PMLR21] の持つ知識をテキストとピクセルの対応に活用 OSMI MDSM [Iioka+, IROS23] LAVTとDDPM [Ho+, NeurIPS20]による2段階のセグメンテーション関連研究：既存手法では命令文理解や対象物の領域予測が不十分 7 [Yang+, CVPR22] [Iioka, IROS23] `昨今話題となっている SEEM [Zou+, 23]でも OSMIタスクを解くのは難しい Ground-Truth “Pick up the plant in front of the mirror”

MDSM [Iioka, IROS23] を拡張 1st Step : Intermediate Training Step
(ITS) • 並列クロスモーダル特徴抽出機構を導入 2nd Step : Diffusion Step (DS) • 拡散モデルのDDPM [Ho+, NeurIPS20] を拡張 • マルチモーダル特徴量によるマスク洗練提案手法 (1/2)：並列特徴抽出+マルチモーダル特徴量によるマスク洗練新規性 8 Intermediate Training Step Grab the box furthest from … and bring it to me Diffusion Step CLIP image encoder PMAM MRM Swin-B

DS：マスクを洗練 ITS：マスクを生成提案手法 (2/2)：並列特徴抽出+マルチモーダル特徴量によるマスク洗練 9

ITS：並列なクロスモーダル特徴抽出機構の効率化 • Parallel Multimodal Attention Module (PMAM) – 大規模視覚言語モデルCLIP＋多様スケールに対応するSwin Transformer
[Liu+, IEEE21] • PWAM [Yang+, CVPR22] – 言語と画像の特徴量を計算コストを削減して注意計算 10

ITS：並列なクロスモーダル特徴抽出機構の効率化 • Parallel Multimodal Attention Module (PMAM) – 大規模視覚言語モデルCLIP＋多様スケールに対応するSwin Transformer
[Liu+, IEEE21] • PWAM [Yang+, CVPR22] – 言語と画像の特徴量を計算コストを削減して注意計算 11

PWAM : 計算コストを少なくして交差注意を算出 • 通常の画素に関する注意計算 –  画素数による計算コスト大 • 画像-言語間の交差注意
–  計算効率◦ – 𝑐𝑐 : チャネル数 12 [Yang+, CVPR22] 画像特徴言語特徴

• – PWAM [Yang+, CVPR22] によってマルチモーダル特徴量を作成 • 最も浅い層のみにPWAMを作用 – マルチモーダル特徴量+
ITSで得た特徴量によって、再構成されたマスクを予測 DS：拡散モデルを拡張、マルチモーダル特徴量によるマスク洗練 13

実験設定：実世界の室内環境データセットSHIMRIEを利用 • SHIMRIEデータセット [Iioka+, IROS23] – 命令文，対応する画像，および対象物のマスク画像が含まれる – REVERIE
[Qi+, CVPR20]および Matterport3D [Chang+, IEEE18]を用いて構築 16 画像数命令文数語彙サイズ平均文長 4,341 11,371 3,558 18.8

定量的結果：全ての評価尺度で既存手法の性能を上回る • 評価指標 – mIoU(mean IoU), oIoU(overall IoU), Precision@0.5 17
[%] mIoU oIoU P@0.5 (i) LAVT [Yang+, CVPR22] 24.27±3.15 22.25±2.85 21.27±5.66 (ii) MDSM [Iioka+, IROS23] 33.02±5.51 30.25±4.92 32.76±5.28 (iii) Ours 36.15±5.95 33.18±5.12 36.63±6.92 11.88ポイント↑ 3.13ポイント↑

定性的結果(成功例)：参照表現理解性能の向上 18 LAVT MDSM Ours “Go to the bathroom on
level 3 and bring me the picture frame that‘s further into the room” Ground-Truth

定性的結果(成功例)：参照表現理解性能の向上 19 LAVT MDSM Ours Ground-Truth [ベースライン手法]  全く異なる領域を予測 “Go
to the bathroom on level 3 and bring me the picture frame that‘s further into the room”

定性的結果(成功例)：参照表現理解性能の向上 20 LAVT MDSM Ground-Truth Ours “Go to the bathroom
on level 3 and bring me the picture frame that‘s further into the room” [提案手法]  正しい絵画を予測

定性的結果(成功例)：命令文に適したセグメンテーションマスクの生成 21 LAVT MDSM Ours “Empty the tissue box in
the bathroom on level one” Ground-Truth

the bathroom on level one” Ground-Truth [ベースライン手法]  “Tissue”のみを予測

the bathroom on level one” Ground-Truth [提案手法]  “Tissue box”を予測

• ベースライン手法、提案手法ともに間違って予測 – 予測対象のクラスは正しいが、参照表現理解に誤り定性的結果(失敗例)：参照表現中の画角外物体による失敗 24 “Visit the level 1
bathroom and bring me the picture nearest the toilet”

bathroom and bring me the picture nearest the toilet”  入力画像には存在しない

bathroom and bring me the picture nearest the toilet”  入力画像には存在しない [改善案] OpenScene [Peng+, CVPR23] 環境の3D点群全体を扱う

• 各評価指標において、提案手法の寄与が確認 Ablation Study : PMAM・MRMの導入による性能向上 Method PMAM Layer w/
MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 27

MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 28 Encoderの第𝑁𝑁層にPMAMを挿入

MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 29 +8.75pt  PMAM自体の有用性

MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 30 +5.36pt  Encoderの深い層ほど性能向上

MRM Mean IoU[%] Overall IoU [%] LAVT - - 24.27±3.15 22.25±2.85 Ours 1 ✓ 30.79±2.64 29.06±2.03 4 ✓ 36.15±5.95 33.18±5.12 4 - 33.02±5.51 30.25±4.92 31 +3.13pt  MRMの有用性

まとめ 32 • 背景 – 在宅介助者不足に対する生活支援ロボットへの期待 • 提案 – 並列に特徴抽出を行うモジュール
– 拡散モデルの画像特徴と言語特徴の交差注意機構 • 結果 – 全ての評価尺度でベースライン手法を上回る

Appendix : ボトルネックは参照表現理解能力 33 • テスト集合のmIoU下位100サンプルに対しエラー分析を実施エラー要因エラー数全く異なる物体領域を予測 30
参照表現を誤って理解し，対象物と同カテゴリの別物体領域を予測 19 対象物体に加えて，異なる領域も予測 17 過剰もしくは過少な領域を予測 15 対象物以外で命令文に含まれる物体の領域を予測 8 予測される領域が存在しない 7 その他のエラー 4 合計 100

Appendix : OSMIにおける命令文長 • RESタスクのデータセットと比較して、10単語以上差がある – 対象物体の特定が困難 34 データセット平均文長
G-Ref [Mao+, CVPR16] 8.4 SHIMRIE 18.8

Appendix : 評価指標 35 • 評価指標 – Mean IoU (mIoU)：全サンプルにおけるIoUの平均
– Overall IoU (oIoU)：全サンプルのunion areaの合計とintersection areaの合計の比 – Precision@ (P@ )：IoUがを超えるサンプルの割合

[RSJ23] Referring Expression Segmentation Based...

[RSJ23] Referring Expression Segmentation Based on Multimodal Foundation Models and Diffusion Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript