Slide 1

Slide 1 text

LISA: Reasoning Segmentation via Large Language Model Xin Lai1, Zhuotao Tian2, Yukang Chen1, Yanwei Li1, Yuhui Yuan4, Shu Liu3, Jiaya Jia1,3 1 CUHK, 2 HIT(Shenzhen), 3 SmartMore, 4 MSRA CVPR2024 慶應義塾⼤学 杉浦孔明研究室 ⾬宮佳⾳ Lai, Xin, et al. "LISA: Reasoning Segmentation via Large Language Model.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

Slide 2

Slide 2 text

2 🙆 事前に定義されたカテゴリの物体は認識できる 🙆 単純・明⽰的な表現で指定された物体は認識できる e.g., “the orange” 🙅 複雑な推論が必要な記述は理解できない 🙅 知識や常識を含む記述は理解できない e.g., ”the food with high Vitamin C” |背景(1/2): 既存のPerceptionシステムは暗黙的な指⽰を理解できない ×

Slide 3

Slide 3 text

3 LLMはユーザの暗黙的な意図を推論し理解する能⼒を持つ |背景(2/2): LLMを活用したReasoning Segmentationタスク RQ:この能⼒を活⽤し、複雑な推論を必要とする暗黙的な指⽰⽂から 対象物体のセグメンテーションマスクを⽣成できないか?

Slide 4

Slide 4 text

4 |関連研究 : 既存のセグメンテーション手法とマルチモーダルLLM ⼿法 概要 X-Decoder [Zou+, CVPR23] 画像とテキストを組み合わせ、複数のタスクを単⼀モデルで処理できる汎⽤デコーダ SEEM [Zou+, NeurIPS23] テキスト、⾳声、スクリブルなど多様な⼊⼒を扱えるセグメンテーション⼿法 Flamingo [Alayrac+, NeurIPS22] クロスモーダルアテンションで画像と⾔語を統合し、few-shot学習に強み BLIP-2 [Li+, ICML23] frozenしたvisual encoderから得た画像特徴を、text embeddingとともにLLMに⼊⼒ X-Decoder SEEM BLIP-2

Slide 5

Slide 5 text

5 |提案手法(1/4): large Language Instructed Segmentation Assistant 新規性 セグメンテーション出⼒のrequestを意味するトークンを マルチモーダルLLMの語彙に追加

Slide 6

Slide 6 text

6 |提案手法(2/4): マルチモーダルLLMの処理 ! 𝑦!"! # ℎ#$% ・マルチモーダルLLMの出⼒としてトークンを含んだテキストである ! 𝒚!"! を得る ・マルチモーダルLLMの最終層embeddingであり、 トークンに対応する # 𝒉#$% を抽出 ・ # 𝒉#$% にMLPのprojection layerである𝛾を適⽤して 𝒉#$% を得る 事前学習済みの LLaVAを使⽤ 効率的な fine-tuningを実現

Slide 7

Slide 7 text

7 |提案手法(3/4): VisualエンコーダとMaskデコーダ SAM or Mask2Formerを使⽤ ・Visualエンコーダから画像特徴 𝒇 を得る ・𝒉!"# と 𝒇 を⼊⼒としてMaskデコーダからセグメンテーションマスク # 𝑴 を得る

Slide 8

Slide 8 text

8 |提案手法(4/4): 損失関数 ・テキスト⽣成の損失関数:LLMの出⼒テキストとGTとのクロスエントロピー誤差 ・セグメンテーションマスクの損失関数:バイナリクロスエントロピー誤差とDice誤差の和 ・全体の損失関数 各ピクセルごとの誤差 全体的な重なり度に基づく誤差 𝜆 は異なる損失間のバランスを 調整するための重み係数

Slide 9

Slide 9 text

9 |実験設定(1/3): データセット ・Semantic Segmentation データセット ADE20K [Zhou+, CVPR17], COCO-Stuff [Caesar+, CVPR18], PACO-LVIS [Ramanathan+, CVPR23], PartImageNet [He+, ECCV22], PASCAL-Part [Chen+, CVPR14] ・Vanilla Referring Segmentation データセット refCLEF, refCOCO, refCOCO+ [Kazemzadeh+, EMNLP14], refCOCOg [Mao+, CVPR16] ・Visual Question Answering データセット LLaVA-Instruct-150k [Liu+, 23]

Slide 10

Slide 10 text

10 |実験設定(2/3): ReasonSeg Reasoning Segmentationタスクの評価のため新たなベンチマークを提案 データの種類 image-instruction-maskの組 データ構成 ・train:239 ・val:200 ・test:779 クエリの種類 ・short phrases ・long sentences

Slide 11

Slide 11 text

11 |実験設定(3/3) Backbone マルチモーダルLLM:LLaVA-7B-v1-1, LLaVA-13B-v1-1 [Liu+, 23] Visualエンコーダ:SAM [Kirillov+, ICCV23], Mask2Former [Cheng+, CVPR22] 学習環境・時間 NVIDIA 24G 3090 GPU × 8個 3⽇未満 評価指標 ・gIoU:画像ごとのIoUスコアの平均 ・cIoU:全画像の予測領域と正解領域をまとめた累積IoU

Slide 12

Slide 12 text

12 |定量的結果(1/2): Reasoning Segmentation ・推論を含まないデータセットのみで 学習した場合でも良好な結果 ・ReasonSegでfine-tuningすると さらに優れた結果 ftはReasonSegデータセットでfine-tuningしたもの <-JBOH $713> <-JV $713> <;PV $713> <;PV $713>

Slide 13

Slide 13 text

13 |定量的結果(2/2): Reasoning Segmentation 情報伝達の仲介としてのテキストに依存してしまう2段階アプローチと⽐較して end-to-endの学習のLISAが良好な結果

Slide 14

Slide 14 text

14 |定性的結果(1/2): 既存手法との比較 既存⼿法では複雑な推論をすることが難しいが、LISAでは正しく推論しマスクしている

Slide 15

Slide 15 text

15 |定性的結果(2/2): 複雑・暗黙的な指示文に対する結果 マスクの根拠をテキストで説明 レスリングの知識を踏まえて回答 1つの回答で複数のマスクを⽣成

Slide 16

Slide 16 text

16 |追試およびエラー分析 : 成功例 Generate a segmentation mask of the washbasin in the bathroom. GT Generate a segmentation mask of the hand towel on the towel rack to the left of the sink. マスク ⼊⼒画像

Slide 17

Slide 17 text

17 |追試およびエラー分析 : 失敗例 GT マスク ⼊⼒画像 Generate a segmentation mask of the pillow on the couch closest to the plant in the living room. Generate a segmentation mask of the wall picture closest to the front door in the entryway. マスク誤り 対象物体以外もマスク

Slide 18

Slide 18 text

18 |所感 Strength ▷ 暗黙的な指⽰を理解できるため、ロボットなどの実応⽤に有⽤ ▷ ReasonSegデータセットを⽤いなくてもzero-shotで良好な結果 Weakness ▷ マルチモーダルLLMに依存しており、特にLLaVAの13Bのモデルを使⽤する際に メモリ使⽤量や推論時間が増加する ▷ 指⽰⽂の複雑さや曖昧さの限界がある

Slide 19

Slide 19 text

背景 ▷ 複雑・暗黙的な指⽰⽂から対象物体のセグメンテーションマスクを⽣成できれば便利 提案⼿法:LISA ▷ Reasoning SegmentationタスクとReasonSegベンチマークの提案 ▷ マルチモーダルLLMにセグメンテーション能⼒を付加 結果 ▷ Reasoning Segmentationタスクにおいて全ての指標でSOTAを達成 19 |まとめ

Slide 20

Slide 20 text

20 Appendix

Slide 21

Slide 21 text

21 |定量的結果 : RES Reasoning Segmentationタスクだけでなく、 RESタスクにおいても良好な結果 評価指標は全てcIoU +1.1 +2.6 +2.1 -0.9 -0.2 +0.4 +2.9 +4.6 <-VP $713> <%JOH *$$7> <8BOH *$$7> <:BOH $713> <-JV $713>

Slide 22

Slide 22 text

22 | Ablation studies(1/2): Visualエンコーダ COCOデータセットのみでトレーニングされたMask2Formerよりも 数⼗億の⾼品質マスクでトレーニングされたSAMの⽅が良好な結果

Slide 23

Slide 23 text

23 | Ablation studies(2/2): SAMへのLoRAの適用 LoRAのfine-tuningにより元のSAMモデルの⼀般化能⼒が損なわれるため LoRAを適⽤したSAMよりもfrozenされたSAMの⽅が良好な結果