Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]Interfacing Foundation Models’ Embeddings

[Journal Club]Interfacing Foundation Models’ Embeddings

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Xueyan Zou1, Linjie Li2, Jianfeng Wang2, Jianwei Yang2, Mingyu Ding3,

    Zhengyuan Yang2, Feng Li4, Hao Zhang4, Shilong Liu5, Arul Aravinthan1, Yong Lee1, Lijuan Wang2, 1UW-Madison, 2Microsoft, 3UC Berkeley, 4HKUST, 5Tsinghua University Interfacing Foundation Models’ Embeddings Zou, Xueyan, et al. "Interfacing Foundation Models' Embeddings." arXiv preprint arXiv:2312.07532, 2023. 慶應義塾大学 飯岡雄偉
  2. 概要:視覚言語間の相互入力/出力を可能に ▪ X-Decoder [Zou+, CVPR23],SEEM [Zou+, NeurIPS23]の後続モデル ▪ 背景 ◦

    基盤モデルの訓練はコストが大きい & モダリティやタスクの制限がある ▪ 提案手法:FIND ◦ Configを書き換えるだけで様々なモダリティやタスクを統一的に扱うモデル ➢ 柔軟性があり,多様な基盤モデルへ応用可能 ▪ 結論 ◦ 新たなベンチマークFIND-Bench,SegmentationおよびImage Retrievalにおい て、既存手法と同等以上の性能 2
  3. 関連研究:X-Decoder, SEEMにおける基盤モデル ▪ X-Decoder [Zou+, CVPR23] ◦ マルチモーダル/タスクの基盤モデル ◦ 統一されたdecoderで複数タスクを扱う

    ◦ 入力は画像と言語のみ 5 ▪ SEEM [Zou+, NeurIPS23] ◦ 言語での接地にとどまらず,画像内物体 を指定して入力できる ➢ 入力の柔軟性を向上 ◦ Segmentationタスクのみを扱う
  4. 提案手法:Embedding Preparation ▪ 基盤モデルの中間特徴量を抽出 ◦ Features - Img: X-Decoder -

    Txt: LLaMa [Touvron+, 2023] ◦ Tokens - Configによって,promptと画像特徴 量をfusionさせたりする - 基本的にはLinear 8 [Zou+, NeurIPS23]
  5. 提案手法:Projection & Task Head ▪ Projection ◦ 最終層の特徴量をLinearで処理し,意味的特徴量とピクセルごとの特徴量を抽出 ▪ Task

    Head ◦ 意味的なproposalsとqueriesを乗算することで,各項目における類似度の高い インデックスを求める ◦ maskを生成するのであれば,ピクセルごとの特徴量と画像特徴量を乗算 10
  6. Case Study:Interleave Segmentation 13 p q f t.s t.i p

    q f t.s t.i Content Attention p q t.s t.i p q t.s t.i Conditional Attention
  7. Case Study:Interleave Segmentation 14 p q t.s t.i p q

    t.s t.i Linear 類似度とマスクを求める Projection & Task Head Conditional Attention
  8. 実験設定:新たなベンチマークFIND-Bench ▪ 対象タスク ◦ Generic segmentation = panoptic segmentation ◦

    Grounded segmentation = referring expression segmentation ◦ Interactive segmentation - 画像中のなかのユーザがプロンプト指定した物体についてセグメンテーション ◦ Image-Text retrieval ◦ Interleave segmentation - 画像と言語,プロンプトの混ざった入力によるセグメンテーション ◦ Interleave retrieval : 言語+画像 言語/画像の検索 16
  9. 定量的結果:既存手法と同等以上の性能 17 Gen. Seg. Gro. Seg. Interact. Seg. I-T Ret.

    dataset COCO RefCOCO-g COCO-E Point Circle Box COCO-P metrics PQ mIoU mIoU mIoU mIoU mIoU IR@1 TR@1 SEEM 57.5 70.3 57.8 88.5 89.6 76.5 - - X-Decoder 56.9 - - - - - 58.7 72.0 BLIP-2 - - - - - - 66.3 65.8 FIND 56.7 70.5 64.2 88.5 89.5 77.4 67.2 68.6
  10. 定量的結果:既存手法と同等以上の性能 18 Interleave Segmentation Interleave Retrieval dataset COCO-E COCO-P COCO-E

    COCO-P metrics mIoU mIoU IR@5 IR@10 IR@5 TR@5 SEEM 69.0 68.4 - - - - X-Decoder - - 26.8 36.2 32.2 43.4 BLIP-2 - - 34.3 47.7 39.3 54.7 FIND 69.7 68.6 53.4 66.7 62.7 75.0
  11. まとめ:FIND ▪ X-Decoder [Zou+, CVPR23],SEEM [Zou+, NeurIPS23]の後続モデル ▪ 背景 ◦

    基盤モデルの訓練はコストが大きい & モダリティやタスクの制限がある ▪ 提案手法:FIND ◦ Configを書き換えるだけで様々なモダリティやタスクを統一的に扱うモデル ➢ 柔軟性があり,多様な基盤モデルへ応用可能 ▪ 結論 ◦ 新たなベンチマークFIND-Bench,SegmentationおよびImage Retrievalにおいて、既存 手法と同等以上の性能 21
  12. 所感 ▪ Strengths ◦ 言語と画像,そしてプロンプト表現を同時に扱うのは新規性があって面白い ◦ 他の基盤モデルにも簡単に応用可能であるところ ▪ Weaknesses ◦

    数式のミスが多い ◦ 軽量な学習という記載があるが,実験環境や訓練時間の記載がない ▪ Comment ◦ こういった基盤モデルの応用方法を考えることで,少ない計算資源でも大規模モデルに挑め る可能性が十分にあるのは面白い 22