Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ECCV2024論文紹介:Vision & Language

hinako0123
December 24, 2024
34

ECCV2024論文紹介:Vision & Language

hinako0123

December 24, 2024
Tweet

Transcript

  1. Sansan株式会社 部署 名前 GiT: Towards Generalist Vision Transformer through Universal

    Language Interface Sansan技術本部 第61回 名古屋CV・PRML勉強会 Sansan株式会社 技術本部 研究開発部 成田 泰基
  2. 課題 - 一般に複数のタスクを並行で扱うのは難しい - アーキテクチャ・学習の複雑化 手法 - ViT [Dosovitskiy+ 2021]

    を基盤に自己回帰な機構で出力 結果 - 一段階のE2E学習が可能 - 単一タスク手法と比較して良好な性能。既存のGeneralist Modelsを上回る。 - タスク間相互作用における性能向上を確認 概要 Fig.1 b) より抜粋
  3. 対象とするタスク Fig.1 a) より抜粋 - 以下6つのタスクが対象 - Object Detection -

    Open-Vocabulary Detection - Instance Segmentation - Semantic Segmentation - Image Captioning - Visual Grounding
  4. LLaVA [Liu+ 2024] - 学習済みのVision EncoderとLanguage Model を活用 - 視覚特徴

    を言語埋め込み特徴 と同じ次元に変換する射影行列 を学習 - 二段階の訓練 - 射影行列 の事前学習 - 射影行列 とLanguage Model をファインチューニング Vision Language Modelに関する先行研究: LLaVA LLaVA*よりFigure 1を抜粋
  5. Vision Generalist Modelに関する先行研究: VisionLLM VisionLLM*よりFigure 3を抜粋 VisionLLM [Wang+ 2024] -

    視覚特徴 を言語埋め込み特徴 でcross-attentionしてトークン表現に変換 - 視覚トークン表現 をLLMに入力して言語で結果を得る - 二段階の訓練 - Vision Encoder, Language-Guided Image Tokenizerを訓練。LLMはLoRAで訓練。 - Vision Encoder以外をファインチューニング
  6. 複数タスクを同時に扱う上での戦略 - 一般に複数のタスクを並行で扱うのは難しい - Object Detection, Segmentation, Captioning … -

    それぞれ出力の性質が大きく異なる アーキテクチャ・学習の複雑化 - Vision Encoder, LLM, Tokenizerなど複数のアーキテクチャを扱う - パラメータの増加 - 多段階の学習が必要 - 学習戦略の複雑化 - LLMで見られるようなタスク間の相互効果を妨げる恐れ Vision Generalist Modelの課題
  7. テキストトークンの作成 テキスト表現 - 複数の単語からなる単語をそれぞれトークンで表すのは冗長 - BERT [Kenton+ 2019] に倣い、WordPiece [Wu+

    2016] によるサブワード変換 - トークンの節約をするために以下のように圧縮 - トークンを単語ごとの - Text Embedding とPosition Embedding のAttentionで表す
  8. Image-Level - グリッド分割はなし (N=1) - Caption: {<image> “image captioning”: <text>}

    - Grounding: {<image><instruction> “visual grounding”: <bbox>} Object-Level (Object Detection) - 画像サイズに対して均等になるようにグリッド分割 - e.g. 1120x1120ならN=625 (25x25) - 各グリッド領域で出力 - {<image> <local feature> ”object detection” } - :クラスラベル, : bbox座標 出力の形式 ①
  9. Pixel-Level (Semantic Segmentation) - Object-Levelより細かい分割 - e.g. 672x672ならN=1764 (42x42) -

    1/4の(8x8)でピクセル出力して4倍にアップサンプリング - {<image> <local feature> ”semantic segmentation”: } - : ピクセルレベルのクラスラベル 出力の形式 ② Fig.4より抜粋
  10. データセット - Multi-Task Datasets - Object Detection, Instance Segmentation -

    COCO2017 [Lin+ 2014] - Image Captioning - COCO Caption [Chen+ 2015] - Visual Grounding - RefCOCO [Yu+ 2016] - Semantic Segmentation - ADE20K [Zhou+ 2017] - Extend Datasets - 対象の5タスクに対応した16ソース27のオープンデータで評価 - 学習時はタスク間・データセット間で偏りが出ないように重みづけサンプリング 評価指標 - 各タスクにおける標準的な評価指標 - Average Precision (AP) , mean Intersection over Union (mIoU) , … 実験設定
  11. 課題 - 一般に複数のタスクを並行で扱うのは難しい - アーキテクチャ・学習の複雑化 手法 - ViT [Dosovitskiy+ 2021]

    を基盤に自己回帰な機構で出力 結果 - 一段階のE2E学習が可能 - 単一タスク手法と比較して良好な性能。既存のGeneralist Modelsを上回る。 - タスク間相互作用における性能向上を確認 まとめ(再掲) Fig.1 b) より抜粋
  12. [Wang+ 2025] H. Wang, H. Tang, L. Jiang, S. Shi,

    M.F. Naeem, H. Li, B. Schiele, and L. Wang, "GiT: Towards Generalist Vision Transformer through Universal Language Interface," in European Conference on Computer Vision (ECCV), pp. 55–73, 2025. [Liu+ 2024] H. Liu, C. Li, Q. Wu, and Y.J. Lee, "Visual Instruction Tuning," in Advances in Neural Information Processing Systems (NeurIPS), vol. 36, 2024. [Wang+ 2024] Wenhai Wang, Z. Chen, X. Chen, J. Wu, X. Zhu, G. Zeng, P. Luo, T. Lu, J. Zhou, Y. Qiao, et al., "VisionLLM: Large Language Model is also an Open- Ended Decoder for Vision-Centric Tasks," in Advances in Neural Information Processing Systems (NeurIPS), vol. 36, 2024. [Kenton+ 2019] J.D.M.W.C. Kenton and L.K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," in North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), 2019. [Wu+ 2016] Y. Wu, M. Schuster, Z. Chen, Q.V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, et al., "Google’s Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation," arXiv preprint, arXiv:1609.08144, 2016. [Lin+ 2014] T.Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C.L. Zitnick, "Microsoft COCO: Common Objects in Context," in European Conference on Computer Vision (ECCV), 2014. [Chen+ 2015] X. Chen, H. Fang, T.Y. Lin, R. Vedantam, S. Gupta, P. Dollár, and C.L. Zitnick, "Microsoft COCO Captions: Data Collection and Evaluation Server," arXiv preprint, arXiv:1504.00325, 2015. [Yu+ 2016] L. Yu, P. Poirson, S. Yang, A.C. Berg, and T.L. Berg, "Modeling Context in Referring Expressions," in European Conference on Computer Vision (ECCV), Springer, 2016. [Zhou+ 2017] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba, "Scene Parsing through ADE20K Dataset," in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. [Dosovitskiy+ 2021] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby, "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," in International Conference on Learning Representations (ICLR), 2021. 参考文献