ECCV2024論文紹介：Vision & Language

Sansan株式会社部署名前 GiT: Towards Generalist Vision Transformer through Universal
Language Interface Sansan技術本部第61回名古屋CV・PRML勉強会 Sansan株式会社技術本部研究開発部成田泰基

成田泰基 Sansan株式会社技術本部研究開発部研究員愛知工業大学大学院経営情報科学研究科修士課程修了。深層学習を用いた教師なし異常音検知に関する研究に取り組む。 2023年4月、広告代理店にデータサイエンティストとして新卒入社。同年11月、Sansan株式会社に中途入社。
現在は、請求書データ化における研究開発に取り組む。

紹介する論文 - 複数の視覚タスクを単一のVisionTransformerで解くフレームワークとして、 Generalist Vision Transformer (GiT) [Wang+ 2025] を提案
- ECCV2024 Oral 採択

GiT Fig.1より抜粋 - Visionにおける主要な6つのタスクを対象 - 従来手法と比較してLLMを必要としないViTベースのアーキテクチャ

課題 - 一般に複数のタスクを並行で扱うのは難しい - アーキテクチャ・学習の複雑化手法 - ViT [Dosovitskiy+ 2021]
を基盤に自己回帰な機構で出力結果 - 一段階のE2E学習が可能 - 単一タスク手法と比較して良好な性能。既存のGeneralist Modelsを上回る。 - タスク間相互作用における性能向上を確認概要 Fig.1 b) より抜粋

対象とするタスク Fig.1 a) より抜粋 - 以下6つのタスクが対象 - Object Detection -
Open-Vocabulary Detection - Instance Segmentation - Semantic Segmentation - Image Captioning - Visual Grounding

LLaVA [Liu+ 2024] - 学習済みのVision EncoderとLanguage Model を活用 - 視覚特徴
を言語埋め込み特徴と同じ次元に変換する射影行列を学習 - 二段階の訓練 - 射影行列の事前学習 - 射影行列とLanguage Model をファインチューニング Vision Language Modelに関する先行研究: LLaVA LLaVA*よりFigure 1を抜粋

Vision Generalist Modelに関する先行研究: VisionLLM VisionLLM*よりFigure 3を抜粋 VisionLLM [Wang+ 2024] -
視覚特徴を言語埋め込み特徴でcross-attentionしてトークン表現に変換 - 視覚トークン表現をLLMに入力して言語で結果を得る - 二段階の訓練 - Vision Encoder, Language-Guided Image Tokenizerを訓練。LLMはLoRAで訓練。 - Vision Encoder以外をファインチューニング

複数タスクを同時に扱う上での戦略 - 一般に複数のタスクを並行で扱うのは難しい - Object Detection, Segmentation, Captioning … -
それぞれ出力の性質が大きく異なるアーキテクチャ・学習の複雑化 - Vision Encoder, LLM, Tokenizerなど複数のアーキテクチャを扱う - パラメータの増加 - 多段階の学習が必要 - 学習戦略の複雑化 - LLMで見られるようなタスク間の相互効果を妨げる恐れ Vision Generalist Modelの課題

提案手法

ViT [Dosovitskiy+ 2021] を基盤に自己回帰な機構で出力 - 画像をトークンと見なしてタスクプロンプトと結合 - 座標が必要なタスクではグリッド分割（N>1）したLocalパッチを入力提案手法 Fig.2より抜粋

テキストトークンの作成テキスト表現 - 複数の単語からなる単語をそれぞれトークンで表すのは冗長 - BERT [Kenton+ 2019] に倣い、WordPiece [Wu+
2016] によるサブワード変換 - トークンの節約をするために以下のように圧縮 - トークンを単語ごとの - Text Embedding とPosition Embedding のAttentionで表す

Instructional templateで入出力を表現 : パッチ分割された後、線形埋め込みしてトークン化 : タスクプロンプト（e.g. Object Detection）をトークン化 : 各グリッド領域から抽出された局所特徴をトークン化
: タスク識別子を出力用に埋め込みとして保持 : 各タスクに対応する出力トークン入出力の構造

Attention Maskの採用 - <Image and Instruction> ではself-attentionを採用 - <Local><Task> 以降を<Response>として自己回帰な構造
アーキテクチャ Fig.3より抜粋 Fig.7より抜粋

Image-Level - グリッド分割はなし (N=1) - Caption: {<image> “image captioning”: <text>}
- Grounding: {<image><instruction> “visual grounding”: <bbox>} Object-Level (Object Detection) - 画像サイズに対して均等になるようにグリッド分割 - e.g. 1120x1120ならN=625 (25x25) - 各グリッド領域で出力 - {<image> <local feature> ”object detection” } - :クラスラベル, : bbox座標出力の形式 ①

Pixel-Level (Semantic Segmentation) - Object-Levelより細かい分割 - e.g. 672x672ならN=1764 (42x42) -
1/4の(8x8)でピクセル出力して4倍にアップサンプリング - {<image> <local feature> ”semantic segmentation”: } - : ピクセルレベルのクラスラベル出力の形式 ② Fig.4より抜粋

実験

データセット - Multi-Task Datasets - Object Detection, Instance Segmentation -
COCO2017 [Lin+ 2014] - Image Captioning - COCO Caption [Chen+ 2015] - Visual Grounding - RefCOCO [Yu+ 2016] - Semantic Segmentation - ADE20K [Zhou+ 2017] - Extend Datasets - 対象の5タスクに対応した16ソース27のオープンデータで評価 - 学習時はタスク間・データセット間で偏りが出ないように重みづけサンプリング評価指標 - 各タスクにおける標準的な評価指標 - Average Precision (AP) , mean Intersection over Union (mIoU) , … 実験設定

- Specialist Modelsと比較して同程度の性能検証結果: Multi-Task Datasets Table.4より抜粋

- 多段階の学習を取り入れている他モデルより良い性能 - MultiTask-Trainingによる性能向上が見られた検証結果: Multi-Task Datasets (Generalist Modelsとの比較) Table.4より抜粋

- Zero-Shotでは既存手法をほとんど上回る - 広範なデータで学習したuniversalのほうがmulti-taskより良好検証結果: Extend Datasets Table.5より抜粋

定性評価 Appendix Fig.9より抜粋

課題 - 一般に複数のタスクを並行で扱うのは難しい - アーキテクチャ・学習の複雑化手法 - ViT [Dosovitskiy+ 2021]
を基盤に自己回帰な機構で出力結果 - 一段階のE2E学習が可能 - 単一タスク手法と比較して良好な性能。既存のGeneralist Modelsを上回る。 - タスク間相互作用における性能向上を確認まとめ（再掲） Fig.1 b) より抜粋

[Wang+ 2025] H. Wang, H. Tang, L. Jiang, S. Shi,
M.F. Naeem, H. Li, B. Schiele, and L. Wang, "GiT: Towards Generalist Vision Transformer through Universal Language Interface," in European Conference on Computer Vision (ECCV), pp. 55–73, 2025. [Liu+ 2024] H. Liu, C. Li, Q. Wu, and Y.J. Lee, "Visual Instruction Tuning," in Advances in Neural Information Processing Systems (NeurIPS), vol. 36, 2024. [Wang+ 2024] Wenhai Wang, Z. Chen, X. Chen, J. Wu, X. Zhu, G. Zeng, P. Luo, T. Lu, J. Zhou, Y. Qiao, et al., "VisionLLM: Large Language Model is also an Open- Ended Decoder for Vision-Centric Tasks," in Advances in Neural Information Processing Systems (NeurIPS), vol. 36, 2024. [Kenton+ 2019] J.D.M.W.C. Kenton and L.K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," in North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), 2019. [Wu+ 2016] Y. Wu, M. Schuster, Z. Chen, Q.V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, et al., "Google’s Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation," arXiv preprint, arXiv:1609.08144, 2016. [Lin+ 2014] T.Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C.L. Zitnick, "Microsoft COCO: Common Objects in Context," in European Conference on Computer Vision (ECCV), 2014. [Chen+ 2015] X. Chen, H. Fang, T.Y. Lin, R. Vedantam, S. Gupta, P. Dollár, and C.L. Zitnick, "Microsoft COCO Captions: Data Collection and Evaluation Server," arXiv preprint, arXiv:1504.00325, 2015. [Yu+ 2016] L. Yu, P. Poirson, S. Yang, A.C. Berg, and T.L. Berg, "Modeling Context in Referring Expressions," in European Conference on Computer Vision (ECCV), Springer, 2016. [Zhou+ 2017] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba, "Scene Parsing through ADE20K Dataset," in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. [Dosovitskiy+ 2021] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby, "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," in International Conference on Learning Representations (ICLR), 2021. 参考文献

ECCV2024論文紹介：Vision & Language

ECCV2024論文紹介：Vision & Language

hinako0123

More Decks by hinako0123

Featured

Transcript

Sansan株式会社部署名前 GiT: Towards Generalist Vision Transformer through Universal

紹介する論文 - 複数の視覚タスクを単一のVisionTransformerで解くフレームワークとして、 Generalist Vision Transformer (GiT) [Wang+ 2025] を提案

GiT Fig.1より抜粋 - Visionにおける主要な6つのタスクを対象 - 従来手法と比較してLLMを必要としないViTベースのアーキテクチャ

課題 - 一般に複数のタスクを並行で扱うのは難しい - アーキテクチャ・学習の複雑化手法 - ViT [Dosovitskiy+ 2021]

対象とするタスク Fig.1 a) より抜粋 - 以下6つのタスクが対象 - Object Detection -

LLaVA [Liu+ 2024] - 学習済みのVision EncoderとLanguage Model を活用 - 視覚特徴

Vision Generalist Modelに関する先行研究: VisionLLM VisionLLM*よりFigure 3を抜粋 VisionLLM [Wang+ 2024] -

複数タスクを同時に扱う上での戦略 - 一般に複数のタスクを並行で扱うのは難しい - Object Detection, Segmentation, Captioning … -

提案手法

ViT [Dosovitskiy+ 2021] を基盤に自己回帰な機構で出力 - 画像をトークンと見なしてタスクプロンプトと結合 - 座標が必要なタスクではグリッド分割（N>1）したLocalパッチを入力提案手法 Fig.2より抜粋

テキストトークンの作成テキスト表現 - 複数の単語からなる単語をそれぞれトークンで表すのは冗長 - BERT [Kenton+ 2019] に倣い、WordPiece [Wu+

Instructional templateで入出力を表現 : パッチ分割された後、線形埋め込みしてトークン化 : タスクプロンプト（e.g. Object Detection）をトークン化 : 各グリッド領域から抽出された局所特徴をトークン化

Attention Maskの採用 - <Image and Instruction> ではself-attentionを採用 - <Local><Task> 以降を<Response>として自己回帰な構造

Image-Level - グリッド分割はなし (N=1) - Caption: {<image> “image captioning”: <text>}

Pixel-Level (Semantic Segmentation) - Object-Levelより細かい分割 - e.g. 672x672ならN=1764 (42x42) -

実験

データセット - Multi-Task Datasets - Object Detection, Instance Segmentation -

- Specialist Modelsと比較して同程度の性能検証結果: Multi-Task Datasets Table.4より抜粋

- 多段階の学習を取り入れている他モデルより良い性能 - MultiTask-Trainingによる性能向上が見られた検証結果: Multi-Task Datasets (Generalist Modelsとの比較) Table.4より抜粋

- Zero-Shotでは既存手法をほとんど上回る - 広範なデータで学習したuniversalのほうがmulti-taskより良好検証結果: Extend Datasets Table.5より抜粋

定性評価 Appendix Fig.9より抜粋

定性評価 Appendix Fig.9より抜粋

課題 - 一般に複数のタスクを並行で扱うのは難しい - アーキテクチャ・学習の複雑化手法 - ViT [Dosovitskiy+ 2021]

[Wang+ 2025] H. Wang, H. Tang, L. Jiang, S. Shi,