Slide 25
Slide 25 text
Copyright 2022 NTT CORPORATION 24
Copyright 2024 NTT CORPORATION
その他: 報告されている発⾒・知⾒
n 画像を伴う指⽰学習を⾏うと,テキストに関する指⽰追従能⼒が低下する
[Shiono+, NAACL’24 SRW], [Zhang+, arXiv’24]
n 指⽰学習で扱うタスク数がゼロショット性能に⼤きく寄与する [Tanaka+, AAAI’24]
n 画像の解像度とLLMに何を使うかが性能に最も影響する [McKinzie+, arXiv’24], [Laurençon+, arxiv’24]
n テキストデータで指⽰学習を⾏ったLLMを使うかどうかで,画像理解タスクの性能に影響が
出ない [Karamcheti+, ICML’24]
n 画像エンコーダにおいても,モデルサイズとデータ量が重要 [Li+, blog’24]
n 事前学習タスクが異なる複数の画像特徴を同時⼊⼒することで,性能向上
[Tong+, CVPR’24]
Zhang+, Wings: Learning Multimodal LLMs without Text-only Forgetting, arXiv’24
Shiono+, Instruction-Following Evaluation for Large Vision-Language Models, NAACL’24 SRW
McKinzie+, MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training, arXiv’24
Laurençon+, What matters when building vision-language models?, arXiv’24
Karamcheti +, Investigating the Design Space of Visually-Conditioned Language Models, ICML’24
Li+, LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?, blog’24
Tong+, Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs, CVPR’24