Representation 3. Narrative Representation ▪ 並列に扱うことで表現力が向上 Transformer 例:ViT [Dosovitskiy+, ICLR20]、DINOv2 [Darcet+, ICLR24]、 ResNet、… 色や形等の詳細な特徴量 yellow bottle, red spherical apple, gray rectangular table 例:CLIP [Radford+, ICML21]、SigLIP [Zhai+, ICCV23]、… 自然言語とアラインされた特徴量 In the image, there is a yellow bottle of mustard sitting upright in the front left of the table Text Encoder 言語を媒介とした構造的な特徴量 例:InstructBLIP [Dai+, NeurIPS23]、GPT、Gemini、…