Slide 6
Slide 6 text
λ-Representation Encoder:画像の多階層視覚表現を抽出
6
■ 3種類の特徴量によって構成
1. Scene Representation
2. Aligned Representation
3. Narrative Representation
■ 並列に扱うことで表現力が向上
Transformer
例:ViT [Dosovitskiy+, ICLR20]、DINOv2 [Darcet+, ICLR24]、
ResNet、…
色や形等の詳細な特徴量
yellow bottle,
red spherical apple,
gray rectangular table
例:CLIP [Radford+, ICML21]、SigLIP [Zhai+, ICCV23]、…
自然言語とアラインされた特徴量
In the image, there is a yellow
bottle of mustard sitting upright
in the front left of the table
Text Encoder
言語を媒介とした構造的な特徴量
例:InstructBLIP [Dai+, NeurIPS23]、GPT、Gemini、…