CLIPにおける画像・テキストペアによる対照学習 ● 画像・テキストの特徴ベクトルをそれぞれ抽出し、同一ペアは類似度を高く、異なるペアは類似度が低くな るように学習する。(対照学習: Contrastive Learningと呼ばれる) 7 NeRF in the Wild CLIP: Connecting Text and Images
GroupViT:学習方法 CLIPと同様に、画像・テキストペアの特徴ベクトルを抽出し、正しいペア同士の類似度が高くなるように学習する (対照学習) ● ①Image-Text Contrastive Loss ○ CLIPと同様の対照損失 ● ②Multi-Label Image-Text Contrastive Loss ○ オリジナルのテキストからランダムに名詞を 抽出・生成したテキストによる対照損失 ○ Positive pairを水増しできる ● Total loss:①+② 21 NeRF in the Wild ① ②